女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何利用Flood多維索引技術實現優化數據存儲布局

牽手一起夢 ? 來源:學術頭條 ? 作者:佚名 ? 2020-09-22 16:38 ? 次閱讀

在多維索引表格(multi-dimensional table)上進行掃描和篩選是現代分析型數據庫引擎的關鍵技術。為了對這些操作進行優化,數據庫常建立起聚類的索引結構(indexes),如R-Trees,Z-ordering等,然而這些索引結構在不同的數據集以及查詢集合(query workload)下很難進行統一優化。在本篇論文中,提出了名為Flood的多維學習索引結構。通過同時優化索引結構以及存儲布局,這種結構自動地調整自身以適應具體數據集和查詢集合。該工作用來為端到端學習型數據庫系統構建索引模塊。

論文背景

在多維索引表格上進行掃描和篩選是現代分析型數據庫引擎的關鍵技術之一。如果數據完全根據其中某一個屬性(attribute)進行組織,即不會涉及到多個屬性同時被訪問的情況,那么通過建立平衡樹或者進行簡單二分搜索的方法已經足夠。然而,如果數據需要通過不同屬性進行篩選,那么通過建立多層索引的方法是不足以解決問題的。多層索引所帶來的存儲代價是的這項技術只能被應用在很小的范圍內。另一種解決方案是建立起多維索引(multi-dimensional indexes)對數據進行組織管理。如Redshift以及Spark-SQL使用Z-ordering技術來對數據進行布局,一些空間數據庫則嘗試使用R-tree來進行索引。然而,現有的多維索引技術有著顯著的缺點。首先,這些技術都非常難以根據實際的數據集進行優化。其次,沒有一項方案可以作為所有問題的統一解決方法。不同的數據集以及查詢集合將會決定使用不同的多維索引技術。

為了解決上述缺點,本文提出了名為Flood的基于內存的學習多維索引。該索引方案的重點在于自動地同時優化數據存儲布局以及索引的結構,以此來獲得優于其他所有多維索引的索引速度。Flood框架有以下兩個重點idea:

1. 使用一個下采樣的查詢集合,即一小部分查詢樣例構成的查詢集合樣本,以此來學習不同維度屬性在查詢過程中的使用頻率。基于該信息,Flood框架自動地調節數據存儲布局,以此優化索引性能。

2. 使用一個累計分布函數CDF(Calculative Distribution Function)模型來將多維上可能的傾斜數據映射到一個均勻空間中。這個平滑(Flatten)過程使得每一個存儲的存儲單元儲存的數據量基本一致。以此更快地進行索引。

Flood框架的主要貢獻有三:

1. 提出了第一個學習型多維索引,Flood框架。Flood從一個篩選斷言集合,即一個下采樣的查詢集合中學習查詢集合的分布函數,以此調節數據存儲布局。

2. 使用三個真實數據集評估了多個不同的多維索引結構,實驗顯示Flood框架大大優于其他的多維索引結構。

3. 實驗顯示出Flood框架在不同的Filter Predicates上都實現了搜索加速,其索引結構的建立速度與其他多維索引的建立速度相當。

論文模型

如何利用Flood多維索引技術實現優化數據存儲布局

多維索引查詢的難點在于同時對Y和Z兩個屬性進行篩選,對其中某一個維度進行排序的二分搜索無法順利完成該任務。

數據布局

如果把整個多維空間看作一個歐幾里得空間的話,不同于單維數據,多維數據不可以基于一個維度,或者屬性進行排序,這導致很多單維上可以使用的索引方法在多維索引上并不適用。但是如果將整個空間分成一個個小的格子,在單獨一個格子內使用統一維度進行排序,則在訪問該格子內的數據中就可以通過使用單維索引技術加速索引。

模型基本操作

1. 映射查找存儲塊(Projection):通過查詢中的篩選條件得到需要遍歷的數據網格,并且將索引范圍約束在這些網格當中。

2. 凝練查找范圍(Refinement):對按照某一維度進行排序的網格數據進行進一步篩選,根據查找篩選條件對排序維度的限制進一步縮小檢索的范圍。

3. 進行搜索。

網格優化

網格分割需要決定每一個維度所應該分割的子空間個數。Flood框架可以通過學習選擇合適的網格個數以及決定哪一個維度作為排序維度,即在網格內對數據進行排序的維度。

數據學習優化索引結構

1. 數據平滑化

根據CDF模型,對空間進行不均勻的劃分,達到每一個網格的數據點數量基本一致。實驗顯示當數據量方差較小時,索引的速度有所加快。

2. 快速查找范圍凝練(使用機器學習方法)

在凝練搜索范圍的過程中,通過使用學習索引模型,RMI(Recursive Model Index),這一個多層線性回歸模型的索引結構,加速范圍索引的速度。論文中稱之為piecewise linear model。

實驗

本文在Sales,OSM,Perform三個真實數據上進行了試驗。

同時,還驗證了數據扁平化等優化方法在提升索引速度上的有效性。

責任編輯:gt

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 內存
    +關注

    關注

    8

    文章

    3107

    瀏覽量

    74970
  • 數據庫
    +關注

    關注

    7

    文章

    3900

    瀏覽量

    65732
  • 引擎
    +關注

    關注

    1

    文章

    366

    瀏覽量

    22875
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    MRAM存儲替代閃存,FPGA升級新技術

    優化的架構設計和成熟的制程技術,具備內置的硬擦除器、錯誤檢測和校正機制,為用戶提供了可靠的開發環境。用戶可利用最新的Radiant工具,直接實現MRAM的編程接口,支持多種
    發表于 03-08 00:10 ?587次閱讀

    嵌入式系統存儲的軟件優化策略

    寫入,整體擦除。 實際軟件開發過程中,根據如上數據特點,為保證產品穩定性在如下3個階段給出優化方案: ·產品開發前做對應存儲方案選型,能夠提前評估出風險。通過實際應用場景產品的目標壽命, 評估出
    發表于 02-28 14:17

    嵌入式系統中的代碼優化與壓縮技術

    以及資源利用效率。 一、代碼優化的重要性 嵌入式設備往往資源有限,如內存空間小、處理器性能相對較弱。高效的代碼能夠在有限資源下實現更強大的功能。以智能家居中的溫度傳感器節點為例,其運行的代碼若未經
    發表于 02-26 15:00

    利用三維數字孿生技術打造礦山管理平臺

    模型相結合,實現了實時監測、數據分析、預測和優化管理,是實現智能礦山目標的關鍵手段。 本項目旨在利用先進的三維數字孿生
    的頭像 發表于 02-20 09:35 ?395次閱讀
    <b class='flag-5'>利用</b>三維數字孿生<b class='flag-5'>技術</b>打造礦山管理平臺

    【「基于大模型的RAG應用開發與優化」閱讀體驗】RAG基本概念

    World graph)和PQ(Product Quantization)量化復合索引技術。這種技術組合能夠在百萬級別的數據規模下,實現
    發表于 02-08 00:22

    創建唯一索引的SQL命令和技巧

    在創建唯一索引時,以下是一些SQL命令和技巧,可以幫助優化性能: 使用合適的索引類型:對于需要保證唯一性的列,使用UNIQUE索引來避免重復數據
    的頭像 發表于 01-09 15:21 ?364次閱讀

    利用Arm Kleidi技術實現PyTorch優化

    PyTorch 是一個廣泛應用的開源機器學習 (ML) 庫。近年來,Arm 與合作伙伴通力協作,持續改進 PyTorch 的推理性能。本文將詳細介紹如何利用 Arm Kleidi 技術提升 Arm
    的頭像 發表于 12-23 09:19 ?842次閱讀
    <b class='flag-5'>利用</b>Arm Kleidi<b class='flag-5'>技術</b><b class='flag-5'>實現</b>PyTorch<b class='flag-5'>優化</b>

    SSM框架的性能優化技巧 SSM框架中RESTful API的實現

    : 緩存可以顯著提高系統的響應速度。 在SSM中,可以使用Redis或Memcached等緩存技術來緩存頻繁訪問的數據,如數據庫查詢結果、用戶信息等。 同時,也可以利用Spring
    的頭像 發表于 12-17 09:10 ?677次閱讀

    如何優化EEPROM的數據存儲策略

    。它廣泛應用于需要存儲少量數據的場合,如微控制器、傳感器和嵌入式系統中。優化EEPROM的數據存儲策略可以提高
    的頭像 發表于 12-16 17:21 ?1136次閱讀

    Vivado之實現布局布線流程介紹

    一、前言 本文將介紹Vivado進行綜合,以及布局布線的內部流程,熟悉該流程后結合Settings中對應的配置選項,對于時序收斂調試將更具有針對性。 二、Implementation(實現實現
    的頭像 發表于 12-06 09:08 ?1565次閱讀
    Vivado之<b class='flag-5'>實現</b><b class='flag-5'>布局</b>布線流程介紹

    SMT流水線布局優化技巧

    在電子制造領域,SMT(表面貼裝技術)流水線的布局優化對于提高生產效率、降低成本和提升產品質量至關重要。一個合理的流水線布局可以減少物料搬運時間,提高設備
    的頭像 發表于 11-14 09:11 ?913次閱讀

    如何優化emc存儲性能

    在當今的數據中心環境中,存儲性能對于業務連續性和數據訪問速度至關重要。EMC作為領先的存儲解決方案提供商,其產品線涵蓋了從入門級到企業級的存儲
    的頭像 發表于 11-01 15:57 ?833次閱讀

    優化TPS546xx的布局實現熱性能

    電子發燒友網站提供《優化TPS546xx的布局實現熱性能.pdf》資料免費下載
    發表于 10-12 10:31 ?0次下載
    <b class='flag-5'>優化</b>TPS546xx的<b class='flag-5'>布局</b>以<b class='flag-5'>實現</b>熱性能

    如何利用三種 SOT-563 封裝實現共同布局

    電子發燒友網站提供《如何利用三種 SOT-563 封裝實現共同布局.pdf》資料免費下載
    發表于 09-10 14:25 ?0次下載
    如何<b class='flag-5'>利用</b>三種 SOT-563 封裝<b class='flag-5'>實現</b>共同<b class='flag-5'>布局</b>

    ClickHouse內幕(3)基于索引的查詢優化

    ClickHouse索引采用唯一聚簇索引的方式,即Part內數據按照order by keys有序,在整個查詢計劃中,如果算子能夠有效利用輸入數據
    的頭像 發表于 06-11 10:46 ?1271次閱讀
    ClickHouse內幕(3)基于<b class='flag-5'>索引</b>的查詢<b class='flag-5'>優化</b>