女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云計(jì)算數(shù)據(jù)壓縮方案

共熵服務(wù)中心 ? 來源:未知 ? 2022-12-14 19:15 ? 次閱讀

1d499454-7ba0-11ed-8abf-dac502259ad0.png

文章轉(zhuǎn)發(fā)自51CTO【ELT.ZIP】OpenHarmony啃論文俱樂部——《云計(jì)算數(shù)據(jù)壓縮方案》

1.技術(shù)DNA

1de4ed00-7ba0-11ed-8abf-dac502259ad0.png

2. 智慧場景

1e18e880-7ba0-11ed-8abf-dac502259ad0.jpg

3.前言概覽

近年來,相機(jī)、衛(wèi)星、地震監(jiān)測等傳感設(shè)備產(chǎn)生了大量的流數(shù)據(jù)。云計(jì)算技術(shù)使這些流數(shù)據(jù)的存儲、訪問和管理變得更加容易,也降低了成本。其中,云存儲系統(tǒng)成為在各種云服務(wù)器上存儲數(shù)據(jù)塊的一種有前途的技術(shù),其主要機(jī)制之一是數(shù)據(jù)復(fù)制。數(shù)據(jù)復(fù)制的目標(biāo)是解決云存儲的可用性、可靠性、安全性、帶寬和數(shù)據(jù)訪問的響應(yīng)時(shí)間,從而使數(shù)據(jù)密集型項(xiàng)目能夠?qū)崿F(xiàn)更優(yōu)越的性能。然而,既然復(fù)制,就免不了會產(chǎn)生過多的重復(fù)副本造成資源浪費(fèi)。因此,便產(chǎn)生了一種通過移除重復(fù)副本來減小云存儲系統(tǒng)中數(shù)據(jù)占用的大小,實(shí)現(xiàn)數(shù)據(jù)壓縮、避免資源浪費(fèi)的重復(fù)數(shù)據(jù)刪除技術(shù)。

以一種典型的傳統(tǒng)分類方式來看,可以將此重復(fù)數(shù)據(jù)刪除技術(shù)分為delta-based和hash-based兩類。本著相同的目標(biāo),前者基于相似性的消除,后者基于加密函數(shù)而發(fā)揮作用。

而在另一種分類方式中,可以將此重復(fù)數(shù)據(jù)刪除技術(shù)分為基于服務(wù)器和基于客戶端兩類。前者中,消除冗余數(shù)據(jù)的操作是在服務(wù)器接收到數(shù)據(jù)后完成的,而后者則在發(fā)送數(shù)據(jù)之前就先在客戶端檢查數(shù)據(jù)的重復(fù)性。

后文將對以上內(nèi)容一一解析,不過開始之前,我們還是先了解一些云計(jì)算的周邊內(nèi)容。

4.云計(jì)算

4.1 云計(jì)算產(chǎn)生背景

云存儲數(shù)字?jǐn)?shù)據(jù)量的不斷增加 ,需要更多的存儲空間,高效的技術(shù) ,處理這些數(shù)據(jù)。

那么何為云計(jì)算?是如上圖一般把網(wǎng)線接到云彩上進(jìn)行計(jì)算嗎?當(dāng)然不是,這是一種形象的比喻,云計(jì)算提供了一種新的互聯(lián)網(wǎng)技術(shù)方式,利用互聯(lián)網(wǎng)和中央遠(yuǎn)程服務(wù)器管理資源和應(yīng)用程序。許多最終用戶以最低的成本使用這一創(chuàng)新,并且無需安裝就可以訪問應(yīng)用程序。

4.2 公有云和私有云

云計(jì)算可以是公共云或是私有云。公共云平臺(例如AWS和Microsoft Azure)將資源集中在分布在全球各地的數(shù)據(jù)中心,用戶可以通過公共互聯(lián)網(wǎng)訪問它們。這些資源通過計(jì)量服務(wù)提供給客戶,云計(jì)算供應(yīng)商負(fù)責(zé)不同程度的后端維護(hù)。

私有云被托管在企業(yè)數(shù)據(jù)中心或托管數(shù)據(jù)中心設(shè)施中。雖然其功能不如大規(guī)模的公共云。但它們確實(shí)有一定的彈性,企業(yè)的開發(fā)人員和管理人員仍然可以使用自助服務(wù)門戶訪問資源。從理論上來說,私有云提供了更好的控制和安全性,但這需要企業(yè)的IT團(tuán)隊(duì)的努力。

云計(jì)算部署模型包括私有云、公共云、兩者的混合,以及多個(gè)云平臺的組合。也可以將公共云和私有云鏈接以創(chuàng)建混合云,或者可以將兩個(gè)或多個(gè)公共云連接以創(chuàng)建多云架構(gòu)。

4.3 云計(jì)算主要優(yōu)點(diǎn)

  • 可容錯(cuò)

  • 處理速度快

  • 存儲容量大

  • 帶寬寬

  • 允許使用 Internet 訪問遠(yuǎn)程信息和文件

  • 大規(guī)模數(shù)據(jù)分析和數(shù)據(jù)挖掘

  • 物聯(lián)網(wǎng)等物物互聯(lián)的場景運(yùn)用

4.4云計(jì)算存在問題

云服務(wù)中最重要、最典型的是信息存儲服務(wù)。數(shù)據(jù)的安全性、個(gè)人數(shù)據(jù)的隱私性保護(hù)、數(shù)據(jù)訪問的權(quán)限管理、數(shù)據(jù)的容災(zāi)備份、數(shù)據(jù)拜訪的實(shí)時(shí)性會受網(wǎng)絡(luò)穩(wěn)定性影響。以及如何降低冗余數(shù)據(jù)、減少存儲成本。

4.5常見的云存儲供應(yīng)商

1ebb8b62-7ba0-11ed-8abf-dac502259ad0.jpg

亞馬遜、微軟、谷歌和阿里巴巴四大云服務(wù)廠商,占據(jù)了全球七成以上市場份額。緊隨四大市場領(lǐng)導(dǎo)者后面的有IBM、Salesforce、騰訊、Oracle和一大批市場份額較小的公司。而亞馬遜在全球公有云服務(wù)市場中的領(lǐng)導(dǎo)地位主要是由于其市場份額第一緣故。

4.6云計(jì)算與大數(shù)據(jù)

云計(jì)算和大數(shù)據(jù)是近六七年來大熱的兩個(gè)概念,很多時(shí)候,二者都是被綁定在一起談?wù)摰摹?/span>

大數(shù)據(jù)就是通過搜集海量的數(shù)據(jù)對其進(jìn)行分析和處理,發(fā)現(xiàn)隱藏在這些數(shù)據(jù)背后的潛在聯(lián)系,洞察內(nèi)在過程,進(jìn)而使這些數(shù)據(jù)轉(zhuǎn)化或推導(dǎo)出具有更多價(jià)值的信息,最終為用戶的決策提供幫助。放到日常工作生活中的典型表現(xiàn)就是“喜歡看什么,就會推什么”:當(dāng)我們刷一些娛樂類或者新聞?lì)惖腶pp時(shí),看到感興趣的內(nèi)容就免不了會駐足多停留一段時(shí)間,可能還會直接去搜相關(guān)的話題,這時(shí)大數(shù)據(jù)就已經(jīng)完成了標(biāo)記、為你的ID打上了相應(yīng)的標(biāo)簽。基于內(nèi)容相關(guān)性的頻次或后臺的定位信息等,標(biāo)簽也會不盡相同。盡管覺得自己凈如白紙,但在平臺的全閉環(huán)下,大數(shù)據(jù)總是能精確地捕捉并震撼到我們。

4.7云計(jì)算的技術(shù)

云計(jì)算本質(zhì)上是分布式計(jì)算的一種,通過對任務(wù)的分發(fā),實(shí)現(xiàn)多端并行計(jì)算,最終再進(jìn)行計(jì)算結(jié)果的合并。它提供了計(jì)算資源的虛擬化池,存儲、應(yīng)用、內(nèi)存、處理能力和服務(wù)都是在用戶需要時(shí)可以用來請求這些資源的實(shí)例。其中,云服務(wù)通常分為平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)和基礎(chǔ)設(shè)施即服務(wù)(IaaS)三種模式,三者的主要區(qū)別就是提供服務(wù)的方式不同,需要用戶根據(jù)實(shí)際需要進(jìn)行選擇匹配。此外,基于云計(jì)算的思路,還衍生出了霧計(jì)算、邊緣計(jì)算、移動(dòng)邊緣計(jì)算(MEC)和移動(dòng)云計(jì)算(MCC)。

5.云存儲

云存儲是一種有用的移動(dòng)邊緣計(jì)算(M E C)設(shè)備,其特點(diǎn)是存儲空間有限。這些數(shù)據(jù)或日志數(shù)據(jù)可以在需要時(shí)被存儲和訪問到云存儲服務(wù)中。為了提高M(jìn) E C設(shè)備上的云存儲服務(wù)體驗(yàn),可以將多個(gè)云存儲服務(wù)合并成一個(gè)統(tǒng)一的云存儲在云存儲中,在處理大量數(shù)據(jù)時(shí),無法避免重復(fù)。盡管云存儲空間巨大,這種復(fù)制極大地浪費(fèi)了網(wǎng)絡(luò)資源,消耗了大量電能,并使數(shù)據(jù)管理變得復(fù)雜。重復(fù)數(shù)據(jù)刪除可以節(jié)省大量空間和成本,備份應(yīng)用可以減少高達(dá) 90-95%的存儲需求,標(biāo)準(zhǔn)文件系統(tǒng)可以減少高達(dá) 68%的存儲需求。數(shù)據(jù)重復(fù)刪除和數(shù)據(jù)壓縮是在云中優(yōu)化存儲的可用技術(shù)中使用的最突出的技術(shù)。

5.1 重復(fù)數(shù)據(jù)刪除技術(shù)

隨機(jī)復(fù)制作為一種流行的復(fù)制方案,已廣泛用于云存儲系統(tǒng),如Hadoop分布式文件系統(tǒng)(HDFS)、RAMCloud、Google文件系統(tǒng)(GFS)和微軟Azure等,使用隨機(jī)復(fù)制從不同機(jī)房隨機(jī)選擇的三臺服務(wù)器中復(fù)制數(shù)據(jù),從而防止單個(gè)集群中的數(shù)據(jù)丟失。然而,三方隨機(jī)復(fù)制不能很好地應(yīng)對機(jī)器故障,若三個(gè)節(jié)點(diǎn)的隨機(jī)組合同時(shí)出現(xiàn)錯(cuò)誤,就會造成數(shù)據(jù)丟失。

為了解決以上問題,便提出了Copyset復(fù)制和分層復(fù)制兩種方案。但又出現(xiàn)了新的問題:它們都沒有試圖降低由于復(fù)制而造成的存儲成本和帶寬成本。盡管后續(xù)又提出了更多相關(guān)的復(fù)制方案,但仍然存在著同樣的問題。

于是,有學(xué)者設(shè)計(jì)了一種叫做流行感知的多故障彈性和經(jīng)濟(jì)有效的復(fù)制方案(PMCR)的方案。它比之前的復(fù)制方案都有優(yōu)勢,且同時(shí)具有以下特點(diǎn):

  • 可以處理相關(guān)或不相關(guān)的機(jī)器故障

  • 壓縮那些很少使用的冷門數(shù)據(jù)的副本

  • 降低了存儲和帶寬成本

  • 不會顯著影響數(shù)據(jù)持久性、數(shù)據(jù)可用性和數(shù)據(jù)請求的延遲

5.1.1 SC、DC壓縮

由于PMCR方案的操作是一整套流程,我們在此只關(guān)注其中壓縮數(shù)據(jù)降低冗余度的部分。

SC全稱Similarity Compression,是依據(jù)數(shù)據(jù)相似性壓縮的一種方法;DC全稱Delta Compression,意即增量壓縮。PMCR使用SC壓縮讀密集型數(shù)據(jù),使用DC壓縮寫密集型數(shù)據(jù)。SC刪除文件或文件中相似的塊,文件請求用戶在接收到壓縮文件后,可再恢復(fù)已刪除的數(shù)據(jù)塊;DC存儲文件的副本和與此文件相似的其他文件的不同部分,以上將會被傳輸給文件請求用戶。而當(dāng)文件更新時(shí),只需將更新后的部分同步到副本節(jié)點(diǎn)即可。

5.1.1.1相似性壓縮(SC)

進(jìn)行SC時(shí),相似的塊被分組在一起,一定數(shù)量相似的小塊形成一個(gè)大塊。然后,刪除重復(fù)的塊或接近重復(fù)的塊到一個(gè)塊。在PMCR中,當(dāng)壓縮讀密集型數(shù)據(jù)時(shí),對于每一組相似的塊,只需存儲第一個(gè)塊即可,剩下的冗余塊可刪除;對于不同數(shù)據(jù)對象之間的冗余塊,也可消除,方式大體分為文件內(nèi)壓縮和文件間壓縮:

1ee8474c-7ba0-11ed-8abf-dac502259ad0.png

1f0d7f76-7ba0-11ed-8abf-dac502259ad0.png

5.1.1.2增量壓縮(DC)

1f29b650-7ba0-11ed-8abf-dac502259ad0.png

如圖,B塊和B’塊都是相似的塊,它們之間的差異用橙色標(biāo)記出,此時(shí),便可用DC存儲橙色區(qū)域。當(dāng)塊B或塊B’被更新時(shí),只需將更新的部分而非整個(gè)塊發(fā)送到復(fù)制服務(wù)器即可,然后,副本服務(wù)器再更新相應(yīng)的部分。要將數(shù)據(jù)發(fā)送給用戶,只需傳輸存儲的不同部分和B塊的完整部分。

5.1.2DSHA算法

現(xiàn)有系統(tǒng)使用(任何類型的)加密散列算法(如 MD5 或 Secure 散列算法),生成散列值,重復(fù)數(shù)據(jù)刪除這些算法產(chǎn)生固定長度的 128 位或 160 位分別作為輸出以識別復(fù)制的存在。同時(shí)用一個(gè)額外的內(nèi)存空間存儲哈希值。

本文提出了一種高效的分布式存儲哈希算法(Distributed Storage Hash Algorithm, DSHA),以減少用于識別和丟棄冗余數(shù)據(jù)的哈希值所占用的內(nèi)存空間。

結(jié)論:實(shí)驗(yàn)分析表明,該策略降低了哈希值的內(nèi)存利用率,提高了數(shù)據(jù)讀寫性能。

5.2SDM技術(shù)

SDM是一種針對移動(dòng)設(shè)備的智能重復(fù)數(shù)據(jù)刪除系統(tǒng),提高了云存儲作為移動(dòng)設(shè)備上的存儲解決方案的可行性。SDM旨在利用多核技術(shù) 在現(xiàn)代移動(dòng)處理器上的架構(gòu)。為了減少重復(fù)數(shù)據(jù)刪除過程的時(shí)間,針對每種文件類型的最佳重復(fù)數(shù)據(jù)刪除方法,而不依賴于針對每種文件類型的任何配置。由于其設(shè)計(jì),學(xué)習(xí)系統(tǒng)不存在散列不兼容性。

5.2.1移動(dòng)設(shè)備和云存儲服務(wù)的固有限制

  • 移動(dòng)設(shè)備的性能限制 移動(dòng)設(shè)備的處理功率和電源受到限制。

  • 有限的存儲容量 由于其外形因素,也很難在移動(dòng)設(shè)備中安裝高容量的存儲空間。云存儲供應(yīng)商提供的免費(fèi)存儲容量 往往很小,升級需支付額外費(fèi)用。

  • 網(wǎng)絡(luò)帶寬 網(wǎng)絡(luò)帶寬對于訪問云存儲至關(guān)重要。遺憾的是,網(wǎng)絡(luò)帶寬通常被限制在免費(fèi)存儲上,云存儲服務(wù)的帶寬是在活動(dòng)用戶的數(shù)量之間劃分的,會導(dǎo)致更長的訪問時(shí)間,在大多數(shù)在某些情況下,這將導(dǎo)致云存儲服務(wù)的性能低于客戶的網(wǎng)絡(luò)性能。

  • 價(jià)格昂貴的無線網(wǎng)絡(luò)收費(fèi)

  • 有限網(wǎng)絡(luò)覆蓋范圍 網(wǎng)絡(luò)覆蓋對移動(dòng)用戶來說可能是一個(gè)問題。當(dāng)用戶超出網(wǎng)絡(luò)覆蓋范圍時(shí),所有的網(wǎng)絡(luò)活動(dòng)都將是已停止,這意味著沒有云存儲服務(wù)。

5.2.2系統(tǒng)架構(gòu)

我們建議使用智能重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行移動(dòng)云存儲(SDM)。SDM在文件級和塊級使用多級重復(fù)數(shù)據(jù)刪除方法,這些方法由學(xué)習(xí)系統(tǒng)集成(學(xué)習(xí)系統(tǒng)選擇最佳的重復(fù)數(shù)據(jù)消除 方法來實(shí)現(xiàn)最佳的數(shù)據(jù)減少和能量消耗。此外,我們還使用哈希表和一個(gè)bloom過濾器來進(jìn)行本地搜索并添加并行化來提高應(yīng)用程序的性能。整個(gè)系統(tǒng)如圖所示。整個(gè)過程是可逆的,因?yàn)橹貜?fù)數(shù)據(jù)刪除是一個(gè)無損壓縮的操作。

1f4715e2-7ba0-11ed-8abf-dac502259ad0.png

文件級重復(fù)數(shù)據(jù)刪除 在文件級別上,重復(fù)數(shù)據(jù)刪除可以通過比較整個(gè)文件來進(jìn)行操作。由于它只將一個(gè)哈希值與另一個(gè)文件哈希值進(jìn)行比較,因此該進(jìn)程比其他方法更快。但是,當(dāng)文件的一部分發(fā)生更改時(shí),整個(gè)哈希值也會發(fā)生更改。這就降低了文件級重復(fù)數(shù)據(jù)刪除的性能。

塊級重復(fù)數(shù)據(jù)刪除 當(dāng)在塊級別執(zhí)行重復(fù)數(shù)據(jù)刪除時(shí),處理的文件被分割為多個(gè)塊。每個(gè)塊的處理與文件級重復(fù)數(shù)據(jù)刪除中的文件相同。塊的大小可以是固定大小的或可變大小的。

1f6f422e-7ba0-11ed-8abf-dac502259ad0.png

塊級變化不會影響其他塊的哈希值,但是,在一個(gè)塊部分字節(jié)變化上就會改變多個(gè)塊的哈希值。可變大小的塊或內(nèi)容定義的分塊通過使用固定的分塊偏移量來分割一個(gè)文件來解決這個(gè)問題。固定的分塊偏移量可以通過使用Rabin滾動(dòng)散列找到。Rabin滾動(dòng)散列使用多項(xiàng)式和一個(gè)滑動(dòng)窗口來進(jìn)行散列。為了找到分塊偏移量,我們滑動(dòng)和散列窗口,直到哈希匹配一個(gè)預(yù)定義的值。

5.2.3應(yīng)用場景

客戶端API 該方案提供了客戶端與存儲服務(wù)器之間良好的接口。通過選擇合適的存儲節(jié)點(diǎn), 可以降低 CPU 負(fù)載。

System.out.println();
jLabel3.setText(digits+outputString1);
Class.forname("com.mysql.jdbc.Driver");
con = DriverManager.getConnection("jdbc//localhost:3306/javamysql", "root", "root");
String HashValue = digits + outputString1;
String status = null;
int result, tab = 0;

5.2.4性能測試數(shù)據(jù)

安卓的一個(gè)原型實(shí)現(xiàn)上的實(shí)現(xiàn):

  • 僅限文件級重復(fù)數(shù)據(jù)刪除的系統(tǒng)(FDS)

  • 僅限塊級重復(fù)數(shù)據(jù)刪除的系統(tǒng)(BDS)

  • 針對移動(dòng)設(shè)備或SDM的智能重復(fù)數(shù)據(jù)刪除

  • 預(yù)配置的重復(fù)數(shù)據(jù)刪除系統(tǒng)(PCDS)
文件類型 分配重復(fù)數(shù)據(jù)刪除方法

mp3

文件級
jpg 文件級
pdf 塊級
obb 塊級

未知的

塊級
RADS的工作原理是使用重復(fù)數(shù)據(jù)消除比率來確定每種文件類型應(yīng)該使用哪種重復(fù)數(shù)據(jù)消除方法。如果沒有達(dá)到該文件類型 的目標(biāo)重復(fù)數(shù)據(jù)刪除比率,則系統(tǒng)將選擇另一種重復(fù)數(shù)據(jù)刪除方法。對于每種文件類型,重復(fù)數(shù)據(jù)刪除比率通過將重復(fù)數(shù)據(jù)刪除文件大小除以文件大小來計(jì)算。
  • 旋轉(zhuǎn)重復(fù)數(shù)據(jù)刪除系統(tǒng)(RADS)

文件類型 已分配的重復(fù)數(shù)據(jù)刪除方法 目標(biāo)重復(fù)數(shù)據(jù)消除率(%)

mp3

5文件級 5
jpg 文件級 5
pdf 塊級 5
obb 塊級 25

未知的

塊級 10

5.2.5測試結(jié)果

演示不同的重復(fù)數(shù)據(jù)刪除系統(tǒng)在處理未知文件類型時(shí)的性能:

1f97af2a-7ba0-11ed-8abf-dac502259ad0.png

總的來說,SDM比其他系統(tǒng)表現(xiàn)得更好,特別是在未知的文件類型上,因?yàn)槲覀兊南到y(tǒng)不需要對不同的文件類型進(jìn)行任 何特定的配置。對于大多數(shù)情況下文件和塊級之間的重復(fù)數(shù)據(jù)刪除吞吐量,以及接近塊級重復(fù)數(shù)據(jù)刪除精度的重復(fù)數(shù)據(jù)刪 除精度,與其他系統(tǒng)相比,我們的系統(tǒng)可以使云存儲作為移動(dòng)設(shè)備的存儲解決方案更加可行。

6.Ares數(shù)據(jù)壓縮框架

6.1介紹

現(xiàn)代應(yīng)用中的數(shù)據(jù)爆炸現(xiàn)象給存儲系統(tǒng)帶來了巨大的壓力,因此開發(fā)者使用數(shù)據(jù)壓縮技術(shù)來解決這個(gè)問題。但是,在考慮輸入數(shù)據(jù)類型和格式時(shí),每個(gè)壓縮庫都表現(xiàn)出不同的優(yōu)勢和劣勢。所以有相關(guān)學(xué)者提出了Ares,一個(gè)智能、自適應(yīng)和靈活的模塊化壓縮框架,可以根據(jù)工作負(fù)載的類型為給定的輸入數(shù)據(jù)動(dòng)態(tài)選擇壓縮庫,并為用戶提供適當(dāng)?shù)幕A(chǔ)設(shè)施來微調(diào)所選的庫。Ares是一個(gè)模塊化框架,它統(tǒng)一了多個(gè)壓縮庫,同時(shí)允許用戶添加更多壓縮庫。同時(shí),Ares也是一個(gè)統(tǒng)一的壓縮引擎,它抽象了每個(gè)工作負(fù)載使用不同壓縮庫的復(fù)雜性。

在科學(xué)和云計(jì)算領(lǐng)域的實(shí)際運(yùn)用中,Ares的執(zhí)行速度相比其他解決方案快了 2-6 倍,而且附加數(shù)據(jù)分析的成本較低。與完全沒有壓縮的基線相比,速度快了 10 倍。

6.2面臨的問題

我們知道,無損壓縮算法分為兩類:通用算法和專用算法。像Bzip、Zlib、7z這些就是屬于通用壓縮庫,事實(shí)上,它們的性能的確很好,但不足是不會利用數(shù)據(jù)表示之間的細(xì)微差別。所以又有了一些更專門的算法,比如Snappy、SPDP、LZO等,這一類算法通過最小化數(shù)據(jù)占用空間來提高應(yīng)用程序的整體性能,因而有著廣泛的前景。

盡管有以上這些特定領(lǐng)域的壓縮庫的良好發(fā)展,但是仍然面臨幾個(gè)比較現(xiàn)實(shí)的問題:

  • 數(shù)據(jù)依賴:由于每個(gè)庫對某種數(shù)據(jù)類型的專一化,致使對于其他情況來說,它通常不夠一般化。即使選擇了庫,大多數(shù)應(yīng)用程序由于使用很多不同類型的數(shù)據(jù),因此僅使用一個(gè)庫也不會產(chǎn)生最佳性能。

  • 庫的選擇:不同的庫有著不同的優(yōu)點(diǎn)和缺點(diǎn),通常為一個(gè)用例選擇合適的庫是困難的。即使在同一個(gè)應(yīng)用程序中,其不同部分也會有著不同的壓縮需求。比如檔案的存儲需要高的壓縮比,而進(jìn)程間的數(shù)據(jù)共享需要高的壓/解壓縮速度。

  • API和可用性:每個(gè)壓縮庫都有自己的一組參數(shù)和API,通常很難過渡到或采用新的庫,沒有哪種壓縮算法可為所有類型的數(shù)據(jù)、文件格式或應(yīng)用程序需求提供最佳性能。我們希望可以有一個(gè)智能的框架,能夠無縫統(tǒng)一多個(gè)庫,并根據(jù)特定場景動(dòng)態(tài)選擇“最佳”壓縮算法。

6.3基準(zhǔn)測試

既然要統(tǒng)一不同算法,那首先就要確切地掌握它們的實(shí)際表現(xiàn)。因此,學(xué)者對廣泛選擇的壓縮庫通過全面的基準(zhǔn)測試進(jìn)行了性能評估:

1fc7dfe2-7ba0-11ed-8abf-dac502259ad0.png

1ffbb2c2-7ba0-11ed-8abf-dac502259ad0.png

202b40c8-7ba0-11ed-8abf-dac502259ad0.png

從數(shù)據(jù)類型、數(shù)據(jù)格式和工作負(fù)載優(yōu)先級三個(gè)維度進(jìn)行了測試,篇幅有限,細(xì)節(jié)分析部分這里不再具體展開。簡單總結(jié)為:通過觀察各個(gè)庫之間的性能變化,可以發(fā)現(xiàn)每個(gè)工作負(fù)載都可以從智能的動(dòng)態(tài)壓縮框架中受益。

6.4Ares的體系架構(gòu)

2068e450-7ba0-11ed-8abf-dac502259ad0.png

Ares架構(gòu)的核心是即插即用,框架是一個(gè)中間件庫,它封裝了多個(gè)壓縮庫,從用戶側(cè)抽象出它們的復(fù)雜性。應(yīng)用程序可以使用Ares作為工具(CLI)或作為一個(gè)庫(API)。在這兩種情況下,Ares內(nèi)部的數(shù)據(jù)流是相同的。首先,Ares分析輸入數(shù)據(jù),以識別所涉及的數(shù)據(jù)類型和格式。其輸入可以是一個(gè)文件、一個(gè)目錄或一個(gè)以前壓縮過的文件(file.ares)。然后,將分析結(jié)果傳遞給主引擎,由主引擎決定哪個(gè)壓縮庫最適合給定的情況。根據(jù)決策,Ares利用一個(gè)庫池,其中包括預(yù)編譯的壓縮庫(目前的原型中已存在11個(gè)),再執(zhí)行壓/解壓縮操作。最后,Ares用其元數(shù)據(jù)修飾壓縮數(shù)據(jù),并輸出.ares文件到磁盤。

6.5要點(diǎn)評估

6.5.1開銷和資源利用率

20a17536-7ba0-11ed-8abf-dac502259ad0.png

如上圖,我們可以觀察到,每個(gè)被測試的庫都展現(xiàn)了不同的開銷。例如,lz4、quicklz和snappy在CT、I/O和DT上都實(shí)現(xiàn)了類似的時(shí)間,但系統(tǒng)利用率不同(如snappy是CPU密集型、內(nèi)存占用低)。相比之下,bsc提供了最高8.6x的CR,但也是最慢的庫,它的CPU和內(nèi)存占用率高達(dá)90%以上。bzip2的內(nèi)存占用較低,但在CR為6.2x時(shí)仍保持較高的CPU占用率。另一方面,Ares通過分析輸入數(shù)據(jù)來平衡CT、DT和CR,而這個(gè)額外的開銷只占總時(shí)間的10%。Ares用了74秒進(jìn)行數(shù)據(jù)類型和格式的檢測,即便有這些額外的開銷,Ares執(zhí)行所有操作的速度仍然比所有庫的速度快,并取得了最佳的總體時(shí)間。

具體來說,Ares比bsc快6.5倍,比bzip2快4.6倍,比lz4、quicklz快5-40%,而且在達(dá)到58%的CPU和64%的內(nèi)存占用率情況下仍然非常快。

6.5.2壓/解壓智能度

20ca02ee-7ba0-11ed-8abf-dac502259ad0.png

20f3c34a-7ba0-11ed-8abf-dac502259ad0.png

從結(jié)果可以看出,使用CR為1.75倍的lz4可以更快地壓縮二進(jìn)制數(shù)據(jù)。對于較復(fù)雜的壓縮,bsc實(shí)現(xiàn)了大于5倍的CR,但CT和DT明顯減慢。

6.5.3壓/解壓適應(yīng)度

21369f1c-7ba0-11ed-8abf-dac502259ad0.png

6.5.4壓/解壓靈活度

Ares的優(yōu)勢在于它能夠根據(jù)輸入的數(shù)據(jù)類型和格式進(jìn)行壓縮。此外,Ares提供了在給定工作負(fù)載的情況下對某些壓縮特性進(jìn)行優(yōu)先級排序的基礎(chǔ)設(shè)施。Ares的目標(biāo)是通過C/C++和Java綁定支持科學(xué)和云工作負(fù)載。此外,Ares抽象了它的引擎中包含的每個(gè)壓縮庫的細(xì)節(jié),這使得它更易于使用,并且在需要時(shí)可以靈活地?cái)U(kuò)展到更多的壓縮庫。下面用了四個(gè)不同的科學(xué)應(yīng)用(VPIC和HACC)和云工作負(fù)載(單詞計(jì)數(shù)和整數(shù)排序)測試了Ares的性能,研究了三種類型的工作負(fù)載:

216711ec-7ba0-11ed-8abf-dac502259ad0.png

6.6總結(jié)

與傳統(tǒng)的壓縮庫相比,Ares可以提高性能。具體來說,在科學(xué)和云計(jì)算領(lǐng)域的實(shí)際應(yīng)用中,Ares的執(zhí)行速度比同類解決方案快了2-6倍,并為用戶提供了一個(gè)靈活的基礎(chǔ)設(shè)施,可根據(jù)手頭的任務(wù)確定壓縮特點(diǎn)。

<本文完>

參考文獻(xiàn)

[1] Shakarami A, Ghobaei-Arani M, Shahidinejad A, et al. Data replication schemes in cloud computing: a survey[J]. Cluster Computing, 2021, 24(3): 2545-2579.

https://www.researchgate.net/publication/350921010_Data_replication_schemes_in_cloud_computing_a_survey

[2] Widodo R N S, Lim H, Atiquzzaman M. SDM: Smart deduplication for mobile cloud storage[J]. Future Generation Computer Systems, 2017, 70: 64-73.

https://www.researchgate.net/publication/304906996_SDM_Smart_deduplication_for_mobile_cloud_storage

[3] Rani, I.S., Venkateswarlu, B.: A systematic review of different data compression technique of cloud big sensing data. In: International conference on computer networks and inventive communication technologies (pp. 222–228). Springer, Cham (2019)

https://link.springer.com/content/pdf/bfm:978-3-030-37051-0/1.pdf

[4] Hema, S., Kangaiammal, A. (2019) Distributed storage hash algorithm (DSHA) for file-based deduplication in cloud computing. In: International conference on computer networks and inventive communication technologies (pp. 572–581). Springer, Cham (2019)

https://dl.acm.org/doi/abs/10.1016/j.jksuci.2021.04.005

[5] Liu J, Shen H, Narman H S. Popularity-aware multi-failure resilient and cost-effective replication for high data durability in cloud storage[J]. IEEE Transactions on Parallel and Distributed Systems, 2018, 30(10): 2355-2369.

https://ieeexplore.ieee.org/document/8478382/

[6] Devarajan H, Kougkas A, Sun X H. An intelligent, adaptive, and flexible data compression framework[C]//2019 19th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). IEEE, 2019: 82-91.

https://ieeexplore.ieee.org/document/8752926

[7]Top 10 benefits of cloud computing - Information Age

https://www.information-age.com/top-10-benefits-cloud-computing-7248/

ELT.ZIP是誰?

ELT<=>Elite(精英),.ZIP為壓縮格式,ELT.ZIP即壓縮精英。

成員:

上海工程技術(shù)大學(xué)大二在校生閆旭

合肥師范學(xué)院大二在校生楚一凡

清華大學(xué)大二在校生趙宏博

成都信息工程大學(xué)大一在校生高云帆

黑龍江大學(xué)大一在校生高鴻萱

山東大學(xué)大三在校生張智騰

2199ebf8-7ba0-11ed-8abf-dac502259ad0.png

ELT.ZIP是來自6個(gè)地方的同學(xué),在OpenHarmony成長計(jì)劃啃論文俱樂部里,與來自華為、軟通動(dòng)力、潤和軟件、拓維信息、深開鴻等公司的高手一起,學(xué)習(xí)、研究、切磋操作系統(tǒng)技術(shù)...

寫在最后

OpenHarmony 成長計(jì)劃—“啃論文俱樂部”(以下簡稱“啃論文俱樂部”)是在 2022年 1 月 11 日的一次日常活動(dòng)中誕生的。截至 3 月 31 日,啃論文俱樂部已有 87 名師生和企業(yè)導(dǎo)師參與,目前共有十二個(gè)技術(shù)方向并行探索,每個(gè)方向都有專業(yè)的技術(shù)老師帶領(lǐng)同學(xué)們通過啃綜述論文制定技術(shù)地圖,按“降龍十八掌”的學(xué)習(xí)方法編排技術(shù)開發(fā)內(nèi)容,并通過專業(yè)推廣培養(yǎng)高校開發(fā)者成為軟件技術(shù)學(xué)術(shù)級人才。

啃論文俱樂部的宗旨是希望同學(xué)們在開源活動(dòng)中得到軟件技術(shù)能力提升、得到技術(shù)寫作能力提升、得到講解技術(shù)能力提升。大學(xué)一年級新生〇門檻參與,已有俱樂部來自多所高校的大一同學(xué)寫出高居榜首的技術(shù)文章。

如今,搜索“啃論文”,人們不禁想到、而且看到的都是我們——OpenHarmony 成長計(jì)劃—“啃論文俱樂部”的產(chǎn)出。

22cc1122-7ba0-11ed-8abf-dac502259ad0.jpg

22deba3e-7ba0-11ed-8abf-dac502259ad0.jpg

23112992-7ba0-11ed-8abf-dac502259ad0.jpg

OpenHarmony開源與開發(fā)者成長計(jì)劃—“啃論文俱樂部”學(xué)習(xí)資料合集

1)入門資料:啃論文可以有怎樣的體驗(yàn)

https://docs.qq.com/slide/DY0RXWElBTVlHaXhi?u=4e311e072cbf4f93968e09c44294987d

2)操作辦法:怎么從啃論文到開源提交以及深度技術(shù)文章輸出https://docs.qq.com/slide/DY05kbGtsYVFmcUhU

3)企業(yè)/學(xué)校/老師/學(xué)生為什么要參與 & 啃論文俱樂部的運(yùn)營辦法https://docs.qq.com/slide/DY2JkS2ZEb2FWckhq

4)往期啃論文俱樂部同學(xué)分享會精彩回顧:

同學(xué)分享會No1.成長計(jì)劃啃論文分享會紀(jì)要(2022/02/18)https://docs.qq.com/doc/DY2RZZmVNU2hTQlFY

同學(xué)分享會No.2 成長計(jì)劃啃論文分享會紀(jì)要(2022/03/11)https://docs.qq.com/doc/DUkJ5c2NRd2FRZkhF

同學(xué)們分享會No.3 成長計(jì)劃啃論文分享會紀(jì)要(2022/03/25)

https://docs.qq.com/doc/DUm5pUEF3ck1VcG92?u=4e311e072cbf4f93968e09c44294987d

現(xiàn)在,你是不是也熱血沸騰,摩拳擦掌地準(zhǔn)備加入這個(gè)俱樂部呢?當(dāng)然歡迎啦!啃論文俱樂部向任何對開源技術(shù)感興趣的大學(xué)生開發(fā)者敞開大門。

23470aa8-7ba0-11ed-8abf-dac502259ad0.png

掃碼添加 OpenHarmony 高校小助手,加入“啃論文俱樂部”微信群

后續(xù),我們會在服務(wù)中心公眾號陸續(xù)分享一些 OpenHarmony 開源與開發(fā)者成長計(jì)劃—“啃論文俱樂部”學(xué)習(xí)心得體會和總結(jié)資料。記得呼朋引伴來看哦。


原文標(biāo)題:云計(jì)算數(shù)據(jù)壓縮方案

文章出處:【微信公眾號:開源技術(shù)服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 開源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    8115
  • OpenHarmony
    +關(guān)注

    關(guān)注

    26

    文章

    3824

    瀏覽量

    18128

原文標(biāo)題:云計(jì)算數(shù)據(jù)壓縮方案

文章出處:【微信號:開源技術(shù)服務(wù)中心,微信公眾號:共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    接地電阻柜與計(jì)算、大數(shù)據(jù)關(guān)系緊密

    為配合實(shí)現(xiàn)大數(shù)據(jù),必須籌建更多的計(jì)算數(shù)據(jù)中心,用到很多的發(fā)電機(jī)組,如何更好的保護(hù)這些發(fā)電機(jī)組,是急需解決的一大難題。國際上廣泛采用中性點(diǎn)經(jīng)電阻接地,即在中性點(diǎn)和接地相中間安裝接地電阻柜
    的頭像 發(fā)表于 05-07 06:30 ?137次閱讀
    接地電阻柜與<b class='flag-5'>云</b><b class='flag-5'>計(jì)算</b>、大<b class='flag-5'>數(shù)據(jù)</b>關(guān)系緊密

    數(shù)據(jù)計(jì)算是干嘛的?

    數(shù)據(jù)計(jì)算是支撐現(xiàn)代數(shù)字化技術(shù)的兩大核心。大數(shù)據(jù)專注于海量數(shù)據(jù)的采集、存儲、分析與價(jià)值挖掘;
    的頭像 發(fā)表于 02-20 14:48 ?465次閱讀

    租用國外服務(wù)器算數(shù)據(jù)跨境嗎?

    租用國外服務(wù)器算是數(shù)據(jù)跨境,因?yàn)?b class='flag-5'>數(shù)據(jù)存儲和處理發(fā)生在境外,可能涉及數(shù)據(jù)的跨境傳輸和存儲。在租用國外服務(wù)器的場景中,用戶的
    的頭像 發(fā)表于 02-14 11:12 ?402次閱讀

    LZO Data Compression,高性能LZO無損數(shù)據(jù)壓縮加速器介紹,F(xiàn)PGA&amp;ASIC

    LZOAccel-CLZO Data Compression Core/無損數(shù)據(jù)壓縮IP CoreLZOAccel-C是一個(gè)無損數(shù)據(jù)壓縮引擎的FPGA硬件實(shí)現(xiàn),兼容LZO 2.10標(biāo)準(zhǔn)。Core接收
    發(fā)表于 01-24 23:53

    LZO Data Compression,高性能LZO無損數(shù)據(jù)壓縮加速器介紹,F(xiàn)PGA&amp;ASIC

    LZOAccel-C是一個(gè)無損數(shù)據(jù)壓縮引擎的FPGA硬件實(shí)現(xiàn),兼容LZO 2.10標(biāo)準(zhǔn)。Core接收未壓縮的輸入數(shù)據(jù)塊,產(chǎn)生壓縮后的數(shù)據(jù)塊。
    的頭像 發(fā)表于 01-13 12:41 ?533次閱讀
    LZO Data Compression,高性能LZO無損<b class='flag-5'>數(shù)據(jù)壓縮</b>加速器介紹,F(xiàn)PGA&amp;ASIC

    計(jì)算數(shù)據(jù)中心的關(guān)系

    計(jì)算數(shù)據(jù)中心之間存在著密切且復(fù)雜的關(guān)系,它們相互依存、互相促進(jìn)。 一、數(shù)據(jù)中心是計(jì)算的基礎(chǔ)
    的頭像 發(fā)表于 10-24 16:15 ?1340次閱讀

    邊緣計(jì)算計(jì)算的區(qū)別

    邊緣計(jì)算計(jì)算是兩種不同的計(jì)算模式,它們在計(jì)算資源的分布、應(yīng)用場景和特點(diǎn)上存在顯著差異。以下是對兩者的對比: 一、
    的頭像 發(fā)表于 10-24 14:08 ?1087次閱讀

    計(jì)算與邊緣計(jì)算的結(jié)合

    計(jì)算與邊緣計(jì)算的結(jié)合是當(dāng)前信息技術(shù)發(fā)展的重要趨勢,這種結(jié)合能夠充分發(fā)揮兩者的優(yōu)勢,實(shí)現(xiàn)更高效、更可靠的數(shù)據(jù)處理和分析。以下是對
    的頭像 發(fā)表于 10-24 09:19 ?1024次閱讀

    計(jì)算在大數(shù)據(jù)分析中的應(yīng)用

    計(jì)算在大數(shù)據(jù)分析中的應(yīng)用廣泛且深入,它為用戶提供了存儲、計(jì)算、分析和預(yù)測的強(qiáng)大能力。以下是對計(jì)算
    的頭像 發(fā)表于 10-24 09:18 ?991次閱讀

    計(jì)算hpc的主要功能是什么

    計(jì)算HPC(High-Performance Computing)是指利用計(jì)算技術(shù)來實(shí)現(xiàn)高性能計(jì)算的一種解決
    的頭像 發(fā)表于 10-22 10:20 ?460次閱讀

    數(shù)據(jù)輕松上——明達(dá)Mbox邊緣計(jì)算網(wǎng)關(guān)

    隨著工業(yè)4.0時(shí)代的到來,工廠數(shù)字化轉(zhuǎn)型已成為提升生產(chǎn)效率、優(yōu)化資源配置、增強(qiáng)企業(yè)競爭力的關(guān)鍵。明達(dá)技術(shù)憑借其先進(jìn)的邊緣計(jì)算網(wǎng)關(guān)與平臺技術(shù),為工廠提供了高效、穩(wěn)定的數(shù)據(jù)采集與上解決
    的頭像 發(fā)表于 10-18 16:47 ?459次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>輕松上<b class='flag-5'>云</b>——明達(dá)Mbox邊緣<b class='flag-5'>計(jì)算</b>網(wǎng)關(guān)

    計(jì)算hpc是什么意思

    計(jì)算HPC(High-Performance Computing)是指利用計(jì)算技術(shù)來實(shí)現(xiàn)高性能計(jì)算的一種解決
    的頭像 發(fā)表于 10-15 10:01 ?739次閱讀

    如何理解計(jì)算

    計(jì)算的工作原理是什么? 計(jì)算和傳統(tǒng)IT技術(shù)的區(qū)別? 華納如何幫助您實(shí)現(xiàn)
    發(fā)表于 08-16 17:02

    plc邊緣計(jì)算數(shù)據(jù)采集網(wǎng)關(guān)是什么

    PLC邊緣計(jì)算數(shù)據(jù)采集網(wǎng)關(guān)是一種工業(yè)物聯(lián)網(wǎng)(IIoT)設(shè)備,它結(jié)合了可編程邏輯控制器(PLC)的功能與邊緣計(jì)算技術(shù),用于在工業(yè)環(huán)境中收集、處理和傳輸數(shù)據(jù)。這種網(wǎng)關(guān)通常位于現(xiàn)場設(shè)備和中央控制系統(tǒng)之間
    的頭像 發(fā)表于 08-07 13:46 ?491次閱讀
    plc邊緣<b class='flag-5'>計(jì)算數(shù)據(jù)</b>采集網(wǎng)關(guān)是什么

    網(wǎng)絡(luò)與計(jì)算:有什么區(qū)別?

    則關(guān)注的是應(yīng)用程序之間的連接如何管理和交付。 計(jì)算 計(jì)算將企業(yè)工作負(fù)載托管從傳統(tǒng)的內(nèi)部或共置數(shù)據(jù)中心轉(zhuǎn)移到
    的頭像 發(fā)表于 06-25 11:43 ?749次閱讀
    <b class='flag-5'>云</b>網(wǎng)絡(luò)與<b class='flag-5'>云</b><b class='flag-5'>計(jì)算</b>:有什么區(qū)別?