360电影网无码,在线观看欧美aⅤ一级片,精品香蕉一区二区三区

繞開CPU和內(nèi)存，你瀏覽的內(nèi)容或來自SSD的推薦

相信不少人都還記得今年AI芯片公司Esperanto發(fā)布的千核RISC-V 處理器ET-SoC-1，隨著這款7nm的芯片于第二季度成功流片返回后，Esperanto得以在芯片上運行代碼，以及嘗試新的應用方向，其中之一就是AI-SSD。在近期舉辦的三星Foundry活動上，Esperanto公開了自己AI-SSD的概念模型。

個性化推薦系統(tǒng)的挑戰(zhàn)

在我們刷短視頻、聽歌和瀏覽社交網(wǎng)絡時，一部分內(nèi)容來自于我們已經(jīng)關注的用戶，但絕大多數(shù)來自于推薦系統(tǒng)的推送。推薦系統(tǒng)的準確程度很大程度決定了軟件的用戶體驗，也是如今互聯(lián)網(wǎng)經(jīng)濟系統(tǒng)的命脈。但這類推薦也往往是服務器上消耗最大的AI處理負載，優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度，減少在服務器上的成本。

DLRM深度學習推薦模型 / Meta

談到推薦系統(tǒng)就不得不談到嵌入，嵌入是當下推薦系統(tǒng)中關鍵的組成部分。盡管每家都有著不同的推薦模型，但或多或少都是采用查找嵌入表的方法來實現(xiàn)分類特征的處理。在這個過程中，嵌入表存儲在DRAM中，而CPU對嵌入表進行操作，這就對內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。

在內(nèi)存帶寬上，像美團和騰訊等廠商紛紛采用多GPU加速的方式，充分利用GPU的帶寬，但這種方式依然需要多個GPU或多個服務器的支持才能解決容量問題。固然廠商也可以選擇像HBM這種大帶寬的內(nèi)存方案，但帶來的成本提升也是巨大的。

根據(jù)Meta給出的說法，在Facebook社交網(wǎng)站的個性化推薦系統(tǒng)中，大規(guī)模的嵌入表可達到百萬行以上，導致推薦模型的大小達到10GB左右，一個神經(jīng)推薦模型中所有嵌入表甚至需要TB級別以上的空間。比如Meta旗下的Instagram已經(jīng)在開發(fā)10TB的推薦模型，而百度的廣告排名模型也達到了10TB。這種級別的容量需求對硬盤來說或許足夠，但對于內(nèi)存來說過于奢侈了。

因此為了解決容量問題，不少人也提出了SSD的存儲解決方案，目前傳統(tǒng)的SSD雖然可以毫不費力地存儲下大規(guī)模推薦系統(tǒng)，但讀取延遲和帶寬都要更差一籌，從而顯著降低推理的性能。

專為推薦而生的SSD

Esperanto與三星合作開發(fā)出了一種AI-SSD的概念模型，來研究將所有嵌入表處理全部移到SSD內(nèi)部會有怎么樣的影響，從而省去推薦系統(tǒng)中經(jīng)過CPU和DRAM的環(huán)節(jié)。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結(jié)合的成果。

在AI-SSD中，所有嵌入表都被存儲在SSD里，CPU負責所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡，而SSD內(nèi)部的ET-SoC-1負責嵌入表的查詢和交互運算。此外由于選擇了這種存內(nèi)計算的方式，最小化了PCIe鏈路上的數(shù)據(jù)傳輸，降低了讀寫的高延遲，最終的分類數(shù)據(jù)直接交給CPU生成推薦結(jié)果。

AI-SSD帶寬性能測試結(jié)果 / Esperanto

測試環(huán)節(jié)中，Esperanto選用了Meta的開源推薦模型DLRM，將AI-SSD與傳統(tǒng)的CPU-SSD方式進行對比。在不同的模型配置下，AI-SSD實現(xiàn)了10到100倍的讀取帶寬提升，而且?guī)掚S著使用核心數(shù)的上升還能繼續(xù)線性提升。

要知道在這次測試中，Esperanto最多只用到了四個子節(jié)點（Minion Shire），每個節(jié)點只有32個核心。而一整個ET-SoC-1有34個子節(jié)點1088顆核心，如果所有計算單元全部用于SSD的話，提升幅度將達到數(shù)百倍以上，十分適合數(shù)據(jù)中心級別的SSD產(chǎn)品。而ET-SoC-1的擴展性也可以讓它縮減核心數(shù)，用于一些邊緣端的推薦系統(tǒng)。

拿計算換空間

不過即便用上了AI-SSD，這也是一種增加硬件成本的路線，除了不差錢的大公司會利用這種產(chǎn)品外，一些小的互聯(lián)網(wǎng)應用可能并不會直接選擇更換SSD的方式，如此一來，也就只有繼續(xù)優(yōu)化推薦模型一途。

佐治亞理工學院和Meta的研究院為DLRM提出了一種張量訓練壓縮的方式，名為TT-Rec。該方法通過將嵌入表分為多個小矩陣相乘的方式進行壓縮，進一步降低嵌入表的大小，不過這多出來的計算是肯定躲不掉的額外消耗，好在其評估結(jié)果足夠優(yōu)秀。

在Kaggle和Terabyte數(shù)據(jù)集的測試訓練下，TT-Rec分別將數(shù)據(jù)從2.16GB和12.57GB壓縮至18.36MB和0.11GB，整體的大小壓縮均在百倍以上，甚至可以做到幾乎沒有精度損失。而多出來的運算則反映到了訓練時間上，分別增加了14.3%和13.9%。因此在實際使用中，必須對內(nèi)存容量、模型精度和訓練時間做出一定的取舍。

小結(jié)

盡管從推薦系統(tǒng)配置的角度來說，仍有不少可選的解決方案，但存算一體方面的研究已經(jīng)全面鋪開了。存儲市場正在迅速與計算市場發(fā)生重疊，像三星、西數(shù)和希捷等存儲廠商紛紛開始了這塊的布局，傳統(tǒng)的馮諾依曼架構(gòu)也將被近數(shù)據(jù)處理替代。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

SSD

SSD

+關注

關注
21

文章
2984

瀏覽量
119591
AI

AI

+關注

關注
88

文章
35136

瀏覽量
279795

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

繞開CPU和內(nèi)存，你瀏覽的內(nèi)容或來自SSD的推薦

評論