繞開CPU和內(nèi)存,你瀏覽的內(nèi)容或來自SSD的推薦
相信不少人都還記得今年AI芯片公司Esperanto發(fā)布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運行代碼,以及嘗試新的應用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動上,Esperanto公開了自己AI-SSD的概念模型。
個性化推薦系統(tǒng)的挑戰(zhàn)
在我們刷短視頻、聽歌和瀏覽社交網(wǎng)絡時,一部分內(nèi)容來自于我們已經(jīng)關注的用戶,但絕大多數(shù)來自于推薦系統(tǒng)的推送。推薦系統(tǒng)的準確程度很大程度決定了軟件的用戶體驗,也是如今互聯(lián)網(wǎng)經(jīng)濟系統(tǒng)的命脈。但這類推薦也往往是服務器上消耗最大的AI處理負載,優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,減少在服務器上的成本。

DLRM深度學習推薦模型 / Meta
談到推薦系統(tǒng)就不得不談到嵌入,嵌入是當下推薦系統(tǒng)中關鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來實現(xiàn)分類特征的處理。在這個過程中,嵌入表存儲在DRAM中,而CPU對嵌入表進行操作,這就對內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬上,像美團和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個GPU或多個服務器的支持才能解決容量問題。固然廠商也可以選擇像HBM這種大帶寬的內(nèi)存方案,但帶來的成本提升也是巨大的。
根據(jù)Meta給出的說法,在Facebook社交網(wǎng)站的個性化推薦系統(tǒng)中,大規(guī)模的嵌入表可達到百萬行以上,導致推薦模型的大小達到10GB左右,一個神經(jīng)推薦模型中所有嵌入表甚至需要TB級別以上的空間。比如Meta旗下的Instagram已經(jīng)在開發(fā)10TB的推薦模型,而百度的廣告排名模型也達到了10TB。這種級別的容量需求對硬盤來說或許足夠,但對于內(nèi)存來說過于奢侈了。
因此為了解決容量問題,不少人也提出了SSD的存儲解決方案,目前傳統(tǒng)的SSD雖然可以毫不費力地存儲下大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專為推薦而生的SSD
Esperanto與三星合作開發(fā)出了一種AI-SSD的概念模型,來研究將所有嵌入表處理全部移到SSD內(nèi)部會有怎么樣的影響,從而省去推薦系統(tǒng)中經(jīng)過CPU和DRAM的環(huán)節(jié)。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結(jié)合的成果。
在AI-SSD中,所有嵌入表都被存儲在SSD里,CPU負責所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡,而SSD內(nèi)部的ET-SoC-1負責嵌入表的查詢和交互運算。此外由于選擇了這種存內(nèi)計算的方式,最小化了PCIe鏈路上的數(shù)據(jù)傳輸,降低了讀寫的高延遲,最終的分類數(shù)據(jù)直接交給CPU生成推薦結(jié)果。

AI-SSD帶寬性能測試結(jié)果 / Esperanto
測試環(huán)節(jié)中,Esperanto選用了Meta的開源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD方式進行對比。在不同的模型配置下,AI-SSD實現(xiàn)了10到100倍的讀取帶寬提升,而且?guī)掚S著使用核心數(shù)的上升還能繼續(xù)線性提升。
要知道在這次測試中,Esperanto最多只用到了四個子節(jié)點(Minion Shire),每個節(jié)點只有32個核心。而一整個ET-SoC-1有34個子節(jié)點1088顆核心,如果所有計算單元全部用于SSD的話,提升幅度將達到數(shù)百倍以上,十分適合數(shù)據(jù)中心級別的SSD產(chǎn)品。而ET-SoC-1的擴展性也可以讓它縮減核心數(shù),用于一些邊緣端的推薦系統(tǒng)。
拿計算換空間
不過即便用上了AI-SSD,這也是一種增加硬件成本的路線,除了不差錢的大公司會利用這種產(chǎn)品外,一些小的互聯(lián)網(wǎng)應用可能并不會直接選擇更換SSD的方式,如此一來,也就只有繼續(xù)優(yōu)化推薦模型一途。
佐治亞理工學院和Meta的研究院為DLRM提出了一種張量訓練壓縮的方式,名為TT-Rec。該方法通過將嵌入表分為多個小矩陣相乘的方式進行壓縮,進一步降低嵌入表的大小,不過這多出來的計算是肯定躲不掉的額外消耗,好在其評估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測試訓練下,TT-Rec分別將數(shù)據(jù)從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒有精度損失。而多出來的運算則反映到了訓練時間上,分別增加了14.3%和13.9%。因此在實際使用中,必須對內(nèi)存容量、模型精度和訓練時間做出一定的取舍。
小結(jié)
盡管從推薦系統(tǒng)配置的角度來說,仍有不少可選的解決方案,但存算一體方面的研究已經(jīng)全面鋪開了。存儲市場正在迅速與計算市場發(fā)生重疊,像三星、西數(shù)和希捷等存儲廠商紛紛開始了這塊的布局,傳統(tǒng)的馮諾依曼架構(gòu)也將被近數(shù)據(jù)處理替代。
相信不少人都還記得今年AI芯片公司Esperanto發(fā)布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運行代碼,以及嘗試新的應用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動上,Esperanto公開了自己AI-SSD的概念模型。
個性化推薦系統(tǒng)的挑戰(zhàn)
在我們刷短視頻、聽歌和瀏覽社交網(wǎng)絡時,一部分內(nèi)容來自于我們已經(jīng)關注的用戶,但絕大多數(shù)來自于推薦系統(tǒng)的推送。推薦系統(tǒng)的準確程度很大程度決定了軟件的用戶體驗,也是如今互聯(lián)網(wǎng)經(jīng)濟系統(tǒng)的命脈。但這類推薦也往往是服務器上消耗最大的AI處理負載,優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,減少在服務器上的成本。

DLRM深度學習推薦模型 / Meta
談到推薦系統(tǒng)就不得不談到嵌入,嵌入是當下推薦系統(tǒng)中關鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來實現(xiàn)分類特征的處理。在這個過程中,嵌入表存儲在DRAM中,而CPU對嵌入表進行操作,這就對內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬上,像美團和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個GPU或多個服務器的支持才能解決容量問題。固然廠商也可以選擇像HBM這種大帶寬的內(nèi)存方案,但帶來的成本提升也是巨大的。
根據(jù)Meta給出的說法,在Facebook社交網(wǎng)站的個性化推薦系統(tǒng)中,大規(guī)模的嵌入表可達到百萬行以上,導致推薦模型的大小達到10GB左右,一個神經(jīng)推薦模型中所有嵌入表甚至需要TB級別以上的空間。比如Meta旗下的Instagram已經(jīng)在開發(fā)10TB的推薦模型,而百度的廣告排名模型也達到了10TB。這種級別的容量需求對硬盤來說或許足夠,但對于內(nèi)存來說過于奢侈了。
因此為了解決容量問題,不少人也提出了SSD的存儲解決方案,目前傳統(tǒng)的SSD雖然可以毫不費力地存儲下大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專為推薦而生的SSD
Esperanto與三星合作開發(fā)出了一種AI-SSD的概念模型,來研究將所有嵌入表處理全部移到SSD內(nèi)部會有怎么樣的影響,從而省去推薦系統(tǒng)中經(jīng)過CPU和DRAM的環(huán)節(jié)。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結(jié)合的成果。
在AI-SSD中,所有嵌入表都被存儲在SSD里,CPU負責所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡,而SSD內(nèi)部的ET-SoC-1負責嵌入表的查詢和交互運算。此外由于選擇了這種存內(nèi)計算的方式,最小化了PCIe鏈路上的數(shù)據(jù)傳輸,降低了讀寫的高延遲,最終的分類數(shù)據(jù)直接交給CPU生成推薦結(jié)果。

AI-SSD帶寬性能測試結(jié)果 / Esperanto
測試環(huán)節(jié)中,Esperanto選用了Meta的開源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD方式進行對比。在不同的模型配置下,AI-SSD實現(xiàn)了10到100倍的讀取帶寬提升,而且?guī)掚S著使用核心數(shù)的上升還能繼續(xù)線性提升。
要知道在這次測試中,Esperanto最多只用到了四個子節(jié)點(Minion Shire),每個節(jié)點只有32個核心。而一整個ET-SoC-1有34個子節(jié)點1088顆核心,如果所有計算單元全部用于SSD的話,提升幅度將達到數(shù)百倍以上,十分適合數(shù)據(jù)中心級別的SSD產(chǎn)品。而ET-SoC-1的擴展性也可以讓它縮減核心數(shù),用于一些邊緣端的推薦系統(tǒng)。
拿計算換空間
不過即便用上了AI-SSD,這也是一種增加硬件成本的路線,除了不差錢的大公司會利用這種產(chǎn)品外,一些小的互聯(lián)網(wǎng)應用可能并不會直接選擇更換SSD的方式,如此一來,也就只有繼續(xù)優(yōu)化推薦模型一途。
佐治亞理工學院和Meta的研究院為DLRM提出了一種張量訓練壓縮的方式,名為TT-Rec。該方法通過將嵌入表分為多個小矩陣相乘的方式進行壓縮,進一步降低嵌入表的大小,不過這多出來的計算是肯定躲不掉的額外消耗,好在其評估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測試訓練下,TT-Rec分別將數(shù)據(jù)從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒有精度損失。而多出來的運算則反映到了訓練時間上,分別增加了14.3%和13.9%。因此在實際使用中,必須對內(nèi)存容量、模型精度和訓練時間做出一定的取舍。
小結(jié)
盡管從推薦系統(tǒng)配置的角度來說,仍有不少可選的解決方案,但存算一體方面的研究已經(jīng)全面鋪開了。存儲市場正在迅速與計算市場發(fā)生重疊,像三星、西數(shù)和希捷等存儲廠商紛紛開始了這塊的布局,傳統(tǒng)的馮諾依曼架構(gòu)也將被近數(shù)據(jù)處理替代。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
SSD
+關注
關注
21文章
2984瀏覽量
119591 -
AI
+關注
關注
88文章
35136瀏覽量
279795
發(fā)布評論請先 登錄
相關推薦
熱點推薦
兆芯CPU近期適配重點產(chǎn)品介紹
近期,兆芯繼續(xù)與多家產(chǎn)業(yè)伙伴通力合作,圍繞開先KX-7000、開勝KH-40000等高性能自主CPU產(chǎn)品持續(xù)推進應用生態(tài)建設,完成了國產(chǎn)SSD、內(nèi)存、Web中間件、分布式數(shù)據(jù)庫、大數(shù)據(jù)
工業(yè)級SSD為什么需要掉電保護?天碩工業(yè)級SSD固態(tài)硬盤告訴你答案
在工業(yè)控制和嵌入式系統(tǒng)中,電源波動或突發(fā)斷電是常見問題。這種情況下,如果SSD正在寫入數(shù)據(jù),很可能導致數(shù)據(jù)丟失或文件系統(tǒng)損壞,甚至引發(fā)系統(tǒng)宕機。天碩(TOPSSD)G40工業(yè)級固態(tài)硬盤,針對這一
見多識廣的你,知道Mini SSD嗎?
在全球數(shù)字化轉(zhuǎn)型加速的背景下,存儲設備已不再是單純的數(shù)據(jù)存儲工具,而是推動信息安全、提升運算效率和支持業(yè)務創(chuàng)新的關鍵基石。佰維存儲順應行業(yè)趨勢,發(fā)布全新一代存儲解決方案——Mini SSD,突破
發(fā)表于 01-09 10:52
?614次閱讀

云端彈性計算公式有哪些內(nèi)容?
云端彈性計算公式有哪些內(nèi)容?云端彈性計算公式涵蓋資源分配、性能監(jiān)控、自動伸縮及積分計算等方面。資源分配依據(jù)虛擬機配置和實際需求動態(tài)調(diào)整;性能監(jiān)控實時監(jiān)控CPU、內(nèi)存等關鍵指標;自動伸縮根據(jù)預設閾值
SSD故障排查與解決方案
隨著固態(tài)硬盤(SSD)的普及,越來越多的用戶選擇使用SSD作為電腦的主要存儲設備。然而,SSD在使用過程中也可能會出現(xiàn)各種故障。 一、SSD故障的常見表現(xiàn) 系統(tǒng)啟動緩慢 :
如何選擇適合的SSD SSD和HDD的區(qū)別
隨著技術的發(fā)展,存儲設備也在不斷進步。SSD和HDD是兩種常見的存儲解決方案,它們各自有著不同的優(yōu)勢和局限性。 SSD和HDD的區(qū)別 1. 速度 SSD :固態(tài)硬盤使用閃存技術,沒有移動部件,因此
Kioxia發(fā)布PCIe 5.0 EDSFF E1.S SSD
全球內(nèi)存解決方案領導者Kioxia Corporation近日宣布,其全新KIOXIA XD8 Series PCIe? 5.0企業(yè)和數(shù)據(jù)中心標準外形尺寸(EDSFF) E1.S固態(tài)硬盤(SSD)已正式面世。
北橋芯片負責與cpu的聯(lián)系并控制內(nèi)存嗎
北橋芯片,也被稱為內(nèi)存控制器或系統(tǒng)控制器,是計算機主板上的一個重要組成部分。它負責管理CPU、內(nèi)存、以及其他系統(tǒng)組件之間的數(shù)據(jù)傳輸和通信。 1. 北橋芯片的定義和功能 北橋芯片是主板上負責高速
前端總線與內(nèi)存頻率怎么配
前端總線(FSB)與內(nèi)存頻率的配合是確保計算機系統(tǒng)穩(wěn)定運行并發(fā)揮最佳性能的關鍵因素之一。以下是對前端總線與內(nèi)存頻率配合關系的介紹: 一、前端總線與內(nèi)存頻率的基本概念 前端總線 :前端總線是CP
C2000 CPU內(nèi)存內(nèi)置自檢功能
電子發(fā)燒友網(wǎng)站提供《C2000 CPU內(nèi)存內(nèi)置自檢功能.pdf》資料免費下載
發(fā)表于 10-10 09:27
?0次下載

內(nèi)存控制器概述和工作原理
內(nèi)存控制器是計算機系統(tǒng)內(nèi)部控制內(nèi)存并負責內(nèi)存與CPU之間數(shù)據(jù)交換的重要組成部分。它不僅是連接CPU與內(nèi)存
主板內(nèi)存故障燈亮會是cpu的問題嗎
主板內(nèi)存故障燈亮并不一定是CPU的問題,但CPU與內(nèi)存之間的交互確實可能影響這一故障現(xiàn)象。以下是對主板內(nèi)存故障燈亮可能原因的分析: 一、
主板自檢cpu和內(nèi)存燈一直來回閃
當你遇到主板自檢時CPU和內(nèi)存燈一直來回閃爍的情況,這通常意味著硬件檢測過程中存在問題。這個問題可能涉及到多個方面,包括硬件故障、BIOS設置錯誤、兼容性問題等。 1. 硬件故障 1.1 CPU故障
什么是CPU緩存?它有哪些作用?
CPU緩存(Cache Memory)是計算機系統(tǒng)中一個至關重要的組成部分,它位于CPU與內(nèi)存之間,作為兩者之間的臨時存儲器。CPU緩存的主要作用是減少
評論