Cerebras Systems 發布全球最大芯片 WSE3 搭載4萬億個晶體管。與英偉達 B200 GPU 的2080億晶體管相比較,WSE3 的規模宛如巨人面對侏儒。其打破常規,不再將一個晶圓切割為多個單獨芯片,而是巧妙地將一整個12英寸的晶圓轉化為一塊龐大芯片,總面積達到 46225 平方毫米,相當于84個常規芯片組合在一起。
Cerebras 自2015年成立以來,堅持不懈地推出一系列 WSE 芯片,到如今第三代 WSE3,每一步都標志著其對制程工藝的深化掌握,這次更是采用了5納米工藝,承臺積電的技術優勢。WSE系列以“世界最大芯片”而馳名,專注于滿足AI大模型訓練的高性能需求,同時具備出色的推理能力。在這一領域,Cerebras 不僅自立門戶,更與高通展開合作,以其推理芯片進一步增強WSE3功能范疇。
WSE3發布還伴隨一系列承載其強勁計算力的服務器產品——CS1、CS2和CS3,這些服務器產品由AMDCPU賦能,共同構成高效的計算生態,旨在加速現代AI研究及實用性能向前邁進。
憑借其獨特的設計理念和規模優勢,WSE3預示著 AI 硬件技術的一次飛躍。異常強大的算力背后,是Cerebras對芯片工藝的極致追求與不被常規限制的創新膽識,WSE3正將這份精神通過每一次AI模型的訓練和推理,傳遞至整個科技行業。
盡管有些人可能懷疑 WSE3 不過是一張巨型晶圓,但其真正的價值并不在于其體積,而在于其背后獨特的設計理念和架構。WSE3 構造包括84個區域,其中包含高達90萬個計算核心,每個區域內含有超過1萬個核心。從架構層面來看,由核心(Cores)、芯片單元(Die)以及晶圓(Wafer)共同構成。
Cerebras的計算架構大致可以劃分為WSE、SwarmX 和 MemoryX三個部分。在處理大模型訓練時,MemoryX存儲設備儲存權重數據,這些數據由DDR和Flash技術共同構成,最大提供高達1200TB存儲空間。該設計意味著巨大數量級的模型參數可以一次性加載到設備中進行處理。在訓練過程中,MemoryX上的權重數據將通過SwarmX傳輸至每個CS系統中的WSE,由WSE處理數據并完成向前傳播計算過程,生產出預測值。然后,通過損失函數計算出預測值與真實值間的梯度,用這些梯度進行反向傳播計算所有權重的梯度。計算得出的梯度數據隨后回到SwarmX,經過匯總處理為全局梯度后送回MemoryX,MemoryX內的計算單元會直接更新權重,為下一輪的訓練做準備。
Cerebras Systems把一個晶圓的全部晶體管都用上,并未按常規將其切割,而是構建一個具有90萬個計算核心的密集網絡進行集中處理。松散耦合的計算和存儲設計讓 Cerebras 的 CS 系列服務器能夠輕松實現數據并行,不使用其他復雜的并行訓練方法。Cerebras 這一獨特設計理念使其成為AI 訓練領域的強勁競爭者。
深入探究Cerebras革命性 WSE 芯片會發現,每一顆計算核心都擁有一塊48KB的SRAM存儲單元。令人驚訝的是48KB被巧妙劃分為八個6KB小區域,每個小區以32位寬數據通道進行操作,合起來就是一條256位寬數據高速公路。計算核心在每一個時鐘周期都能夠處理高達兩個64位的讀取通道以及一個64位的寫入通道,合計可達192位。
Cerebras的真正威力還在于它的分布式存儲與計算架構,使之擅長高效解決非結構化的稀疏計算問題,尤其是那些需要處理海量零值或接近零值數據的場景。為此,WSE3 提供令人震撼的 21PB每秒的片上存儲帶寬,以及超乎想象的214PB每秒的網絡交互帶寬。
Cerebras的設計理念深入人心,無需切割晶圓,就將所有晶體管整合成一個緊密相連的網絡,該網絡由高達90萬個計算核心組成,實現集中加工處理。與此同時,Cerebras系列的CS服務器得益于計算與存儲分離的創新設計,輕松實現數據并行處理,省去其他復雜并行訓練方案的需要。這一設計不光為Cerebras贏得了與英偉達抗衡的實力,也為面對越來越龐大的模型規模——我們說的是達到萬億級參數——提供解決方案。在AI訓練領域,Cerebras的 Wafer Scale Engine 設計無疑是它的巔峰時刻。
審核編輯 黃宇
-
芯片
+關注
關注
459文章
52147瀏覽量
436006 -
晶體管
+關注
關注
77文章
9977瀏覽量
140630 -
AI
+關注
關注
87文章
34146瀏覽量
275322
發布評論請先 登錄
rtos或rtos&linux能否調整連接windows后的設備名稱?
工業物聯網時代,為什么你的設備還在'裸奔'?
廠家必看!PCBA批量生產前的'體檢清單':設計/物料/工藝缺一不可
Tom's Hardware 評測:樹莓派4/5無需風扇也能冷靜運行!

如何判斷產品需不需要做AT&amp;amp;T認證?AT&amp;amp;T測試內容和要求分享

北美運營商AT&amp;amp;T認證中的VoLTE測試項

北美運營商AT&amp;amp;T認證的費用受哪些因素影響

NVIDIA DGX B200首次面向零售市場:配備8塊B200 GPU
onsemi LV/MV MOSFET 產品介紹 &amp;amp; 行業應用

無人駕駛遇上&apos;超級WiFi&apos;,低速無人駕駛已成為了主要趨勢?

FS201資料(pcb &amp; DEMO &amp; 原理圖)
北美運營商AT&amp;amp;T認證入庫產品范圍名單相關

解讀北美運營商,AT&amp;amp;T的認證分類與認證內容分享

評論