電子發(fā)燒友網報道(文/梁浩斌)今年火爆的AI應用也帶火了數據中心市場,AI服務器需求暴增。不僅是AI大模型的規(guī)模在不斷擴張至千億級參數,還有越來越多不同類型的大模型訓練和推理,都需要更強大的算力集群。
在一個多服務器構成的算力系統(tǒng)中,互連速率其實很大程度上決定著整個系統(tǒng)的性能上限,因此在片間互連方面,也開始采用CPO光電合封技術,將交換芯片和光電器件封裝在一起,使得光電器件與芯片之間的數據傳輸損耗減小、提高傳輸速度。
但另一方面,由于半導體晶體管密度的提升速度放緩,單個計算節(jié)點中,比如單張AI加速卡上的芯片采用Chiplet技術成為了趨勢,即多個小的“芯粒”封裝在一起,通過互連組成一個整體的計算引擎。而為了提高chiplet設計的性能,芯片內部多個die之間的互連也非常關鍵。ONoC(Optical Network-on-Chip)片上光互連正是為了解決這個問題。
片上光互連:晶圓級的光互連網絡
從結構上看,片上光互連其實是一種光子集成芯片技術,將不同功能的有源器件和無源器件集成在同一塊光電基板上。光電基板上具有光子路由波導,這些波導被用于數據通信,和用于電路走線的多層金屬層。CMOS電芯片堆疊在硅光芯片上,在光電基板上形成二維陣列。
光從基板上的激光光源中發(fā)出,輸入到基板上的路由波導,通過波導到達光芯片上的調制器。這個時候電芯片上的信息數據,通過電芯片和光芯片之間的微凸塊加載到環(huán)形調制器中,將數字1和0轉換為光的強度差異。
調制后的光信號通過光電基板上的波導傳播,到達其他光芯片上的光電探測器中。這個時候光信號就被轉換成電信號,這些信息就被不同的電芯片所接收。
當然在實際應用中,每個CMOS芯片和光芯片之間,都有數以千計的微凸塊被用于數據傳輸。因為光信號傳播不需要銅導線,損耗小,延遲低,這樣就實現了在光電基板上進行高能效、高帶寬密度、低延遲的光互連。
從工作原理上看,其實可以大致分析出片上光互連的核心器件主要是激光器、調制器和接收器。要想提高片上光互連的傳輸容量,可以使用波分復用、偏振復用、模分復用等技術實現。
目前,針對單一物理維度光信號的復用、解復用設備已經相對成熟。為了進一步提高片上光互連系統(tǒng)的通道數量和傳輸容量,多種復用方式的綜合運用成為了重要的研究趨勢。例如,波長-偏振-模式混合復用等技術能夠顯著提升片上光互連系統(tǒng)的性能。此外,片上光互連架構的設計與選擇對性能的提升也具有不可忽視的作用。片上光互連架構不僅決定了片上網絡中不同節(jié)點的互連方式,同時也影響了路由器的端口數量和網絡鏈路數量,進一步影響了網絡的時延、功耗和可靠性等性能指標。
因此,綜合運用多種復用方式并優(yōu)化片上光互連架構是片上光互連發(fā)展的重要趨勢。
距離落地應用還有多遠?
目前片上光互連技術主要處于實驗室階段,還未大規(guī)模量產。業(yè)界的主要玩家包括一些高校和研究機構,比如美國加州大學圣巴巴拉分校、加州伯克利大學、荷蘭的埃因霍溫科技大學和特溫特大學、美國集成光子制造研究所、中科院半導體所等。另外也有英特爾、曦智科技等廠商在推動相關技術的產業(yè)化。
英特爾在今年的Hot CHIPS會議上,展示了一款代號為“Piuma”的8核528線程處理器,而這款處理器的最大特點在于,采用了硅光子互連,能夠提供1TB/s的光學帶寬,可以將多達131,072個芯片連接在一起,形成一個大型共享內存的圖形處理超級計算機。
在Piuma組成的超級計算機中,路由器就是網絡,所有設備都通過 HyperX 拓撲進行連接,每個機架內將有16個Piuma芯片。不過英特爾目前還未決定Piuma芯片是否會進行商業(yè)化,他們表示,如果有客戶提供資金支持,公司將會很樂意生產這款產品。
曦智科技近幾年一直在片上光互連技術上努力推進商業(yè)化,今年HiPChips會議上,曦智科技展示了其片上光互連技術上的最新進展,該系統(tǒng)的通道數為512,單通道最長廣播距離為50mm,廣播延時1ns,單通道頻率4GHz,片上總帶寬達到2Tbps。實測數據顯示,該計算系統(tǒng)完成多個計算核之間All-to-All的數據廣播,這將大幅提高每個計算核的算力利用率。
而基于該片上光互連技術,曦智科技正在推動第一款商用級光電混合計算加速卡的商業(yè)化落地,未來將搭載曦智科技自研軟件棧,在商用場景下發(fā)揮片上光互連低延遲、低功耗的優(yōu)勢。
小結:
在芯片受限于制程工藝、晶體管密度提高放緩的情況下,通過芯粒的設計將多個die封裝在同一基板上成為了突破單芯片性能的一條重要路線。而這條路線的關鍵在于片上互連技術的發(fā)展,片上光互連技術也為未來的chiplet設計路線提供了更多的可能。
在一個多服務器構成的算力系統(tǒng)中,互連速率其實很大程度上決定著整個系統(tǒng)的性能上限,因此在片間互連方面,也開始采用CPO光電合封技術,將交換芯片和光電器件封裝在一起,使得光電器件與芯片之間的數據傳輸損耗減小、提高傳輸速度。
但另一方面,由于半導體晶體管密度的提升速度放緩,單個計算節(jié)點中,比如單張AI加速卡上的芯片采用Chiplet技術成為了趨勢,即多個小的“芯粒”封裝在一起,通過互連組成一個整體的計算引擎。而為了提高chiplet設計的性能,芯片內部多個die之間的互連也非常關鍵。ONoC(Optical Network-on-Chip)片上光互連正是為了解決這個問題。
片上光互連:晶圓級的光互連網絡
從結構上看,片上光互連其實是一種光子集成芯片技術,將不同功能的有源器件和無源器件集成在同一塊光電基板上。光電基板上具有光子路由波導,這些波導被用于數據通信,和用于電路走線的多層金屬層。CMOS電芯片堆疊在硅光芯片上,在光電基板上形成二維陣列。
光從基板上的激光光源中發(fā)出,輸入到基板上的路由波導,通過波導到達光芯片上的調制器。這個時候電芯片上的信息數據,通過電芯片和光芯片之間的微凸塊加載到環(huán)形調制器中,將數字1和0轉換為光的強度差異。
調制后的光信號通過光電基板上的波導傳播,到達其他光芯片上的光電探測器中。這個時候光信號就被轉換成電信號,這些信息就被不同的電芯片所接收。
當然在實際應用中,每個CMOS芯片和光芯片之間,都有數以千計的微凸塊被用于數據傳輸。因為光信號傳播不需要銅導線,損耗小,延遲低,這樣就實現了在光電基板上進行高能效、高帶寬密度、低延遲的光互連。
從工作原理上看,其實可以大致分析出片上光互連的核心器件主要是激光器、調制器和接收器。要想提高片上光互連的傳輸容量,可以使用波分復用、偏振復用、模分復用等技術實現。
目前,針對單一物理維度光信號的復用、解復用設備已經相對成熟。為了進一步提高片上光互連系統(tǒng)的通道數量和傳輸容量,多種復用方式的綜合運用成為了重要的研究趨勢。例如,波長-偏振-模式混合復用等技術能夠顯著提升片上光互連系統(tǒng)的性能。此外,片上光互連架構的設計與選擇對性能的提升也具有不可忽視的作用。片上光互連架構不僅決定了片上網絡中不同節(jié)點的互連方式,同時也影響了路由器的端口數量和網絡鏈路數量,進一步影響了網絡的時延、功耗和可靠性等性能指標。
因此,綜合運用多種復用方式并優(yōu)化片上光互連架構是片上光互連發(fā)展的重要趨勢。
距離落地應用還有多遠?
目前片上光互連技術主要處于實驗室階段,還未大規(guī)模量產。業(yè)界的主要玩家包括一些高校和研究機構,比如美國加州大學圣巴巴拉分校、加州伯克利大學、荷蘭的埃因霍溫科技大學和特溫特大學、美國集成光子制造研究所、中科院半導體所等。另外也有英特爾、曦智科技等廠商在推動相關技術的產業(yè)化。
英特爾在今年的Hot CHIPS會議上,展示了一款代號為“Piuma”的8核528線程處理器,而這款處理器的最大特點在于,采用了硅光子互連,能夠提供1TB/s的光學帶寬,可以將多達131,072個芯片連接在一起,形成一個大型共享內存的圖形處理超級計算機。
在Piuma組成的超級計算機中,路由器就是網絡,所有設備都通過 HyperX 拓撲進行連接,每個機架內將有16個Piuma芯片。不過英特爾目前還未決定Piuma芯片是否會進行商業(yè)化,他們表示,如果有客戶提供資金支持,公司將會很樂意生產這款產品。
曦智科技近幾年一直在片上光互連技術上努力推進商業(yè)化,今年HiPChips會議上,曦智科技展示了其片上光互連技術上的最新進展,該系統(tǒng)的通道數為512,單通道最長廣播距離為50mm,廣播延時1ns,單通道頻率4GHz,片上總帶寬達到2Tbps。實測數據顯示,該計算系統(tǒng)完成多個計算核之間All-to-All的數據廣播,這將大幅提高每個計算核的算力利用率。
而基于該片上光互連技術,曦智科技正在推動第一款商用級光電混合計算加速卡的商業(yè)化落地,未來將搭載曦智科技自研軟件棧,在商用場景下發(fā)揮片上光互連低延遲、低功耗的優(yōu)勢。
小結:
在芯片受限于制程工藝、晶體管密度提高放緩的情況下,通過芯粒的設計將多個die封裝在同一基板上成為了突破單芯片性能的一條重要路線。而這條路線的關鍵在于片上互連技術的發(fā)展,片上光互連技術也為未來的chiplet設計路線提供了更多的可能。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。
舉報投訴
-
光互連
+關注
關注
0文章
10瀏覽量
7882
發(fā)布評論請先 登錄
相關推薦
熱點推薦
分享兩種前沿片上互連技術
隨著臺積電在 2011年推出第一版 2.5D 封裝平臺 CoWoS、海力士在 2014 年與 AMD 聯合發(fā)布了首個使用 3D 堆疊的高帶寬存儲(HBM)芯片,先進封裝技術帶來的片上互連拓撲結構的改變和帶來的集成能力的

大算力芯片的生態(tài)突圍與算力革命
電子發(fā)燒友網報道(文 / 李彎彎)大算力芯片,即具備強大計算能力的集成電路芯片,主要應用于高性能計算(HPC)、人工智能(AI)、數據中心、自動駕駛等需要海量數據并行計算的場景。隨著
DeepSeek推動AI算力需求:800G光模塊的關鍵作用
數據傳輸速率,減少帶寬瓶頸,成為數據中心和AI集群架構優(yōu)化的重點。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計算任務提供了必要的帶寬保障。
800G光模塊如何解決DeepSeek大規(guī)模算力
發(fā)表于 03-25 12:00
DeepSeek對芯片算力的影響
DeepSeek模型,尤其是其基于MOE(混合專家)架構的DeepSeek-V3,對芯片算力的要求產生了深遠影響。為了更好地理解這一影響,我們可以從幾個方面進行分析。一.MOE架構對算


未來邊緣GPU算力在車聯網中的創(chuàng)新應用
的發(fā)展提供了強大的技術支撐。未來邊緣GPU算力在車聯網中的應用及創(chuàng)新,將有力推動車聯網技術的快速發(fā)展,提升交通運行效率,降低交通事故發(fā)生率,為人們創(chuàng)造更加安全、便捷

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片CPU
。
█在算力芯片設計中,芯片拓撲(Topology)結構非常重要。
●環(huán)形(Ring)拓撲方式是一種將多個處理單元連接成環(huán)形結構的
發(fā)表于 10-20 12:03
《算力芯片 高性能 CPU/GPU/NPU 微架構分析》第1-4章閱讀心得——算力之巔:從基準測試到CPU微架構的深度探索
的支持。現代CPU的設計不僅注重性能的提升,還特別關注能效比和靈活性,以適應不斷變化的計算需求。算力芯片的發(fā)展史,某種程度上就是人類智慧的結晶。從單一的算術邏輯單元到復雜的超標量處理器
發(fā)表于 10-19 01:21
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽
經典 GPU 算力芯片解讀
10.1 NVIDIAGPU芯片
10.2 AMDGPU芯片
10.3 IntelXeGPU架構
10.3.4
發(fā)表于 10-15 22:08
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析
力,在全球范圍內,對于推動科技進步、經濟發(fā)展及社會整體的運作具有至關重要的作用。隨著信息技術的高速發(fā)展,高性能計算(HPC)和人工智能(AI)等技術在多個領域的應用變得日益廣泛,芯片算
發(fā)表于 09-02 10:09
大模型時代的算力需求
現在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的算力,以及相關的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
發(fā)表于 08-20 09:04
中國算力中心市場持續(xù)增長,智能算力規(guī)模快速崛起
7月24日,中國信息通信研究院(簡稱“中國信通院”)權威發(fā)布了《中國算力中心服務商分析報告(2024年)》,該報告深入剖析了中國算力中心市場的現狀與
芯耀輝科技解讀高速互連對于AI和大算力芯片而言意味著什么?
近年來,隨著人工智能技術的迅猛發(fā)展,大算力芯片已成為推動AI技術創(chuàng)新的關鍵力量。然而,隨著芯片內部計算單元數量的增加和任務復雜度的提升,
光子計算芯片最新突破,峰值算力超1000tops,比電芯片更適合大模型
電子發(fā)燒友網報道(文/李彎彎)近日,國內光計算芯片公司光本位科技宣布,公司已完成算力密度和算力精度均達到商用標準的光計算芯片流

評論