摘要
GPU加速的計(jì)算系統(tǒng)可為諸多科學(xué)應(yīng)用提供強(qiáng)大的計(jì)算能力支撐,亦是業(yè)界推動(dòng)人工智能革命的重要手段。為了滿足大規(guī)模數(shù)據(jù)中心和高性能計(jì)算場(chǎng)景的帶寬拓展需求,光通信和光互連技術(shù)正在迅速而廣泛地滲入此類系統(tǒng)的各個(gè)網(wǎng)絡(luò)或鏈路層級(jí)。作為系列文章的第三篇,本文針對(duì)GPU網(wǎng)絡(luò)中光互連的市場(chǎng)和產(chǎn)業(yè)趨勢(shì)、策略和計(jì)劃做出分析。
在前兩篇大略地介紹了GPU網(wǎng)絡(luò)中光互連的歷史趨勢(shì)、短長(zhǎng)期需求權(quán)衡、光通信技術(shù)手段之后,本篇將為讀者簡(jiǎn)要分析其市場(chǎng)動(dòng)向以及業(yè)界正在開展的進(jìn)一步探索。
01
市場(chǎng)和產(chǎn)業(yè)動(dòng)向:展望2025
與過去電信應(yīng)用推進(jìn)光互連的演變相類似,當(dāng)前光互連的產(chǎn)業(yè)驅(qū)動(dòng)力已經(jīng)由數(shù)據(jù)通信應(yīng)用(即數(shù)據(jù)中心)所主導(dǎo)。近幾年,隨著社交媒體、視頻數(shù)據(jù)流、智能手機(jī)的用戶數(shù)量不斷增長(zhǎng),人們對(duì)數(shù)據(jù)中心內(nèi)部更高的網(wǎng)絡(luò)帶寬需求愈發(fā)迫切。為了應(yīng)對(duì)諸如5G、云服務(wù)、物聯(lián)網(wǎng)、4K視頻等新興應(yīng)用技術(shù),全球數(shù)據(jù)中心的數(shù)量、占地面積、帶寬容量均有顯著增加。
上述現(xiàn)象在2016年最為明顯。彼時(shí),全球數(shù)據(jù)中心的傳輸鏈路迎來(lái)了由40 Gbit/s到100 Gbit/s的大規(guī)模鏈路升級(jí)。自此以降,受到新數(shù)據(jù)中心的擴(kuò)張建設(shè)、已有數(shù)據(jù)中心的翻新改裝、企業(yè)級(jí)數(shù)據(jù)中心的實(shí)際部署等因素的推動(dòng),光收發(fā)器的收益便以39%的復(fù)合年均增長(zhǎng)率大幅增長(zhǎng)[1]。而為了滿足數(shù)據(jù)中心應(yīng)用對(duì)100 Gbit/s光模組的大批量需求,光收發(fā)器供應(yīng)商的制造能力也得到了大幅提升。
圖1. 100 G,200 G,400 G光收發(fā)器的總收益
(來(lái)源于參考資料[1])
占據(jù)設(shè)備連接總數(shù)目的最大一部分便是數(shù)據(jù)中心內(nèi)部的服務(wù)器互連,而帶寬消耗的顯著增長(zhǎng)則使得人們需要更多地去考慮光互連的成本效益問題。為了適應(yīng)近期PAM4的廣泛使用和服務(wù)器速率由10 Gbit/s向著25 Gbit/s轉(zhuǎn)化,網(wǎng)絡(luò)的上行鏈路亦需增速。事實(shí)上,人們對(duì)容量提升的初始目標(biāo)是引入400 Gbit/s的解決方案;而從成本和性能優(yōu)化的角度考慮,業(yè)界在中途又加入了200 Gbit/s方案,以試圖為后續(xù)400 Gbit/s方案尋求一個(gè)更加適宜的遷移路徑。自2016年至2021年,光收發(fā)器總體(包括100 G,200 G,400 G)的復(fù)合年均增長(zhǎng)率為63%;而僅就100 G光收發(fā)器而言,其復(fù)合年均增長(zhǎng)率高達(dá)53%[2]。這主要是因?yàn)樽?019年以來(lái),200 G和400 G光收發(fā)器被商業(yè)化部署并開始小幅占據(jù)100 G光收發(fā)器的市場(chǎng)份額(見圖1)。
對(duì)于數(shù)據(jù)中心內(nèi)部的短距離光互連來(lái)說,多模光纖鏈路仍要比單模光纖鏈路占據(jù)更為主要的地位。與傳統(tǒng)的串行傳輸有所不同,并行光路傳輸使用一個(gè)光模塊接口,數(shù)據(jù)在多根光纖中同時(shí)得以發(fā)送和接收:40 GbE傳輸由4根光纖之上的單方向4×10 G實(shí)現(xiàn);100 GbE傳輸由10根光纖之上的單方向10×10 G實(shí)現(xiàn)。這類標(biāo)準(zhǔn)引領(lǐng)了對(duì)高質(zhì)量、低損耗的多模多路并行光學(xué)(Multi-Parallel Optics, MPO)接口的需求。
人們對(duì)數(shù)據(jù)中心帶寬增長(zhǎng)的不斷需求繼續(xù)驅(qū)動(dòng)著業(yè)界的更多革新。以往,數(shù)據(jù)中心互連僅要求在多模或單模光纖中傳輸單個(gè)波長(zhǎng),而近期的技術(shù)驅(qū)動(dòng)則聚焦在單模光纖中傳輸多個(gè)波長(zhǎng)。2016年,與100 Gbit/s光收發(fā)器相符合的粗波分復(fù)用(Coarse Wavelength Division Multiplexing 4, CWDM4)技術(shù)已可以和并行單模(Parallel Single Mode 4, PSM4)在市場(chǎng)份額方面平分秋色。而隨著200 Gbit/s和400 Gbit/s自2019年開始的實(shí)際部署,市場(chǎng)容量的增長(zhǎng)已經(jīng)由并行光路技術(shù)和多波長(zhǎng)技術(shù)共同驅(qū)動(dòng)。
在2016年早期,眾多業(yè)界領(lǐng)軍者在多源協(xié)議方面合作開發(fā)了一種高速的雙密度四通道小型可插拔(Quad Small Form Factor Pluggable- Double Density, QSFP-DD)接口。作為可插拔收發(fā)器,QSFP-DD在保持占用空間以實(shí)現(xiàn)與標(biāo)準(zhǔn)QSFP的反向兼容之外,可為8通路的電接口附加提供的一排觸點(diǎn)。QSFP-DD 8個(gè)通路中的任意一個(gè)都可以在25 Gbit/s NRZ調(diào)制或50 Gbit/s PAM4調(diào)制下工作,從而可以為200 Gbit/s或400 Gbit/s的聚合帶寬提供支持;而QSFP-DD的反向兼容特點(diǎn)也可支撐新興模塊類型的使用、加速總體網(wǎng)絡(luò)遷移。
當(dāng)前,標(biāo)準(zhǔn)的QSFP收發(fā)器模塊連接均已采用LC 雙工連接器(尤其是在基于波分復(fù)用的雙工模塊情形下)。盡管LC雙工連接器仍可在QSFP-DD收發(fā)器模塊中使用,但是傳輸帶寬還受限在單獨(dú)的波分復(fù)用引擎設(shè)計(jì)上。該引擎使用一個(gè)1:4復(fù)用/解復(fù)用器來(lái)達(dá)到200 GbE,或是使用一個(gè)1:8復(fù)用/解復(fù)用器來(lái)達(dá)到400 GbE。這無(wú)疑增加了收發(fā)器的成本,并且提高了對(duì)收發(fā)器的冷卻要求。
圖2. CS連接器和LC雙工連接器的比較
在保持連接器占用空間不變的前提下,人們期待能夠?qū)崿F(xiàn)一種可將連接器與QSFP-DD之間的連接性提升一倍的新型連接器類型。于是,作為一種雙套管連接器,CS連接器應(yīng)運(yùn)而生。如圖2所示,和LC雙工連接器相比較,CS連接器的占用空間相對(duì)更小。于是,人們可在一個(gè)QSFP-DD模塊的前接口部署兩個(gè)CS連接器。這使得雙波分復(fù)用引擎具有了較好的可行性:該雙引擎可使用一個(gè)1:4復(fù)用/解復(fù)用器來(lái)達(dá)到2×100 GbE,或是在一個(gè)單獨(dú)的QSFP-DD收發(fā)器上實(shí)現(xiàn)2×200 GbE。除了QSFP-DD收發(fā)器之外,CS連接器亦可與八通道小型可插拔模塊和板中光學(xué)模塊相適配。
在眾多供應(yīng)商采用QSDP-DD作為收發(fā)器接口的時(shí)候,網(wǎng)絡(luò)交換面板密度也在成倍增加。自2012年以來(lái),數(shù)據(jù)中心交換機(jī)的最大網(wǎng)絡(luò)交換面板密度是128個(gè)單通道(信道)端口或32個(gè)4通道端口。近期,網(wǎng)絡(luò)交換機(jī)ASIC供應(yīng)商已能夠?qū)蝹€(gè)交換ASIC的信道數(shù)目提升到256個(gè)乃至512個(gè)。在保持單個(gè)機(jī)架單位交換機(jī)面板形狀系數(shù)的同時(shí),為了有效管理不斷增長(zhǎng)的帶寬密度,人們?cè)谌舾深惗嘣磪f(xié)議(包括QSFP-DD,OSFP,SFP-DD)中采用了雙倍密度的光收發(fā)器。由此,光纖數(shù)目也已經(jīng)由4通道增長(zhǎng)到了8通道、乃至于提升至8對(duì)光纖。而為了保持和已安裝的光纖和網(wǎng)絡(luò)交換機(jī)基礎(chǔ)設(shè)備的兼容性,在上述收發(fā)器的實(shí)際部署中,人們可將8通道分開為2個(gè)獨(dú)立的四路接口。當(dāng)新型交換器得以實(shí)際部署時(shí),數(shù)據(jù)中心的短期需求便是在同樣物理空間之內(nèi)的光纖對(duì)終端數(shù)量的增加。
圖3. SN、CS、LC雙工和MPO的比較
上述需求又反過來(lái)促使業(yè)界人士去探尋進(jìn)一步的革新:如圖3所示,與CS連接器將LC連接器的密度增加一倍相類似,SN連接器又將CS連接器的密度增加了一倍。
圖4. 在葉和脊結(jié)構(gòu)中使用SN接口實(shí)現(xiàn)光纖分線
如圖4所示,SN連接器是一種面向400 G數(shù)據(jù)中心優(yōu)化方案的新型雙工光纖連接器,其設(shè)計(jì)初衷是為四路方式收發(fā)器(QSFP,QSFP-DD,OSFP)提供獨(dú)立的雙工光纖分線。與MPO連接器相比較,SN連接器的效率和可靠性較高、成本較低。
圖5. 未來(lái)光互連技術(shù)的演進(jìn)
自2018年的Optical Fiber Communication Conference開始,市場(chǎng)分析師和技術(shù)專家便對(duì)將光互連部件移動(dòng)到距離ASIC更近位置的必要性開展了廣泛討論。而早在2017年,the Consortium for On-Board Optics已針對(duì)板上光學(xué)發(fā)布了第一部工業(yè)指標(biāo)規(guī)范[3]。這些技術(shù)布局的關(guān)鍵推動(dòng)力就是高數(shù)據(jù)速率條件下銅線互連的固有限制。隨著數(shù)據(jù)速率的上升,銅線的衰減大幅增加且其絕對(duì)傳輸限制被限定在100 Gbp/s/m[4]。而對(duì)高于這一限制的速率來(lái)說,使用光學(xué)信道便成了無(wú)法避免的技術(shù)手段。因此,光互連產(chǎn)業(yè)的演進(jìn)并不僅限于板上光學(xué),也包括了用于替代傳統(tǒng)集成電路的光子集成光路(Photonic Integrated Circuits, PIC)。如圖5所示,光互連下一步的演進(jìn)既要滿足前面板互連器件的需求,又要更多考慮PIC、板中和背板的互連器需求。
02
策略和計(jì)劃:跨越成本和功耗之墻
在節(jié)點(diǎn)性能借助多芯片組件和GPU加速器等特殊計(jì)算單元來(lái)實(shí)現(xiàn)提升的同時(shí),人們不僅對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)的帶寬需求仍在持續(xù),而且對(duì)人工智能和高性能計(jì)算的工作負(fù)載需求也呈現(xiàn)出激增態(tài)勢(shì)。而通過增加單通道數(shù)據(jù)速率的傳統(tǒng)方式已不再是獲取效益的唯一辦法。這是因?yàn)楣πг鲆嬉延衅骄徎厔?shì),且低成本的電學(xué)鏈路已無(wú)法覆蓋當(dāng)前的互連傳輸距離。舉例來(lái)說,在12.8 Tbit/s(2016)和102.4 Tbit/s(~2025)這兩代交換芯片之間,光互連占據(jù)網(wǎng)絡(luò)功率的比例將從約30%增長(zhǎng)為超過50% [5];而對(duì)數(shù)據(jù)中心整體而言,光網(wǎng)絡(luò)占比將會(huì)從10 Gbit/s以太網(wǎng)代際(2015)中的幾個(gè)百分比增長(zhǎng)為800 Gbit/s代際(~2025)中的20%以上[6]。此外,光學(xué)成本在不久的將來(lái)便會(huì)超越交換機(jī)端口的成本[5]。為了應(yīng)對(duì)這不斷逼近的成本和功耗之墻,人們需要從新型網(wǎng)絡(luò)結(jié)構(gòu)、共封裝光學(xué)等角度來(lái)尋求一系列解決方案。在下文中,筆者將對(duì)這些方案逐一做出簡(jiǎn)短分析。
2.1
更加扁平化的網(wǎng)絡(luò)
更加扁平化的網(wǎng)絡(luò)意味著具備高通道數(shù)目的交換機(jī)得以使用,從而減少了交換層級(jí)。由此,人們可大幅減少交換機(jī)部件的數(shù)量并改進(jìn)系統(tǒng)的總體吞吐量和延遲性能。而更高的端口數(shù)目可以通過使用尖端的單芯片交換機(jī)(已接近50 Tbit/s及以上)或者復(fù)合芯片配置實(shí)現(xiàn)。因?yàn)槲磥?lái)的交換芯片可具有超越單個(gè)機(jī)架所需的交換能力,所以拓?fù)浣Y(jié)構(gòu)應(yīng)包括使用行間(End of Row)交換機(jī)來(lái)替代機(jī)架頂端(Top of Rack)交換機(jī)。
圖6. 由36端口交換芯片所構(gòu)成的基準(zhǔn)網(wǎng)絡(luò)
(來(lái)源于參考資料[7])
圖7. 使用162端口交換芯片的扁平化網(wǎng)絡(luò)
(來(lái)源于參考資料[7])
近期,IBM公司的P. Maniotis等[7]對(duì)使用高通道數(shù)目交換機(jī)(借助低功率的共封裝光學(xué))實(shí)現(xiàn)更加扁平化網(wǎng)絡(luò)的優(yōu)勢(shì)做出了詳細(xì)討論。圖6展示了一個(gè)由“當(dāng)今的”36端口單芯片交換機(jī)所構(gòu)成的高性能計(jì)算規(guī)模網(wǎng)絡(luò)(包含11600個(gè)終端);而圖7展示了一個(gè)由152端口交換芯片所構(gòu)成的類似規(guī)模網(wǎng)絡(luò)。相較而言,更加扁平化的網(wǎng)絡(luò)可令交換芯片的數(shù)量減少85%,可大幅降低功耗和成本。
2.2
專門的硬件和網(wǎng)絡(luò)
盡管多樣化的工作負(fù)載可為數(shù)據(jù)中心定義一個(gè)更具通用性的網(wǎng)絡(luò)和計(jì)算資源基礎(chǔ)結(jié)構(gòu),但是在高性能計(jì)算領(lǐng)域,人們卻一直對(duì)優(yōu)化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(如用于科學(xué)計(jì)算的環(huán)形拓?fù)浣Y(jié)構(gòu)、用于圖形分析的蜻蜓拓?fù)浣Y(jié)構(gòu))頗感興趣。
圖8. 對(duì)網(wǎng)絡(luò)工作負(fù)載需求的示例
(來(lái)源于參考資料[8])
圖8展示了各式各樣工作負(fù)載類型的需求范圍。隨著特定工作負(fù)載的重要性不斷增加,針對(duì)特定任務(wù)(如人工智能訓(xùn)練)來(lái)制定專門的計(jì)算和網(wǎng)絡(luò)設(shè)計(jì)將會(huì)是業(yè)界的一個(gè)關(guān)鍵考慮。
2.3
組合式/解聚式系統(tǒng)
針對(duì)特定的工作負(fù)載需求來(lái)構(gòu)建資源是眾多數(shù)據(jù)中心設(shè)計(jì)者夢(mèng)寐以求的能力。組合式/解聚式系統(tǒng)意味著人們可以使用高性能結(jié)構(gòu)來(lái)改進(jìn)數(shù)據(jù)中心的總體效率。其潛在的優(yōu)勢(shì)包括:硬件可具備獨(dú)立的恢復(fù)周期、用于特定工作負(fù)載的資源優(yōu)化分派更具靈活性、更容易添加新的資源形態(tài)(如新型加速器)、有效降低運(yùn)行成本和資本支出等。
圖9. 當(dāng)今異構(gòu)結(jié)構(gòu)和未來(lái)組合式結(jié)構(gòu)的概念示意圖
圖9為異構(gòu)結(jié)構(gòu)和組合式結(jié)構(gòu)的概念示意圖。其中,Compute Express Link[9]可為存儲(chǔ)器和加速器解聚提供支持。在總線和接口標(biāo)準(zhǔn)(Peripheral Component Interface Express, PCIe)物理層以及給定的數(shù)據(jù)速率條件下,光互連(在跨越機(jī)架或多機(jī)架距離的高速場(chǎng)景中)的一個(gè)關(guān)鍵問題便是PCIe Gen 6中64 Gbit/s和大量以太網(wǎng)應(yīng)用中53-56 Gbit/s 或106-112 Gbit/s之間的失配特性。
2.4
物理層效率和共封裝光學(xué)
圖10. 基于垂直腔面發(fā)射激光器的共封裝光學(xué)概念
(來(lái)源于參考資料[7])
在持續(xù)的CMOS代際和改進(jìn)的電路設(shè)計(jì)基礎(chǔ)上,電學(xué)鏈路依舊能夠在功率效率方面獲得收效。然而,在更高的數(shù)據(jù)速率需求下,電學(xué)鏈路中不可避免的高信道衰減使得人們對(duì)利用光學(xué)鏈路滿足傳輸距離的需求顯著增多。共封裝技術(shù)可使得電學(xué)鏈路的傳輸距離大幅減小,在功耗和信號(hào)一致性方面有著明顯優(yōu)勢(shì)。它可為功耗低于5 pJ/bit的完整電-光-電鏈路(例如IBM公司正在開展的MOTIO2項(xiàng)目[10])提供潛在可能性。如圖10所示,該項(xiàng)目基于垂直腔面發(fā)射激光器的共封裝模塊技術(shù),旨在實(shí)現(xiàn)低成本、高性能(112 Gbit/s,< $0.25/Gbps)傳輸。
03
小結(jié)
基于新技術(shù)標(biāo)準(zhǔn)化的重要性,許多標(biāo)準(zhǔn)化組織、產(chǎn)業(yè)聯(lián)盟和政府研究機(jī)構(gòu)已開始著手制定未來(lái)光互連的各類技術(shù)規(guī)范。而為了跨越GPU網(wǎng)絡(luò)光互連的成本和功耗之墻,業(yè)界也正在探索諸如更加有效的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、針對(duì)特定工作負(fù)載的計(jì)算和網(wǎng)絡(luò)結(jié)構(gòu)、光電共封裝等解決方案。以筆者觀察,這些方案可為滿足未來(lái)數(shù)據(jù)中心的高帶寬需求提供有效幫助。
倘若讀者對(duì)GPU網(wǎng)絡(luò)的光互連這一領(lǐng)域有著獨(dú)特興趣,歡迎你關(guān)注、走近沐曦,讓我們一起釋放和安頓這份好奇心以及追根究底的脾氣。
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
28文章
4944瀏覽量
131224 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7815瀏覽量
90935 -
模組
+關(guān)注
關(guān)注
6文章
1637瀏覽量
31365
原文標(biāo)題:【智算芯聞】面向GPU網(wǎng)絡(luò)的光互連(3):凡是過去,皆為序章
文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
TE推出AMPMODU互連系統(tǒng)具有哪些產(chǎn)品特性?-赫聯(lián)電子
華為智能光伏第三屆全球安裝商大會(huì)圓滿收官
AI驅(qū)動(dòng)的高速互連趨勢(shì)下,如何實(shí)現(xiàn)超前布局?

OpenVINO?檢測(cè)到GPU,但網(wǎng)絡(luò)無(wú)法加載到GPU插件,為什么?
半導(dǎo)體封裝革新之路:互連工藝的升級(jí)與變革

TE推出AMPMODU互連系統(tǒng)是什么?哪家有?-赫聯(lián)電子
華為發(fā)布2025充電網(wǎng)絡(luò)產(chǎn)業(yè)十大趨勢(shì)
華為發(fā)布2025充電網(wǎng)絡(luò)產(chǎn)業(yè)十大趨勢(shì)
華為發(fā)布2025智能光伏十大趨勢(shì)
未來(lái)網(wǎng)絡(luò)的高速引擎:800G光模塊市場(chǎng)預(yù)測(cè)與應(yīng)用前景
如何構(gòu)建及優(yōu)化GPU云網(wǎng)絡(luò)

GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

評(píng)論