12月3日-5日,中國電信在廣州舉辦“2024數字科技生態大會”,本屆大會以“AI賦能 共筑數字新生態”為主題,在“科技創新合作論壇”上,壁仞科技聯合中國電信研究院、江蘇電信、中興通訊、上海人工智能實驗室等發布了“智算異構四芯混訓解決方案”,打造算力、網絡、平臺、通信庫、框架全棧異構方案,實現異構算力的互聯互通、互調互算,基于壁仞科技、英偉達等GPU完成四款異構芯片混合訓練同一個大模型的測試驗證,突破大模型算力孤島難題,引領業界異構混訓技術發展趨勢。
面對高端算力供應緊張、國產芯片百花齊放、智算中心擴容混建等導致的異構算力孤島問題,壁仞科技聯合中國電信等共同打造異構多芯混池訓練解決方案,開創算力使用新模式,緩解因不同芯片體系架構及軟件生態存在較大差異性,導致異構算力聚合困難,無法實現“超大算力”統一供給的挑戰。異構多芯混合訓練主要面臨異構網絡易擁塞、異構芯片互聯互通難、異構芯片混訓木桶效應等三大挑戰。
異構多芯混訓解決方案,實現了統一RDMA網絡擁塞控制、統一異構集合通信庫、統一異構訓練框架。針對異構網絡易擁塞問題,構建統一RDMA網絡擁塞控制機制,支持RDMA多鏈路異構端網協同擁塞控制,跨異構芯片并行通信性能相比通用流量調度提升30%;針對異構芯片互聯互通難問題,構建統一異構集合通信庫,屏蔽底層異構芯片差異,業界首次通過GDR(GPUDirect RDMA)實現高速低延時異構通信,異構通信效率大于98%;針對異構芯片混訓木桶效應問題,構建統一異構混合訓練框架,通過異構芯片算力感知進行非均勻拆分優化,支持國際主流模型LLaMA-2、中國電信自研TeleChat等大模型,四芯混訓效率可達同構訓練效率的95%,實現異構算力芯片高效互聯互通及算力聚合。
此前壁仞科技的壁礪系列通用GPU算力產品已經在中國電信落地千卡集群并開展商業化落地應用,另外在中國電信集團新一輪國產化GPU集采項目中,壁仞科技的主流GPU產品已經納入中國電信的集采名錄,成為中國電信的主要GPU供應商。國產GPU加快落地的過程中正在在逐步擴大算力規模,為破解這一過程中的“大模型算力孤島”難題,壁仞科技一直在積極開展異構GPU協同訓練技術攻關,在2024年9月發布的自主原創異構GPU協同訓練方案HGCT中,已率先支持3種及以上異構GPU混合訓練同一個大模型,用一套統一方案支持多種不同廠商、不同型號的GPU,而且一行代碼適配多種框架。
此次,壁仞科技攜手中國電信等合作伙伴取得新的突破,完成異構四芯混訓測試驗證,共同打造異構算力生態,借助中國電信“大息壤”平臺算網一體化調度核心能力及中國電信智算拉遠方案,突破單集群異構限制,整合國產芯片擴大單一算力池規模,形成更大規模算力能力,提升大模型能力上限,推動國產GPU產業和大模型產業發展與繁榮。
-
中國電信
+關注
關注
22文章
3473瀏覽量
63601 -
異構
+關注
關注
0文章
44瀏覽量
13318 -
算力芯片
+關注
關注
0文章
51瀏覽量
4744 -
壁仞科技
+關注
關注
1文章
67瀏覽量
3061 -
智算中心
+關注
關注
0文章
88瀏覽量
1978
原文標題:壁仞科技聯合中國電信等合作伙伴共同發布智算異構四芯混訓解決方案
文章出處:【微信號:Birentech,微信公眾號:壁仞科技Birentech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
壁仞科技入選工信部2024年未來產業創新發展優秀典型案例
壁仞科技亮相2025中國移動云智算大會
通信市場新突破,維諦技術(Vertiv)獲評中國電信集團級戰略供應商

烽火通信獲中國電信“戰略供應商”殊榮
中電海康集團與中國電信達成戰略合作
利爾達榮獲2024中國電信CTTA聯盟合作伙伴市場表現獎

海格通信參與中國電信北斗短報文終端伙伴合作計劃
性能提升近一倍!壁仞科技攜手無問芯穹,在千卡訓練集群等領域取得技術新突破

評論