?
電子發(fā)燒友網綜合報道 隨著AI技術迅猛發(fā)展,尤其是大型語言模型的興起,對于算力的需求呈現(xiàn)出爆炸性增長。這不僅推動了智算中心的建設,還對網絡互聯(lián)技術提出了新的挑戰(zhàn)。
?
在AI大模型訓練過程中,由于單個AI芯片的算力提升速度無法跟上模型參數(shù)的增長速率,再加上龐大的模型參數(shù)和訓練數(shù)據(jù),已遠遠超出單個AI芯片甚至單臺服務器的能力范圍。因此,需要將數(shù)據(jù)樣本和模型結構分散到多個計算設備上,這導致了設備間的頻繁通信需求。為了適應這一變化,智算中心服務器內部的網絡互聯(lián)技術變得至關重要。
?
芯片間互聯(lián)技術
?
AI服務器的互聯(lián)技術是保障其高性能計算能力的關鍵,涉及芯片間、服務器內以及服務器間等多個層面的高速數(shù)據(jù)傳輸。
?
芯片間互聯(lián)技術方面,英偉達、AMD、英特爾都推出了相關技術,分別是NVLink、Infinity Fabric、CXL(Compute Express Link)等。NVLink是由NVIDIA開發(fā)的GPU之間的高速互連技術,能加快CPU與GPU、GPU與GPU之間的數(shù)據(jù)傳輸速度,提高系統(tǒng)性能。從2016年到2022年,NVLink歷經多次迭代更新,例如基于Hopper架構的第四代NVLink,單鏈可實現(xiàn)50GB/s的雙向帶寬,單芯片可支持18鏈路,即900GB/s的總雙向帶寬。在NVIDIA的DGX H100服務器中,GPU(H100)之間互聯(lián)主要通過NV Switch芯片來實現(xiàn),而NV Switch芯片與GPU之間的數(shù)據(jù)傳輸就依賴于NVLink。
?
AMD推出的Infinity Fabric,由傳輸數(shù)據(jù)的Infinity Scalable Data Fabric(SDF)和負責控制的Infinity Scalable Control Fabric(SCF)兩個系統(tǒng)組成,連接了on-die和off-die以及多路CPU間的通信。最新的AMD Instinct MI300X GPU采用5nm制程,支持客戶將8個GPU整合為一個性能主導型節(jié)點,并且具有全互聯(lián)式點對點環(huán)形設計,使用了第4代Infinity Fabric高速總線互聯(lián),總線帶寬達到896GB/s(與英偉達H100的900GB/s帶寬相當)。
?
CXL(Compute Express Link)是英特爾提出的一種開放性互聯(lián)協(xié)議,CXL是建立在PCIe物理層之上的協(xié)議,可以實現(xiàn)設備之間的緩存和內存一致性。利用廣泛存在的PCIe接口,CXL允許內存在各種硬件上共享:CPU、NIC和DPU、GPU和其它加速器、SSD和內存設備,從而滿足高性能異構計算的要求。
?
服務器內互聯(lián)技術有PCIe Switch、Retimer芯片。PCIe Switch,即PCIe開關或PCIe交換機,主要作用是實現(xiàn)PCIe設備互聯(lián)。由于PCIe的鏈路通信是一種端對端的數(shù)據(jù)傳輸,需要Switch提供擴展或聚合能力,從而允許更多的設備連接到一個PCIe端口,以解決PCIe通道數(shù)量不夠的問題。例如在AI服務器中,GPU與CPU連接時可能需要用到PCIe Switch,并且隨著PCIe總線技術的升級,PCIe Switch每代速率提升,能提高數(shù)據(jù)傳輸?shù)乃俣取?br />
?
在AI服務器中,GPU與CPU連接時至少需要一顆Retimer芯片來保證信號質量,很多AI服務器都會配置多顆Retimer芯片。例如Astera Labs在AI加速器中配置了4顆Retimer芯片。
?
AI服務器間互聯(lián)技術
?
服務器間互聯(lián)技術有InfiniBand、RoCE、高速以太網。InfiniBand是一種高性能的網絡互聯(lián)技術,具有低延遲、高帶寬的特點,能夠滿足AI服務器之間超低延遲、超高帶寬的通信需求,適用于大規(guī)模AI模型訓練時服務器之間的高效通信和數(shù)據(jù)同步。例如訓練超大模型往往需要成百上千臺服務器組成集群,服務器之間就需要InfiniBand這樣的網絡進行高效通信。
?
RoCE(RDMA over Converged Ethernet),基于以太網的RDMA(遠程直接內存訪問)技術,它允許數(shù)據(jù)在網絡中直接從一臺計算機的內存?zhèn)鬏數(shù)搅硪慌_計算機的內存,而無需操作系統(tǒng)內核的介入,從而降低了延遲,提高了帶寬利用率,可用于AI服務器間的互聯(lián),提升數(shù)據(jù)傳輸效率。
?
高速以太網,如400Gbps甚至800Gbps以太網適配器,能為AI服務器間提供高速的網絡連接,保障大規(guī)模集群部署時服務器之間的數(shù)據(jù)傳輸性能。例如昆侖芯超節(jié)點結合百度智能云自研的基于導軌優(yōu)化的HPN(High Performance Network)架構,可支撐從數(shù)百卡到上萬卡的XPU集群構建,其中就涉及到高速以太網技術的應用。
?
小結
?
在AI服務器中,互聯(lián)技術的作用已從數(shù)據(jù)傳輸通道升級為算力釋放引擎。通過高帶寬、低延遲、可擴展的互聯(lián)架構,AI服務器能夠突破單節(jié)點算力瓶頸,實現(xiàn)萬億參數(shù)模型的分布式訓練;降低推理延遲,支撐實時AI應用的商業(yè)化落地;優(yōu)化能效比,應對超大規(guī)模數(shù)據(jù)中心的能耗挑戰(zhàn)。
?
?
?
算力網絡的“神經突觸”:AI互聯(lián)技術如何重構分布式訓練范式
- AI(275436)
- 算力(15456)
相關推薦
熱點推薦
分布式IO工業(yè)自動化數(shù)據(jù)采集與分析的核心
隨著工業(yè)自動化技術的不斷發(fā)展,分布式IO在工業(yè)自動化領域的應用越來越廣泛。作為一種先進的控制技術,分布式IO能夠實現(xiàn)設備的分布式控制和監(jiān)測,提高生產效率、降低能耗和減少故障率。
分布式IO可以提高
2023-12-28 14:47:02
分布式光纖傳感技術
分布式光纖應變監(jiān)測技術原理 BOTDA采用布里淵光時域分析技術,系統(tǒng)連接兩根遠端環(huán)接的單模光纖作為分布式傳感器,實現(xiàn)對被監(jiān)測對象的應變/溫度信號實時采集和分析處理。在BOTDA傳感系統(tǒng)中,配備了一個
2020-08-28 08:52:47
分布式發(fā)電技術與微型電網
幾種分布式發(fā)電簡介2.分布式發(fā)電與配電網互聯(lián)問題3.微型電網技術4.分布式發(fā)電(電源)技術應用的障礙和瓶頸5.分布式發(fā)電(電源)技術發(fā)展方向6.結語
2011-03-11 13:37:39
分布式控制系統(tǒng)
分布式控制系統(tǒng)分布式控制系統(tǒng) (distributed control systems,簡稱DCS),又稱為分散控制系統(tǒng),分散型控制系統(tǒng),集散控制系統(tǒng).行業(yè)內業(yè)稱4C技術既Control控制技術
2010-03-01 22:19:00
分布式數(shù)據(jù)庫有什么優(yōu)缺點?
分布式數(shù)據(jù)庫系統(tǒng)(DDBS)是數(shù)據(jù)庫技術和網絡技術兩者相互滲透和有機結合的結果。涉及數(shù)據(jù)庫基本理論和網絡通信理論。分布式數(shù)據(jù)庫由一組數(shù)據(jù)組成,這些數(shù)據(jù)在物理上分布在計算機網絡的不同節(jié)點上,邏輯上是屬于同一個系統(tǒng)。
2019-09-24 09:13:39
分布式電源分布式電源裝置是指什么?有何特點
區(qū)的電力供應,節(jié)約輸變電投資,提高供電可靠性等。含義簡明的分布式電源定義為:35kV及以下電壓等級的電源,不能直接連接到中央輸電系統(tǒng),主要包括發(fā)電設備和儲能裝置。特點分布式能源系統(tǒng)不是簡單地采用傳統(tǒng)的發(fā)電技術,而是基于自動控制系統(tǒng)、先進的材料技術、靈活的制造技術等新技術,具有低污染排放
2021-12-29 06:51:27
分布式電源對配電網網損有何影響
34節(jié)點配電網算例的說明研究分布式電源對配電網網損的影響分布式電源容量對網損的影響分布式電源位置對網損的影響分布式電源對配電網電壓支撐作用分布式電源接入位置對配電網電壓作用分布式電源容量對電壓支撐作用matlab源代碼,代碼按照高水平文章復現(xiàn),保證正確...
2021-12-29 08:00:23
分布式系統(tǒng)的優(yōu)勢是什么?
當討論分布式系統(tǒng)時,我們面臨許多以下這些形容詞所描述的 同類型: 分布式的、刪絡的、并行的、并發(fā)的和分散的。分布式處理是一個相對較新的領域,所以還沒有‘致的定義。與順序計算相比、并行的、并發(fā)的和分布式的計算包括多個PE問的集體協(xié)同動作。這些術語在范圍一卜相互覆蓋,有時也交換使用?!?/div>
2020-03-31 09:01:18
分布式能源系統(tǒng)當微型電網技術應用
以及異常、故障,對于區(qū)域電力系統(tǒng)AreaEPS的影響明顯,就必須通過AreaEPS與DR的互聯(lián)系統(tǒng)ICS聯(lián)網。 電網微型電網的分布式電源并網技術的互聯(lián)系統(tǒng)就是電網’>微型電網的一個非常重要
2011-06-13 14:25:10
分布式軟件系統(tǒng)
分布式軟件系統(tǒng)分布式軟件系統(tǒng)(Distributed Software Systems)是支持分布式處理的軟件系統(tǒng),是在由通信網絡互聯(lián)的多處理機體系結構上執(zhí)行任務的系統(tǒng)。它包括分布式操作系統(tǒng)
2009-07-22 14:53:12
DeepSeek推動AI算力需求:800G光模塊的關鍵作用
隨著人工智能技術的飛速發(fā)展,AI算力需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務對算力的需求持續(xù)攀升,直接推動了服務器、光通信設備以及數(shù)據(jù)中心基礎設施的升級。特別是在大規(guī)模算
2025-03-25 12:00:18
HDC2021技術分論壇:分布式軟時鐘有多重要?
分布式軟總線是HarmonyOS的關鍵根技術之一,也是眾多開發(fā)者們非常關注的一項技術。通過分布式軟總線,可以將多個不同類型的設備按場景連接在一起,形成超級終端,為消費者帶來全場景新體驗。本期,我們
2021-11-09 17:24:38
HDC2021技術分論壇:分布式軟時鐘有多重要?
作者:lishijun,HarmonyOS解決方案首席技術專家&軟總線首席架構師分布式軟總線是HarmonyOS的關鍵根技術之一,也是眾多開發(fā)者們非常關注的一項技術。通過分布式軟總線,可以將
2021-11-23 16:58:46
HDC2021技術分論壇:跨端分布式計算技術初探
帶來易協(xié)同、低延遲和高穩(wěn)定的分布式體驗。下面,我們將對跨端分布式計算技術進行詳細的分析。一、跨端分布式算力技術介紹跨端分布式計算是HarmonyOS系統(tǒng)利用分布式軟總線和分布式計算引擎,提供多設備協(xié)同
2021-11-23 17:06:24
HDC2021技術分論壇:跨端分布式計算技術初探
,我們將對跨端分布式計算技術進行詳細的分析。一、跨端分布式算力技術介紹跨端分布式計算是HarmonyOS系統(tǒng)利用分布式軟總線和分布式計算引擎,提供多設備協(xié)同的跨端分布式計算能力。允許多個HarmonyOS
2021-11-15 14:54:29
HarmonyOS應用開發(fā)-分布式語音攝像頭體驗
一、組件說明使用HarmonyOS分布式文件系統(tǒng)和AI語音識別功能開發(fā)了一個分布式語音攝像頭。使用此相機應用程序,同一分布式網絡下的不同設備可以實時看到主設備拍攝的照片。這有效解決了對方拍照時需要
2022-08-24 15:06:51
LED分布式恒流原理
本帖最后由 eehome 于 2013-1-5 09:49 編輯
1. 分布式恒流技術分布式恒流就是:在各并聯(lián)支路點均設立獨立恒流源,從而管理、維持、控制支路與整體線路穩(wěn)定。在使用上可視為一個
2011-03-09 16:47:54
OpenHarmony 分布式硬件關鍵技術
OpenHarmony技術峰會——生態(tài)與互聯(lián)分論壇
?
正 文 內 容
OpenHarmony是一款面向未來萬物互聯(lián)場景的操作系統(tǒng),其設計采用了分布式架構。那么OpenHarmony相比于傳統(tǒng)操作系統(tǒng)有
2023-08-24 17:25:23
OpenHarmony3.1分布式技術資料合集
客戶端(ScreenClient):屏幕圖像顯示代理客戶端,用于在設備上顯示其他設備投射過來的屏幕圖像數(shù)據(jù)。3、OpenHarmony3.1的分布式手寫板1.介紹基于TS擴展的聲明式開發(fā)范式開發(fā)一個分布式
2022-04-11 11:50:05
Qorvo分布式Wi-Fi網格解決方案
的 RF 技術,設備制造商可在家中任何地方創(chuàng)建使用隱蔽式終端設備的分布式 Wi-Fi 網絡,消除死角,并覆蓋更多應用和用戶。Qorvo 可以提前消除 Wi-Fi 問題。”Qorvo 分布式 Wi-Fi 網格解決方案已投入生產,并贏得了多個設計合同,其中包括連接全球數(shù)百萬用戶的多個頂級設備提供商的合同。
2020-11-02 07:01:11
《AI for Science:人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得
的訓練和推理提供了強大的算力支持,使得AI在科學研究中的應用更加廣泛和深入。
3. 數(shù)據(jù)驅動的研究范式
第二章還強調了數(shù)據(jù)在AI for Science中的核心地位。數(shù)據(jù)是AI模型的輸入和訓練基礎,其質量
2024-10-14 09:16:37
【AI學習】第3篇--人工神經網絡
`本篇主要介紹:人工神經網絡的起源、簡單神經網絡模型、更多神經網絡模型、機器學習的步驟:訓練與預測、訓練的兩階段:正向推演與反向傳播、以TensorFlow + Excel表達訓練流程以及AI普及化教育之路。`
2020-11-05 17:48:39
【AD新聞】AI時代,一美元能夠買到多強的算力?
當真正需要在嵌入式終端設備中使用AI技術時,客戶的訴求更多的集中在功耗、響應時間、成本等方面,對性能的無盡追求反而不是重點,這和很多人之前的預想并不一致。花一美元或一瓦電能買到多強的算力? 算法
2018-03-23 15:27:20
【學習打卡】OpenHarmony的分布式數(shù)據(jù)管理介紹
中,精心設計的架構為數(shù)據(jù)庫和其他數(shù)據(jù)平臺提供了一個模型,在該模型上將部署特定技術以適應各個應用程序。分布式數(shù)據(jù)管理作為OpenHarmony系統(tǒng)的模塊之一,它建立在分布式軟總線的基礎上,最突出的特點
2022-07-15 15:49:32
【開發(fā)樣例】OpenHarmony分布式購物車
設計OpenHarmony技術特性eTS UI分布式調度分布式數(shù)據(jù)管理3.支持OpenHarmony版本OpenHarmony 3.0 LTS 、OpenHarmony 3.1 Beta4.支持開發(fā)板潤
2022-07-29 14:17:34
一文帶你看懂分布式軟總線在家庭場景的應用
,并能夠基于業(yè)務和網絡狀態(tài)進行質量優(yōu)化和合理調度,是家庭環(huán)境下最大的挑戰(zhàn)。二、分布式軟總線介紹全場景下,HarmonyOS通過分布式軟總線技術連接不同設備構建超級終端的過程中,涉及到多種多樣通信方式
2022-01-06 11:32:11
關于光載無線分布式天線的全面介紹
影響,需要對其進行分析和抑制,以提高網絡性能。針對點到多點的多業(yè)務融合接入及分布式傳輸需求,本文提出了面向2G/3G/4G/WLAN四網融合接入應用的副載波復用和波分復用(SCM-WDM)結合技術。
2019-06-11 07:45:30
在分布式嵌入式系統(tǒng)的過程中利用Jini技術有什么優(yōu)勢?
在構建分布式嵌入式系統(tǒng)的過程中利用Jini技術,不但可以降低系統(tǒng)的開發(fā)難度、實現(xiàn)嵌入式環(huán)境中基于服務級的互操作,而且可使系統(tǒng)具有很好的靈活性和可靠性。
2021-04-28 06:46:33
基于分布式調用鏈監(jiān)控技術的全息排查功能
分布式微服務場景下的鏈路診斷場景,用戶可快速的定位分布式環(huán)境下的調用問題診斷。國內外常見的這方面技術的互聯(lián)網產品已有很多,其中:在開源領域有Zipkin, Skywalking, Pinpoint
2018-08-07 17:02:57
基于OpenHarmony3.1開發(fā)的一個分布式手寫板應用
1.介紹基于TS擴展的聲明式開發(fā)范式開發(fā)一個分布式手寫板應用。涉及的OS特性有分布式拉起和分布式數(shù)據(jù)管理,使用這兩個特性實現(xiàn)不同設備間拉起與筆跡同步,即每臺設備在書寫的時候,連接的其他設備都能實時同步筆跡,效果圖如下:
2022-04-07 11:42:24
基于ZigBee無線網絡平臺的溫室大棚分布式監(jiān)測系統(tǒng)該如何去實現(xiàn)?
ZigBee是什么?基于ZigBee無線網絡平臺的溫室大棚分布式監(jiān)測系統(tǒng)具有哪些特點?基于CC2430芯片的網絡節(jié)點該如何去設計?
2021-06-26 07:23:10
如何利用FPGA設計無線分布式采集系統(tǒng)?
近些年來,隨著電子技術的發(fā)展,無線通信技術、計算機網絡的發(fā)展,分布式無線數(shù)據(jù)采集網絡技術開始興起,并迅速的應用到各個領域。在一些地形復雜,不適合人類出現(xiàn)的區(qū)域需要進行數(shù)據(jù)采集的情況下,都可以適當
2019-10-14 07:10:38
如何基于分布式軟總線進行“三步走”極簡開發(fā)
一、什么是分布式軟總線呢?分布式軟總線是HarmonyOS架構中最底層的技術分布式軟總線是HarmonyOS的大動脈二、開發(fā)跨端應用,開發(fā)者們是否面臨以下挑戰(zhàn):1.跨端操作需要每次重復建立連接2.
2020-12-24 10:43:02
如何實現(xiàn)校園分布式網絡測量系統(tǒng)的應用設計?
本文所述測量系統(tǒng)主要是基于校園網絡,實現(xiàn)一個具有分布式、可擴展性的網絡測量平臺。利用各種測量方法和測量工具,測量校園網訪問公網和其他校園網絡各種相關的網絡性能參數(shù)。從而獲得網絡的狀態(tài)信息,掌握和分析校園網絡中各種性能參數(shù),研究校園網多出口環(huán)境下的網絡優(yōu)化問題,為校園網絡的優(yōu)化提供有價值的參考。
2021-05-06 08:48:39
如何設計分布式干擾系統(tǒng)?
什么是分布式干擾系統(tǒng)?分布式干擾系統(tǒng)是一種綜合化、一體化、小型化、網絡化和智能化系統(tǒng),是將眾多體積小,重量輕,廉價的小功率偵察干擾機裝置在易于投放的小型平臺上,撒布在接近***擾目標空域地,通過指令
2019-08-08 06:57:44
如何通過基于云的數(shù)據(jù)管理技術實現(xiàn)分布式設備的態(tài)勢感知?
如何通過基于云的數(shù)據(jù)管理技術實現(xiàn)分布式設備的態(tài)勢感知?
2021-05-25 06:56:54
嵌入式AI平臺有哪些?
11.2.2 修剪神經網絡 21.2.3 嵌入式終端優(yōu)化 21.3 GPU 21.4 ARM 31.5 FPGA結構的并行計算 41.5.1 介紹 41.5.2 流水線計算 41.5.3 分布式流水線計...
2021-10-27 06:45:29
嵌入式中的人工神經網絡的相關資料分享
人工神經網絡在AI中具有舉足輕重的地位,除了找到最好的神經網絡模型和訓練數(shù)據(jù)集之外,人工神經網絡的另一個挑戰(zhàn)是如何在嵌入式設備上實現(xiàn)它,同時優(yōu)化性能和功率效率。 使用云計算并不總是一個選項,尤其是當
2021-11-09 08:06:27
常見的分布式供電技術有哪些?
分布式供電技術是指將發(fā)電設備建設在用戶或供電系統(tǒng)端,將發(fā)電與負荷直接相連,通過局部供電的方式滿足用戶的電力需求。其主要特點是將傳統(tǒng)的集中式供電方式改為分散式供電方式,不僅既有大型電站向小型分布式
2023-04-10 16:28:30
當訓練好的神經網絡用于應用的時候,權值是不是不能變了?
當訓練好的神經網絡用于應用的時候,權值是不是不能變了????就是已經訓練好的神經網絡是不是相當于得到一個公式了,權值不能變了
2016-10-24 21:55:22
數(shù)據(jù)、算法和算力其實現(xiàn)載體是什么
背景介紹數(shù)據(jù)、算法和算力是人工智能技術的三大要素。其中,算力體現(xiàn)著人工智能(AI)技術具體實現(xiàn)的能力,實現(xiàn)載體主要有CPU、GPU、FPGA和ASIC四類器件。CPU基于馮諾依曼架構,雖然靈活,卻
2021-07-26 06:47:30
淺談分布式緩存技術
包括會話狀態(tài)和應用程序擴展時的狀態(tài)數(shù)據(jù);4,并行處理,涉及大量中間計算結果需要共享;5,分布式緩存為事件流提供連續(xù)查詢(continuousquery)處理技術,滿足實時需求6,分布式緩存為事務性
2018-11-16 15:45:55
計及分布式發(fā)電的配電網潮流計算 精選資料分享
,通過在33 節(jié)點配電系統(tǒng)算例進行測試,結果表明該方法是可行的隨著電力行業(yè)市場經濟體制改革的深入發(fā)展,對配電網絡的安全性和經濟型也提出了更多的要求,分布式電源的發(fā)展,也受到了越來越多的關注。分布式電源
2021-07-12 07:30:21
適用于數(shù)據(jù)中心和AI時代的800G網絡
和性能隔離能力,以保障不同用戶任務互不干擾。
分布式AI計算與網絡架構設計
分布式計算已成為AI訓練的主流方式,通過將工作負載分配到多個GPU節(jié)點并行處理,以加速模型訓練。這對數(shù)據(jù)中心網絡架構
2025-03-25 17:35:05
基于BP神經網絡的分布式傳感器網絡的可靠性分析
針對分布式傳感器中的故障點多、導致估計系統(tǒng)可靠性參數(shù)困難的特點, 提出了一種基于BP 三層神經網絡的M arkov 可靠性模型。仿真結果表明, 神經網絡收斂時的可用度與M arkov 模型計
2009-07-13 11:21:21
18

分布式網絡審計系統(tǒng)的生存性設計
分布式網絡審計系統(tǒng)是目前廣泛使用的網絡應用系統(tǒng),為了保障它在面臨攻擊的時候能夠穩(wěn)定、可靠地提供服務,必須考慮系統(tǒng)自身的生存性設計。本文利用現(xiàn)有的分布式網絡審
2009-09-01 10:30:39
8

TD分布式基站技術探討
TD分布式基站技術探討摘要:本文著重介紹了分布式基站的引入、概念內容、優(yōu)勢以及它現(xiàn)在存在的問題。對加快TD網絡化進程,提高網絡質量,實現(xiàn)室內外一體
2010-05-23 11:19:34
10

GL Studio的分布式虛擬訓練系統(tǒng)關鍵技術
為在GL Studio中實現(xiàn)分布式虛擬儀表的遠程交互,對該虛擬訓練系統(tǒng)的關鍵技術進行研究。在分析分布式虛擬訓練系統(tǒng)運行環(huán)境和操作流程的基礎上,給出系統(tǒng)的總體設計框架;設計出基
2011-03-22 00:04:16
27

大規(guī)模分布式互聯(lián)網應用的測量
日益提高的效率與安全性需求催生了大量的大規(guī)模分布式新型互聯(lián)網應用。這些網絡應用所呈現(xiàn)的動態(tài)、分散、可擴展、高容錯、隱私性強等特點,給網絡應用的設計與管理帶來了挑戰(zhàn)
2011-05-30 10:04:18
15

基于神經網絡的分布式電源在PSASP中應用
隨著分布式電源(distributed generation,DG)在電網中滲透率的日趨增大,分布式電源的統(tǒng)一等效建模成為目前電力系統(tǒng)仿真領域的基礎研究,人工神經網絡(artificial
2018-02-28 15:20:11
5

基于虛擬化的多GPU深度神經網絡訓練框架
針對深度神經網絡在分布式多機多GPU上的加速訓練問題,提出一種基于虛擬化的遠程多GPU調用的實現(xiàn)方法。利用遠程GPU調用部署的分布式GPU集群改進傳統(tǒng)一對一的虛擬化技術,同時改變深度神經網絡在分布式
2018-03-29 16:45:25
0

如何借助分布式GPU環(huán)境來提升神經網絡訓練系統(tǒng)的浮點計算能力
雖然近年來 GPU 硬件算力和訓練方法上均取得了重大進步,但在單一機器上,網絡訓練所需要的時間仍然長得不切實際,因此需要借助分布式GPU環(huán)境來提升神經網絡訓練系統(tǒng)的浮點計算能力。
2018-05-28 11:11:39
5412


IBM全新AI芯片設計登上Nature,解決GPU的算力瓶頸
現(xiàn)如今的人工智能的神經網絡與GPU密不可分,但是GPU的算力對于未來神經網絡的發(fā)展是不夠用的,好在IBM全新AI芯片設計,能夠解決GPU的算力瓶頸。
2018-06-13 09:28:34
1509

深度解析AI算力的現(xiàn)狀和趨勢
分享會從 AI 算力的現(xiàn)狀和趨勢談起,并從硬件設計和算法優(yōu)化兩個層面切入,剖析算力提升的最新落地經驗和誤區(qū),最后針對算力成本居高不下的普遍現(xiàn)狀,引入算力的新型協(xié)作方式---借用區(qū)塊鏈生態(tài)的分布式協(xié)作,大幅降低企業(yè)算力成本。
2018-08-01 16:08:14
9099

基于Jini互聯(lián)技術實現(xiàn)分布式嵌入式系統(tǒng)的設計
系統(tǒng)的開發(fā)。在構建分布式嵌入式系統(tǒng)的過程中利用Jini互聯(lián)技術,不但可以降低系統(tǒng)開發(fā)難度,實現(xiàn)嵌入式環(huán)境中基于服務級的互操作,而且還可提高整個系統(tǒng)的靈活性和可靠性。因此Jini技術推出后,人們很快就開始關注如何將Jini應用于分布式嵌入式系統(tǒng)的開發(fā)。
2020-09-11 17:37:14
3482


Google Brain和DeepMind聯(lián)手發(fā)布可以分布式訓練模型的框架
【導讀】AI模型進入大數(shù)據(jù)時代,單機早已不能滿足訓練模型的要求,最近Google Brain和DeepMind聯(lián)手發(fā)布了一個可以分布式訓練模型的框架Launchpad,堪稱AI界的MapReduce
2021-06-26 15:42:42
2523


探究超大Transformer語言模型的分布式訓練框架
。 優(yōu)化的分布式集群架構:NVIDIA DGX SuperPOD 有了高效的分布式訓練框架,自然也需要優(yōu)化的分布式訓練集群。 NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個
2021-10-20 09:25:43
2759

HarmonyOS跨端分布式算力技術介紹
功能上無法對智能化沉浸式體驗的應用提供全方位的支持,導致很多應用場景難以得到實現(xiàn)。 為了解決移動端算力瓶頸,HarmonyOS跨端分布式計算應運而生,給用戶帶來易協(xié)同、低延遲和高穩(wěn)定的分布式體驗。下面,我們將對跨端分布式計算技術
2021-11-17 16:34:19
3996


分布式電源對配電網影響
34節(jié)點配電網算例的說明 研究分布式電源對配電網網損的影響 分布式電源容量對網損的影響 分布式電源位置對網損的影響 分布式電源對配電網電壓支撐作用 分布式電源接入位置對配電網電壓作用分布式電源容量對電壓支撐作用matlab源代碼,代碼按照高水平文章復現(xiàn),保證正確...
2022-01-07 11:27:30
7

算力網絡:算力和網絡的關系
算力網絡的核心特征,是它通過算力,實現(xiàn)了對算力資源、網絡資源的全面接管,可以讓網絡實時感知用戶的算力需求,以及自身的算力狀態(tài)。經過分析后,算力網絡可以調度不同位置、不同類型的算力資源,為用戶服務。
2022-12-14 16:09:05
4964


基于光子神經網絡的超高算力密度硅基集成光子處理器
高算力密度集成光子處理器 此前,人工智能(AI)技術已在數(shù)據(jù)密集型計算任務中得到廣泛應用。在后摩爾時代,為滿足AI算力和能耗的巨大需求,光子神經網絡應運而生。
2023-02-06 11:11:33
691

移動算力網絡指什么 算力和網速有關系嗎
移動算力網絡(Mobile Computing Network)是一種基于移動設備(如智能手機、平板電腦等)的計算網絡,它利用移動設備的計算能力和通信能力,將多個移動設備連接起來形成一個分布式計算系統(tǒng),從而實現(xiàn)更高效的計算和通信。
2023-05-15 17:31:16
2372

如何使用分布式存儲系統(tǒng)促進AI模型訓練
這凸顯了分布式存儲在人工智能(AI)領域的重要性。JuiceFS 是一個開源、高性能的分布式文件系統(tǒng),為這個問題提供了解決方案。
2023-06-12 09:28:38
893


從算力網絡發(fā)展,看未來十年的宏觀算力體系
編者按三大運營商都在積極地推廣“算力網絡”的相關技術概念落地,互聯(lián)網公司有類似的概念叫“分布式云”。個人理解,兩個概念的技術實現(xiàn)基本相同,不同點在于:算力網絡站在基礎計算環(huán)境的視角,著眼于算力資源
2023-05-12 10:31:03
1044


科大訊飛、華為強強聯(lián)合:攻關算力卡脖子問題
科大訊飛擁有自研大模型訓練平臺,具備訓練和數(shù)據(jù)閉環(huán)全流程設計、大模型訓練和推理一體化設計、大規(guī)模異構算力兼容、支持混合云架構易拓展等優(yōu)勢,華為基于昇騰AI基礎軟硬件的高算力AI芯片、高性能算子庫、多卡高速互聯(lián)、分布式存儲等優(yōu)勢
2023-08-22 16:17:04
2083

基于PyTorch的模型并行分布式訓練Megatron解析
NVIDIA Megatron 是一個基于 PyTorch 的分布式訓練框架,用來訓練超大Transformer語言模型,其通過綜合應用了數(shù)據(jù)并行,Tensor并行和Pipeline并行來復現(xiàn) GPT3,值得我們深入分析其背后機理。
2023-10-23 11:01:33
4011


PODsys:大模型AI算力平臺部署的開源“神器”
大模型是通用人工智能的底座,但大模型訓練對算力平臺的依賴非常大。大模型算力平臺是指支撐大模型訓練和推理部署的算力基礎設施,包括業(yè)界最新的加速卡、高速互聯(lián)網絡、高性能分布式存儲系統(tǒng)、液冷系統(tǒng)和高效易用
2023-11-08 09:17:13
1258


DPU技術賦能下一代AI算力基礎設施
4月19日,在以“重構世界 奔赴未來”為主題的2024中國生成式AI大會上,中科馭數(shù)作為DPU新型算力基礎設施代表,受邀出席了中國智算中心創(chuàng)新論壇,發(fā)表了題為《以網絡為中心的AI算力底座構建之路》主題演講,勾勒出在通往AGI之路上,DPU技術賦能下一代AI算力基礎設施中的關鍵作用。
2024-04-20 11:31:25
1239

中國電信聯(lián)合華為完成業(yè)內首例超百公里分布式無損智算網現(xiàn)網驗證
近日,中國電信在云網融合領域實現(xiàn)了令人矚目的新突破。在中國電信集團的統(tǒng)一組織下,北京公司及研究院攜手完成了業(yè)內首次智算長距無損互聯(lián)技術驗證。這次驗證的分布式訓練性能顯著,達到了集中式單智算中心訓練
2024-05-14 11:23:50
1085

摩爾線程攜手憨猴集團,深化AI算力戰(zhàn)略合作,成功實現(xiàn)大模型分布式訓練
摩爾線程與憨猴科技集團日前宣布,采用搭載摩爾線程的夸娥(KUAE)千卡智算集群,已成功完成了多個大模型的分布式訓練,涵蓋7B、34B以及70B三個不同的計算規(guī)模等級。
2024-05-17 17:24:16
1134

怎么對神經網絡重新訓練
重新訓練神經網絡是一個復雜的過程,涉及到多個步驟和考慮因素。 引言 神經網絡是一種強大的機器學習模型,廣泛應用于圖像識別、自然語言處理、語音識別等領域。然而,隨著時間的推移,數(shù)據(jù)分布可能會
2024-07-11 10:25:02
767

AI網絡物理層底座: 大算力芯片先進封裝技術
隨著人工智能(AI)技術的迅猛發(fā)展,我們正站在第四次工業(yè)革命的風暴中, 這場風暴也將席卷我們整個芯片行業(yè),特別是先進封裝領域。Chiplet是實現(xiàn)單個芯片算力提升的重要技術,也是AI網絡片內互聯(lián)
2024-09-11 09:47:02
1202


企業(yè)AI算力租賃是什么
企業(yè)AI算力租賃是指企業(yè)通過互聯(lián)網向專業(yè)的算力提供商租用所需的計算資源,以滿足其AI應用的需求。以下是對企業(yè)AI算力租賃的介紹,由AI部落小編為您整理。
2024-11-14 09:30:46
2299

分布式通信的原理和實現(xiàn)高效分布式通信背后的技術NVLink的演進
大型模型的大小已經超出了單個 GPU 的范圍。所以就需要實現(xiàn)跨多個 GPU 的模型訓練,這種訓練方式就涉及到了分布式通信和 NVLink。 當談及分布式通信和 NVLink 時,我們進入了一個引人入勝且不斷演進的技術領域,下面我們將簡單介紹分布式通信的原理和實
2024-11-18 09:39:41
1141


信而泰CCL仿真:解鎖AI算力極限,智算中心網絡性能躍升之道
中心RoCE網絡提供精準評估方案,助力企業(yè)突破算力瓶頸,釋放AI澎湃動力! 什么是智算中心 智算中心(AIDC,Artificial Intelligence Data Center)是專門為人工智能應用提供算力支持的高性能數(shù)據(jù)中心,是人工智能技術與云計算、大數(shù)據(jù)、物聯(lián)網等現(xiàn)代信息技術深度融
2025-02-24 17:34:43
379


RAKsmart智能算力架構:異構計算+低時延網絡驅動企業(yè)AI訓練范式升級
在AI大模型參數(shù)量突破萬億、多模態(tài)應用爆發(fā)的今天,企業(yè)AI訓練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構,以異構計算資源池化與超低時延網絡為核心,重構AI訓練基礎設施,助力企業(yè)實現(xiàn)訓練速度提升、硬件成本下降與算法迭代加速的三重突破。
2025-04-17 09:29:13
244

AI原生架構升級:RAKsmart服務器在超大規(guī)模模型訓練中的算力突破
近年來,隨著千億級參數(shù)模型的崛起,AI訓練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務器架構在應對分布式訓練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模模型訓練提供了全新的算力解決方案。
2025-04-24 09:27:21
196

評論