在今天,一個(gè)中國AI大模型想要完成從訓(xùn)練到推理的過程,需要在算力之路上走過九九八十一難。
首先,它會(huì)面臨英偉達(dá)算力卡被禁售、被降級的持續(xù)尷尬,算力獲取極其昂貴且困難;接下來,它將面臨模型參數(shù)過大,單卡算力無法支持,需要集群式算力的難題;再進(jìn)一步,大規(guī)模AI計(jì)算集群故障頻繁,恢復(fù)緩慢,極大拖延了訓(xùn)練效率;在推理環(huán)節(jié),大模型還需要提升分布式推理能力,提升應(yīng)用競爭力。
大模型們就像一枚枚棋子。它們在算法層面勇往直前,腳下卻沒有屬于自己的算力棋盤。即使如此,這片土地依舊涌現(xiàn)出了耀眼奪目的大模型創(chuàng)新。但我們也不禁會(huì)想,如果擁有堅(jiān)實(shí)有力,且沒有外部風(fēng)險(xiǎn)的AI算力底座,AI技術(shù)的可能性又將被如何書寫?
在HDC 2025,我看到了解答這個(gè)問題的方法。華為常務(wù)董事、華為云計(jì)算CEO張平安宣布基于CloudMatrix384超節(jié)點(diǎn)的新一代昇騰AI云服務(wù)全面上線,為大模型應(yīng)用提供澎湃算力。
基于CloudMatrix384超節(jié)點(diǎn)的新一代昇騰AI云服務(wù),本質(zhì)上是對固化的AI算力形態(tài)進(jìn)行了改變。它改變了以單卡為中心的AI算力供應(yīng)模式,直擊了中國AI算力自主化的需求,并找到了云服務(wù)這種最契合大模型推訓(xùn)的算力獲取方式。
384個(gè)AI計(jì)算單元,連成了一片“龍鱗”,透過它的反光,看到的是中國AI算力用技術(shù)改變規(guī)則的能力和決心。
讓我們沿著新一代昇騰AI云服務(wù)從發(fā)現(xiàn)困局,再到技術(shù)破局,進(jìn)而到云服務(wù)閉環(huán)與賦能行業(yè)應(yīng)用落地的邏輯,去看看AI算力的八十一難,如何變得蕩然無存。
從深度學(xué)習(xí)技術(shù)興起,AI算力作為一種專項(xiàng)需求被提出,產(chǎn)學(xué)各界預(yù)言了中國的AI算力需求必然會(huì)呈現(xiàn)出巨大矛盾。這種矛盾在大模型時(shí)代得到了史無前例的爆發(fā)。
一邊是中國AI產(chǎn)業(yè)在算法、應(yīng)用側(cè)的創(chuàng)新層出不窮,AI在社會(huì)經(jīng)濟(jì)中扮演的地位愈發(fā)重要;另一邊是我們始終沒有筑起自己的AI算力底座,算力獲取嚴(yán)重依賴外部供應(yīng)。這種供應(yīng)形態(tài)發(fā)展到一定程度,就必然會(huì)形成體系軟肋與發(fā)展局限。就像把自己的AI棋子,放在別人的算力棋盤上,當(dāng)其他人想要掀翻棋盤的時(shí)候,我們可能沒有任何辦法,當(dāng)我們有了更多棋子,原有的棋盤可能也擺不下。
從過去、現(xiàn)在、未來的三重要素看,中國AI算力都必須走出一條自己的新路來。
1.來自過去的困局:AI算力的外部限制。
自1996年《瓦森納協(xié)定》簽訂以來,美國長期主導(dǎo)了對中國的芯片出口限制。AI時(shí)代到來后,AI算力成為科技鐵幕的核心焦點(diǎn)。近幾年,美國持續(xù)加碼對中國的AI算力限制,曾經(jīng)占據(jù)中國AI算力市場份額超過95%的英偉達(dá)GPU,不斷在被禁與推出閹割版的徘徊中游蕩。這讓難獲取與昂貴,成了AI算力的代名詞。
2.來自今天的挑戰(zhàn):大模型崛起帶來的算力需求。
把目光放到中國市場本身,會(huì)發(fā)現(xiàn)算力矛盾依舊突出。伴隨著DeepSeek為代表的國產(chǎn)大模型崛起,以及AI Agent等應(yīng)用爆發(fā)。中國大模型需要更加強(qiáng)大的訓(xùn)練推理能力作為支撐已成定局。
比如說,AI Agent的技術(shù)邏輯是大模型決策再調(diào)用外部工具進(jìn)行處理,這個(gè)國產(chǎn)時(shí)延考驗(yàn)。想要讓AI Agent真正走向大規(guī)模應(yīng)用,就需要CPU與NPU之間強(qiáng)大的高速通信能力。這些算力的實(shí)現(xiàn),直接決定著AI應(yīng)用的發(fā)展。
3.來自未來的焦慮:為AGI未雨綢繆。
更為關(guān)鍵的是,AI大模型還在快速發(fā)展。未來我們可能會(huì)迎來訓(xùn)練參數(shù)量達(dá)到百萬億的大模型,這將導(dǎo)致AI算力需求也被百萬倍提升。與此同時(shí),自動(dòng)駕駛、元宇宙等方向的不斷創(chuàng)新,讓復(fù)雜的多元融合計(jì)算逐漸成為主流。我們必須讓算力底座預(yù)先發(fā)展,才能支撐起關(guān)于未來近乎無盡的AI想象力。
想要解決這些困境,我們會(huì)發(fā)現(xiàn)一個(gè)核心點(diǎn)在于,依賴外部供應(yīng)的AI算力單卡絕不可取。必須將算力資源進(jìn)行集群化、系統(tǒng)化的整合建設(shè),用整體優(yōu)勢消弭個(gè)體劣勢,才是中國AI算力的取勝之道。
當(dāng)然,想要實(shí)現(xiàn)這個(gè)目標(biāo)技術(shù)難度是超乎想象的,好在我們也進(jìn)行了充分的準(zhǔn)備。比如華為在網(wǎng)絡(luò)方面的數(shù)十年積累,可以打破大規(guī)模集群式計(jì)算的通信瓶頸;昇騰的持續(xù)建設(shè),為自主化AI算力提供了支撐;華為云在大規(guī)模算力服務(wù)提供與下一代云基礎(chǔ)設(shè)施平臺的積累,為打造超節(jié)點(diǎn)提供了能力底座。
這些要素融合在一起,讓華為有機(jī)會(huì)打破傳統(tǒng)的馮諾依曼架構(gòu),實(shí)現(xiàn)“一切可池化”“一切皆對等”“一切可組合”的CloudMatrix384超節(jié)點(diǎn),進(jìn)而將其通過云服務(wù)落地千行萬業(yè)。
AI算力的多重困局,由此找到了從底層改寫規(guī)則的可能。
想要破局單卡為中心的AI算力困局,就需要向多卡集群方向努力。
用集約式計(jì)算提升算力資源利用率,搭建更符合大規(guī)模計(jì)算需求的超節(jié)點(diǎn)。這些思路在業(yè)界一直存在,但CloudMatrix384超節(jié)點(diǎn)的不同之處在于,其通過計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等諸多技術(shù)的協(xié)同創(chuàng)新,加上對傳統(tǒng)計(jì)算架構(gòu)的徹底顛覆,實(shí)現(xiàn)了“最強(qiáng)AI服務(wù)器”的打造。
CoudMatrix384是將384個(gè)昇騰NPU和192個(gè)鯤鵬CPU,通過高速網(wǎng)絡(luò)互聯(lián)總線連接起來,組成了一臺384卡的AI計(jì)算機(jī)。中國文化講求“合”的力量,這種文化基因在CloudMatrix384有著充分的展現(xiàn)。借用集約式計(jì)算的形式,CloudMatrix384超越了硬件與芯片工藝的限制,同時(shí)通過軟硬協(xié)同、池化架構(gòu)和動(dòng)態(tài)算力調(diào)配,實(shí)現(xiàn)了有效算力的大幅提升。根據(jù)相關(guān)數(shù)據(jù),CloudMatrix384能夠?qū)崿F(xiàn)300PFlops的算力規(guī)模,相比英偉達(dá)NVL72提升67%。它的出現(xiàn)能夠從底層技術(shù)上解決一系列迫在眉睫的算力技術(shù)難題,比如說:
1.分布式推理需求如何滿足?
在DeepSeek爆火之后,MoE模型混合專家大模型成為主流。而混合專家模型的一大特點(diǎn)就是十分考驗(yàn)計(jì)算集群的分布式推理能力。CloudMatrix384可以通過超節(jié)點(diǎn)的分布式推理引擎,大幅提升單卡的計(jì)算與通信效率。單卡吞吐量能夠較非超節(jié)點(diǎn)提升近4倍,躍升至2300Tokens/s,并支持“一卡一算力任務(wù)”,將算力有效使用率(MFU)提升50%以上,并且超節(jié)點(diǎn)可以實(shí)現(xiàn)MoE模型的“一卡一專家”,一個(gè)超節(jié)點(diǎn)可以支持384個(gè)專家并行推理,極大提升效率。
2.集群規(guī)模如何突破?
伴隨著大模型的發(fā)展,業(yè)界對AI算力的需求正在不斷擴(kuò)大,開始呈現(xiàn)出萬卡集群向五萬卡、十萬卡的趨勢發(fā)展。滿足對AI算力規(guī)模的需求,是超節(jié)點(diǎn)的當(dāng)務(wù)之急。
為此CloudMatrix384通過MatrixLink全對等互聯(lián),構(gòu)建了高速智能網(wǎng),再加上集群智能調(diào)度能力,保障了計(jì)算機(jī)群的性能無損,實(shí)現(xiàn)萬卡集群線性度高于95%。在此基礎(chǔ)上,CloudMatrix384最高可以將432個(gè)超節(jié)點(diǎn)進(jìn)行級聯(lián),形成16萬卡的AI計(jì)算集群,提供10萬PFlops級別的算力,從而滿足萬億級別的模型訓(xùn)練。由此一來,CloudMatrix384成功大幅打破了最大規(guī)模計(jì)算集群的邊界,充分滿足未來很長一段時(shí)間內(nèi)的大模型演化。
3.計(jì)算資源如何實(shí)現(xiàn)最優(yōu)?
對于一線AI開發(fā)者與行業(yè)智能化用戶來說,AI算力的問題不僅在于稀缺,還在于浪費(fèi)多、效率低以及運(yùn)維復(fù)雜。為了能夠?qū)崿F(xiàn)將每一比特AI算力都投入到有效的任務(wù)處理中,CloudMatrix384可以支持針對不同推訓(xùn)場景,按邏輯超節(jié)點(diǎn)來劃分資源,從而實(shí)現(xiàn)像搭積木一樣給AI任務(wù)分配算力,讓算力資源“一切可組合”,意味著用戶的所有資源投入都得到充分發(fā)揮。
除此之外,CloudMatrix384超節(jié)點(diǎn)還支持40天長穩(wěn)訓(xùn)練,10分鐘快速恢復(fù)。讓大模型推訓(xùn)過程中的種種卡點(diǎn)、堵點(diǎn)一掃而空。
在此之前,張平安提出:“CloudMatrix384超節(jié)點(diǎn)標(biāo)志著算力競爭從單點(diǎn)技術(shù)突破走向系統(tǒng)架構(gòu)創(chuàng)新。通過對復(fù)雜技術(shù)與資源的整合與協(xié)同,匹配全面智能時(shí)代的企業(yè)創(chuàng)新需求,并引領(lǐng)中國 AI產(chǎn)業(yè)生態(tài)的全面進(jìn)步。”
有了能夠改變AI算力底層邏輯的技術(shù)能力,接下來就是需要將CloudMatrix384超節(jié)點(diǎn)的技術(shù)優(yōu)勢向產(chǎn)業(yè)釋放。而云服務(wù),就是最好的方向。
CloudMatrix384超節(jié)點(diǎn)在技術(shù)邏輯上的突破,是打破了單點(diǎn)算力限制,實(shí)現(xiàn)算力的彈性、大規(guī)模可用,而這種技術(shù)特性與云計(jì)算的產(chǎn)業(yè)特性正好相符。企業(yè)在云上獲取計(jì)算資源,也是為了實(shí)現(xiàn)算力規(guī)模的自由拓展以及計(jì)算資源的靈活匹配。另一方面,AI大模型推訓(xùn)也有彈性算力需求的特征。
將超節(jié)點(diǎn)的技術(shù)特性-云計(jì)算的服務(wù)特性-大模型推訓(xùn)的需求特性,三者關(guān)聯(lián)起來看,不難看出超節(jié)點(diǎn)想要在產(chǎn)業(yè)環(huán)境中發(fā)揮最大價(jià)值,走向云計(jì)算平臺就是它的最好歸宿。在云上獲取CloudMatrix384的計(jì)算能力,也是最適合大模型應(yīng)用的算力服務(wù)獲取方式。
中國文化中說龍從云現(xiàn)。超節(jié)點(diǎn)的“龍鱗”,需要在云計(jì)算中展露崢嶸。為此,昇騰AI云服務(wù)早已做好了準(zhǔn)備。
自發(fā)布以來,昇騰AI云服務(wù)的體系不斷成熟,全球化布局不斷完善,至今已經(jīng)被全球1300多家企業(yè)選擇。在去年9月,華為云發(fā)布了AI-Native的云基礎(chǔ)設(shè)施CloudMatrix。在HDC 2025,華為云正式發(fā)布了基于CloudMatrix384超節(jié)點(diǎn)的新一代昇騰AI云服務(wù)。這意味著超節(jié)點(diǎn)超大規(guī)模算力、超強(qiáng)分布式推理能力、最優(yōu)計(jì)算資源等一系列具有顛覆意義的算力突破,都可以基于昇騰AI云服務(wù)來獲取和使用。
為了滿足更加多元、復(fù)雜的AI需求,華為云還升級了CloudMatrix AI Native基礎(chǔ)設(shè)施,使新一代昇騰AI云服務(wù)更加完善好用。具體而言,華為云CloudMatrix在硬件平臺實(shí)現(xiàn)了芯片和系統(tǒng)工程的進(jìn)步。在軟件層面,則通過重構(gòu)協(xié)議,優(yōu)化算法、應(yīng)用融合和調(diào)度智能化等方式突破系統(tǒng)性能的上限。
其中,分布式QingTian是CloudMatrix的核心底座。通過分布式QingTian架構(gòu),華為云在超節(jié)點(diǎn)架構(gòu)中首次實(shí)現(xiàn)了網(wǎng)絡(luò)IO設(shè)備池化和內(nèi)存資源池化。網(wǎng)絡(luò)IO設(shè)備池化可以通過分布式QingTianBox智能硬件,將網(wǎng)卡、存儲(chǔ)等IO設(shè)備解耦重組,讓用戶像調(diào)用本地資源一樣使用全局IO能力。內(nèi)存資源池化則基于華為云創(chuàng)新的Memlink-direct技術(shù)實(shí)現(xiàn)內(nèi)存跨主機(jī)直接共享,從而打破“單機(jī)內(nèi)存墻”,實(shí)現(xiàn)CPU/NPU與內(nèi)存的彈性配比。
另一方面,計(jì)算集群間的網(wǎng)絡(luò)聯(lián)接能力已經(jīng)成為制約計(jì)算效果的關(guān)鍵。華為云打造MatrixLink網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)在CloudMatrix中達(dá)成重構(gòu)組網(wǎng)、重構(gòu)協(xié)議、重構(gòu)通信語義、重構(gòu)通信調(diào)度的網(wǎng)絡(luò)能力增強(qiáng),提升大規(guī)模AI集群的計(jì)算效率。
與此同時(shí),最新升級的盤古5.5大模型所代表的華為云大模型能力與MaaS服務(wù),已經(jīng)落地到30多個(gè)行業(yè)500多個(gè)場景,可以充分滿足企業(yè)用戶在模型層的智能化需求。
至此,華為云已經(jīng)打造了包括算力、模型、AI基礎(chǔ)設(shè)施在內(nèi),完整、可用、可信賴,且突破以往產(chǎn)業(yè)邊界的AI能力。
新一代昇騰AI云服務(wù)不僅實(shí)現(xiàn)了為世界提供另一種選擇,還基于超節(jié)點(diǎn)的突破性與顛覆性,達(dá)成了為世界提供更好的選擇。
從超節(jié)點(diǎn)的技術(shù)突破,到新一代昇騰AI云服務(wù)的產(chǎn)業(yè)體系構(gòu)建,AI算力底座這個(gè)宏大命題終于迎來了期盼已久的顛覆。正所謂“龍行有雨”,由此產(chǎn)生的計(jì)算變革,將直接惠及用戶與行業(yè),進(jìn)而加速AI技術(shù)的持續(xù)突破與經(jīng)濟(jì)價(jià)值轉(zhuǎn)化。
從用戶視角來看,基于新一代昇騰AI云服務(wù)來獲取超節(jié)點(diǎn)算力,既是技術(shù)能力上的最佳選擇,也是企業(yè)價(jià)值上對最優(yōu)選擇。
新一代昇騰AI云服務(wù)具有確定性的運(yùn)營運(yùn)維、容災(zāi)備份等核心云服務(wù)能力,可以實(shí)現(xiàn)集群訓(xùn)練故障支持1min感知,3min WR響應(yīng)與處置,異常故障恢復(fù)時(shí)間小于10min。并且云服務(wù)開箱可用,能夠最大限度降低企業(yè)學(xué)習(xí)成本,同時(shí)還是最為經(jīng)濟(jì)的AI算力獲取選擇。
而從行業(yè)視角來看,新一代昇騰AI云服務(wù)在各個(gè)關(guān)鍵領(lǐng)域都展現(xiàn)出了典型且充分的行業(yè)實(shí)踐,證明了自身融入行業(yè)智能化需求的價(jià)值與可行性。
在資訊領(lǐng)域,新浪新聞的“智慧小浪”是以開源大模型和微博知微大模型為底座模型,深度融合了通用數(shù)據(jù)以及新浪獨(dú)有數(shù)據(jù)的AI產(chǎn)品。基于新一代昇騰AI云服務(wù),“智慧小浪”構(gòu)建了統(tǒng)一的推理平臺,實(shí)現(xiàn)了推理交付效率提升超過50%,模型上線速度成倍加快,NPU利用率提升超過40%等一系列價(jià)值升級。
在AI領(lǐng)域,硅基流動(dòng)基于昇騰AI云服務(wù),每天可以為用戶提供千億token服務(wù),實(shí)現(xiàn)了用戶3個(gè)月期間翻倍。面壁智能使用CloudMatrix384超節(jié)點(diǎn),讓他們小鋼炮模型的推理業(yè)務(wù)性能得到了2.7倍提升。
在科研領(lǐng)域,中科院基于昇騰 AI云服務(wù)自研了訓(xùn)練框架,快速構(gòu)建中科院 AI4S 科研大模型,打造智能科研平臺。
在互聯(lián)網(wǎng)領(lǐng)域,360打造的中國首個(gè)“超級搜索”納米AI搜索,實(shí)現(xiàn)數(shù)十家大模型廠商的上百款大模型的高效協(xié)作,對AI算力有極大需求,也已開啟了CloudMatrix384超節(jié)點(diǎn)的測試。同時(shí),昇騰 AI云服務(wù)還為新浪的微博智搜帶來了搜索能力明顯提升、回答能力顯著增強(qiáng)等體驗(yàn)升級。
從客戶價(jià)值到行業(yè)價(jià)值,新一代昇騰AI云服務(wù)已經(jīng)可謂是澤被原野。至此,一個(gè)“用系統(tǒng)架構(gòu)取代單點(diǎn)優(yōu)勢”的想法,凝結(jié)成了CloudMatrix384超節(jié)點(diǎn)的復(fù)雜技術(shù)創(chuàng)新,打磨成了新一代昇騰AI云服務(wù)的產(chǎn)業(yè)通道,最終落地成了千行萬業(yè)的AI實(shí)踐。
AI算力陳舊的規(guī)則困局,終于迎來了變革的開啟。
幾年之前,有人說AI處在最好的時(shí)代,同時(shí)也是最壞的時(shí)代。最好是因?yàn)橹袊袠O佳的AI創(chuàng)新氛圍,有算法、數(shù)據(jù)、人才、市場的種種優(yōu)勢,AI技術(shù)在這里一日千里。
最壞是因?yàn)橹袊鳤I所搭建的高樓大廈,都處在地基不牢,隨時(shí)有坍塌風(fēng)險(xiǎn)的境地里。沒有自主且強(qiáng)大的AI算力,一切努力都像鏡花水月。
經(jīng)過多年的沉潛與錘煉,以華為為代表的科技企業(yè),選擇正視、思考,并去解決這個(gè)問題,在巨大的投入與漫長的積累后,最終找到了破局方案,并達(dá)成了CloudMatrix384超節(jié)點(diǎn)這個(gè)足以改變AI算力規(guī)則的變革點(diǎn)。通過新一代昇騰AI云服務(wù),這個(gè)變革點(diǎn)將融入千行萬業(yè),融入中國AI算力新的底層規(guī)則。
或許不久后我們將發(fā)現(xiàn),AI算力的大環(huán)境得到了改變甚至顛覆,新的定義是:這是變革的時(shí)代,這是我們的時(shí)代。
在不久之前,任正非的一篇采訪廣為流傳。他說:“我們單芯片還是落后美國一代,我們用數(shù)學(xué)補(bǔ)物理、非摩爾補(bǔ)摩爾,用群計(jì)算補(bǔ)單芯片,在結(jié)果上也能達(dá)到實(shí)用狀況。”尤其在AI芯片領(lǐng)域,他認(rèn)為用疊加和集群等方法,計(jì)算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)摹?/p>
這個(gè)判斷并非對未來的展望。我們了解新一代昇騰AI云服務(wù)之后會(huì)發(fā)現(xiàn),這場變革已經(jīng)實(shí)現(xiàn)。
對于我們來說,AI算力正在從高懸頭上的制約,變成動(dòng)力的來源,變成撬動(dòng)想象力的支點(diǎn)。
AI時(shí)代,要聽龍鳴。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
88文章
34657瀏覽量
276521
發(fā)布評論請先 登錄
華為開發(fā)者大會(huì)2025(HDC 2025)亮點(diǎn):華為云發(fā)布盤古大模型5.5 宣布新一代昇騰AI云服務(wù)上線

RAKsmart服務(wù)器如何重塑AI高并發(fā)算力格局
創(chuàng)思遠(yuǎn)達(dá)與昇騰合作推動(dòng)AI PC應(yīng)用創(chuàng)新
(原創(chuàng))昇騰310B(8T/20T)算力主板定制方案
ST EDGE AI云服務(wù)最后一步無法下載工程是怎么回事?
云軸科技ZStack智塔攜手昇騰AI實(shí)現(xiàn)DeepSeek模型部署

科技云報(bào)到:要算力更要“算利”,“精裝算力”觸發(fā)大模型產(chǎn)業(yè)新變局?
云天勵(lì)飛攜手華為昇騰打造智算中心解決方案
算力再躍升!億萬克發(fā)布新一代AI服務(wù)器——G882N7+!
青云科技強(qiáng)化AI算力架構(gòu),升級產(chǎn)品與服務(wù)體系
研華發(fā)布高性能工業(yè)邊緣 AI 算力方案 攜手昇騰引領(lǐng)邊緣 AI 革新

香橙派亮相昇騰AI開發(fā)者創(chuàng)享日,打造“AI+鴻蒙”高算力開發(fā)板

新一代柔性算力 Flexus X 實(shí)例,重新定義企業(yè)級云服務(wù)新標(biāo)準(zhǔn)

評論