2025,各行各業基于DeepSeek探索各自領域的落地方式,由此開啟了AI智能化加速的新航程。然而,大模型應用落地是一個系統工程,技術與資源門檻高,還存在大量未知挑戰。
面對不確定的海浪,具備全棧能力的云基礎設施,成為企業追逐AI的可靠巨輪。
大模型對云計算基礎設施的需求,與傳統云計算存在顯著差異。比如大模型訓練需要萬卡級GPU集群支持,且對多芯混合訓練效能和穩定性要求極高。傳統以CPU為中心的云計算中心,需轉向以GPU為核心的智能算力架構,并實現算力資源的極致調度。
而百度智能云與其他云廠商最大的區別,就是一直是百度AI技術和業務的堅定支持者,常年在AI基礎設施上進行投入。上云用大模型的需求爆發之后,百度智能云迅速躋身中國大模型平臺第一,領航AI云市場。
這一成績的背后,離不開百度所有核心業務的算力底座——百舸異構計算平臺。借助百舸的大規模推理加速能力,以及自研昆侖芯P800芯片,百度智能云實現了算力性能與成本的雙重突破。
就在昨天,4月25日召開的Create 2025 百度AI開發者大會上,百度正式點亮了昆侖芯P800的三萬卡集群,發布昆侖芯超節點。僅有高性能芯片和大規模集群是不夠的,為了穩定、高效地釋放算力價值,百度智能云也全面升級百舸推理加速能力。
云計算的大船,正乘AI之風,揚時代之帆,迎來前所未有的增長機遇。這時候,有必要深入百舸內部,去窺探一下百度智能云這艘AI巨輪的加速密碼。
為什么破解算力短缺和計算成本高的問題,僅靠單體硬件和集群還不夠,需要平臺級的優化助力?
縱觀2025年的大模型算力格局,前有DS技術突破,算力需求激增;后有海外進口芯片供應持續不穩定,算力焦慮始終存在。多元異構芯片的混合訓練,成為國內緩解算力荒的一個選擇。但異構芯片之間的協議生態不同,合池訓練難度大,對云基礎設施提出了挑戰。
首先,集群規模更大,推理場景下快速定位故障并恢復,十分考驗超大規模集群的穩定性。
此外,異構芯片多樣,國內超萬卡集群多采用混合芯片方案,但不同架構合池訓練會出現性能損失。《AIDC白皮書》顯示,業界頂尖的千卡智算集群,其算力利用率不超過60%,萬卡集群不超過55%。提高國產集群的資源利用率和算效,避免資源浪費,刻不容緩。
DeepSeek之后,盡快用上DS等大模型,成為企業的當務之急,云基礎設施承載的AI任務大幅上量。一方面考驗云基礎設施的敏捷性,是否支持在云上快速構建和進行模型迭代,無縫集成AI開源生態,也需要調優技術的加持,從而帶來極致的推理性能優化,降低推理成本。
可以說,AI大模型深入千行萬業,上云深度用AI的當下需求,進一步強化了多元異構計算平臺的重要性和必要性。滄海橫流處,百度智能云和百舸,已經做好了準備。
一場以AI為核心、多元異構算力為底座的云技術競賽,就此拉開帷幕。百度智能云率先點亮了昆侖芯萬卡集群,今年Create大會上,又正式宣布點亮3萬卡集群。那么,百度是如何解決多芯混訓問題的?百舸平臺,是核心驅動。
百舸作為超大規模GPU算力平臺,可以對算力集群的AI-IaaS基礎資源進行調度,打造高性能AI基礎設施,支持高達10萬卡大規模集群,提供穩定、極速、高效的算力服務,滿足企業的訓練、精調、推理的全流程需求。
如果把AI云基礎設施看作一艘航船,那么百舸的存在,可以發揮幾個作用:
作用一,支撐更大的算力船身。百舸平臺不僅有更強的單節點性能,同時通過昆侖芯超節點(高密整機柜),把卡放在同一個機柜里,用更快的機內通信替代機間通信,降低機柜之間通信的復雜性、高延遲和帶寬成本,從而支持超大規模集群建設。基于百舸,AI基礎設施可以納管的算力資源規模大,提供更加充沛、穩定的智能算力。
作用二,提供穩定的AI體驗。當計算機群出現故障,每一次重寫checkpoint,都會給大模型的開發和企業平添波折。百舸平臺通過智能調度與冗余設計,實現99.5%有效訓練時長,以分鐘級故障恢復能力,減少中斷,確保AI任務連續穩定運行。
作用三,為AI任務加速的高效動能。類DeepSeek的長思維鏈推理模型,增加了思考環節,需要輸出的token更多,如果吞吐速度不夠快,用戶就需要長時間等待,AI體驗很差。百舸的大規模分布式PD分離推理系統,可根據不同的模型特點,選擇最優的并行策略,做到token級別的PD負載均衡,同時結合算子融合、all-to-all 通信算子優化、異步KV傳輸、雙流編排等技術進一步提升GPU利用率,推理成本節省95%,總吞吐提升20倍。同時,百舸還支持私有化部署。也就是說,無論是云上調用推理模型,還是本地部署,百舸都可以保障高效實時的體驗。
可以說,在百舸平臺的支撐下,百度得以打造堅固的異構算力底座,擁有了在大模型時代遠航的穩定推進力,在AI云服務的競爭中處于領先身位。
開年以來,AI云市場進入后DeepSeek時代,頭部云服務商都在積極升級AI基礎設施及服務。百度能否長期保持AI云的優勢,還取決于AI底座與產業的融合深度。
說到底,只有讓企業真正用上AI,用好AI,AI基礎設施及AI云服務才能煥發出最寬廣的價值。
如何幫助千行百業高效地接入AI算力與模型,打造自己的AI應用?百度智能云AI計算部負責人、百度杰出架構師王雁鵬認為,支撐AI應用的創新大爆發,基礎設施必須讓算力不再成為瓶頸,讓算力唾手可得。全新升級的百舸,就是百度智能云交出的一份答卷,可以用三個字來概括:
全。王雁鵬提到,面對AI模型的爆發,敏捷的基礎設施能夠支持各種芯片、模型、框架以及工具鏈。全新升級的百度百舸算力平臺,不僅提供高性能的計算、存儲、網絡的基礎資源產品,也提供了一鍵式全站AI工程開發平臺以及各類工具集,能夠一鍵建設資源池,一鍵部署開發環境,一鍵部署模型,把GPU的利用率發揮到極致,為各類開源模型帶來顯著的加速效果。
作為企業級的一站式AI工程平臺,百舸覆蓋AI大模型的全周期、全流程,可以縮短AI開發周期,對于金融、互聯網等追求效率、時間敏感、競爭激烈的行業來說,意義重大。比如百度智能云攜手招行基于昆侖芯國產算力,接入開源模型,幫助招行快速提升了智能客服、多模態數據分析等場景的應用效能。
省。領先的AI工程硬核加速能力,也可以讓各領域開源模型訓推成本更低、周期更短、故障更少,能夠同時支持成百上千的各種任務不中斷,大幅節省了企業的時間和資源成本。北京人形機器人創新中心的通用具身智能平臺,就依托百度百舸AI異構計算平臺和穩定可靠的AI算力基礎設施,進行模型訓練,為人形機器人打造更聰明的“大腦”。
強。王雁鵬介紹到,把訓推系統的能力做到極致,充分壓榨出硬件的算力,是百舸一直以來追求的目標。百舸的原生AI-IaaS 對接和管理能力,可以發揮出基礎設施最大效能,性能更強。
最近,百舸針對多模態模型以及智駕模型做了深度優化,在多模態模型上取得了30%,在智駕模型上取得了150%以上的加速效果,助力更多行業、汽車企業等智能化降本增效。比如教育機構好未來,就借助百舸的隊列超發能力,充分利用集群閑時資源,整體資源利用率提升10%以上。
當一個企業打算落地應用大模型,百舸是一條更短、更省、更快的智能化航路。
在未知的海域中探索,望向技術遠方的星辰,才能走在正確的方向上。十多年來,AI指引著百度的航向,從未偏離航道,才能成為大模型時代AI與云的領航人。
云基礎設施+AI技術的優勢,讓百度智能云在大模型時代快速增長,成為大量政企上云賦智的首選。而百舸平臺,也為緩解行業智能化的算力焦渴,發揮了關鍵作用。
早在百度押注AI、大模型、昆侖芯的時候,就知道必須把多元異構計算集群掌握在自己手中,那么百舸平臺的出現,也就是水到渠成了。
進入2025年,國產大模型+異構算力,正在書寫智能中國的新篇章。我們已經從百舸身上,發現了百度繼續領航AI與云時代的必要條件:
基礎設施完備。從昆侖芯,到百舸平臺,AI算力基礎設施底座是百度業務AI重塑的基本保障。
進化動能強勁。高性能優化技術,降本增效,支撐百度大模型、AI應用等低成本高效迭代,持續進化,競爭力不斷增強,避免掉隊。
商業邏輯清晰。AI即服務、模型即服務的商業邏輯想要成立,必須持續優化token成本,帶給客戶上云用AI的真實價值,從而在用戶規模和資源回報比上占據優勢。憑借百舸平臺能力,新業務模式得以成立。
為千行萬業,開算力通途,屬于AI與云的時代才剛剛開始。接下來,百舸支撐的AI云基礎設施及服務,不僅是行業和企業加速擁抱AI的時代航船,也將是百度增長的主航道。
審核編輯 黃宇
-
AI
+關注
關注
87文章
34146瀏覽量
275275 -
算力
+關注
關注
2文章
1141瀏覽量
15435
發布評論請先 登錄
華為中國行2025廣東新質生產力創新峰會成功舉辦
云南移動攜手華為打造“九州”算力互聯網創新標桿
華為全光網加速AI普惠千行萬業
MWC 2025 | 廣和通發布「AI For X」:以AI重塑千行百業

MWC 2025 廣和通發布「AI For X」:以AI重塑千行百業
昆侖芯科技上線滿血版DeepSeek R1+聯網搜索服務
中科曙光以AI加速智能計算服務千行萬業

廣和通CES 2025發布Fibocom AI Stack,賦能千行百業端側應用
倒計時1天 | 第三屆OpenHarmony技術大會——明天,上海見!
百度百舸AI計算平臺4.0震撼發布
AI時代創新潮涌,從探路到引路,螢石云引領千行百業創新

5G+北斗高精度定位終端技術,賦能千行百業應用

評論