女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

同質化的GPU云市場,誰能逃離內卷?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2025-06-21 16:41 ? 次閱讀

wKgZO2hVZtGAa6fPAAhFDVeV4iQ880.jpg

“一個聰明人從敵人那里得到的東西,比從一個傻瓜朋友那里得到的東西更多?!?/p>

——哲學家格拉西安

這句格言,正在AI領域被現實驗證。美國的限制政策總會告訴我們,哪些東西是發展AI至關重要的。

2024年10月,美國商務部再次升級制裁,限制中國實體訪問美國的云服務,理由是“防止利用美國基礎設施訓練AI模型”。這標志著美國對華算力基礎設施的“雙管齊下”:先斷GPU芯片,再封云服務,最終目標是讓中國AI陷入算力斷崖。

有讀者會問,DeepSeek降低了單模型算力需求,把英偉達股價都打下來了,怎么AI算力仍然短缺呢?

一方面是總量在增長。正如杰文斯悖論所說,技術進步降低了使用成本時,資源的總消耗量反而會增加。比如燃油效率提高了更省油,但隨著開車變得便宜,人們就會更多選擇開車,結果導致汽油的總消耗量增加。AI也是如此,模型門檻下降導致智能化應用多了,總算力需求也就更大了。

此外,還跟算力集群的利用率有關。一位銀行總工程師分享到,自家搭建的混合異構算力平臺,高峰期算力集群利用率能達到60%就算優秀了,花大價錢采購的算卡資源,很多都被浪費或閑置了,加上配套系統與運維成本,整個資金投入非常大。

既然自建算力集群買不到卡、成本高,從云端獲取算力的GPU云服務,就成了絕大多數企業用好、用活大模型的最佳選擇。

那么,GPU云服務作為AI算力的另一根支柱,中國準備好了嗎?

wKgZO2hVZtKADS_cAAGhTrzbsj4445.jpg

從云端獲取算力,理想很豐滿,但現實很骨感。GPU云服務還沒有被企業普遍接受。一位金融從業者就告訴我們,整個金融行業對GPU 云的認知還比較模糊,大家習慣了傳統的硬件采購模式,對云服務的接受度并不高。

為什么不高?這有兩個原因:

一是同質化嚴重。對比市面上的GPU云解決方案,會發現算力層、平臺層都高度同質化,采用的GPU芯片大同小異,平臺功能也差不多。以至于有人覺得GPU云服務商提供的軟件沒什么太大價值。結果就是GPU云市場,目前的競爭主要是卷低價。

二是創新不足。同質化并不意味著GPU云服務的痛點和挑戰都已經被解決了,實際上,同質化正是創新不足的表現。比如說,隨著大模型的參數規模擴大,一個千卡集群的百P算力,訓一個類Sora大模型就被占滿了,其他客戶需要算力,就得擴大集群規模,但AI芯片是很敏感的,從千卡到萬卡、超萬卡,故障率和運維難度也快速上升,怎么保證集群的穩定性,不能動不動就中斷重寫checkpoint?

花了大價錢買的GPU卡,結果有一半都在“摸魚”,怎么讓資源管理更精益,投資不浪費?

算卡供應鏈的不穩定,很多集群的架構不同、批次不同,無法合池訓練,存在資源墻怎么打破?

國產芯片的適配難,新模型的訓練時長比英偉達方案多出好幾倍,一直沿用的訓練推理一體化流程,在異構算力環境下漏洞百出,又該怎么辦?

不難看到,不是行業用戶不想用GPU云服務,而是市面上的解決方案都趨于同質化,過早開始卷價格。這種情況,與內卷化的定義異常契合。就像農業發展到一個確定形式之后,便停滯不前或無法向更高級轉化。

GPU云市場,還處于方興未艾的發展初期,各行各業都需要上云用算來進行AI訓推,有巨大的市場空間等待打開,不應過早跌入同質化、內卷化的泥潭。

但要打破內卷,就得拿出有壁壘的差異化解決方案,讓GPU云算力真正降本增效,從而帶動企業用戶的增長,以及整個GPU云的產業升級,就像一塊耕地,通過優化種植技術和精耕細作,進一步提高糧食畝產量,從而避免卷入“谷賤傷農”的價格戰內卷。

向技術要答案,一直是百度的特點。AI時代,百度智能云也憑借AI基礎設施和技術能力在云市場異軍突起,率先點亮了國產三萬卡GPU集群,并且實現了幾乎無損的混合訓練能力,集群利用率高達95%以上。憑借GPU云領域的突出能力,百度智能云成為超半數央企的選擇。

我們就以百度智能云為例,拆解一下GPU云逃離內卷的技術密碼。

wKgZPGhVZtSAT2xkAAGiqE4jVCE972.jpg

破解GPU云市場的內卷難題,必然要改變傳統集群規模拓展難、故障率高、資源利用率低等問題,那就要從基礎設施下功夫。

具體來說,百度智能云以技術為工具,對GPU集群進行了三重改造。讓GPU集群從小農經濟式的粗放經營,變成現代農場一樣的規?;?、集約化、精益化生產模式。

第一重改造:規模化,釋放超萬卡集群的澎湃算力。

“深度思考的大模型,業務用著不錯,下面要全集團推廣,你們盡快給算力擴容吧”,進入2025年,大模型上量成了IT人的一大挑戰。因為集群規模擴大一倍,故障率能飆升好幾倍,而實際運算效率卻出現了邊際遞減。如果集群是由不同城市的小規模集群互聯來構建的,那資源性能損耗就更嚴重了,數據時延也會讓在線推理服務的體驗大打折扣。如果AI思考一次就得十幾分鐘,員工用起來不耐煩,CTO怎么能不著急上火。

所以,百度智能云在構建規?;疓PU算力集群,面臨的首要技術挑戰,就是如何提高集群的穩定性,降低故障率,給性能調優。

解題思路,就是軟硬協同。有點類似于NVlink+ CUDA聯手,充分釋放N卡算力。那百度智能云靠的就是百舸。百度百舸是專為AI計算設計的高性能算力平臺,讓多個芯片、多個集群都用“普通話”,實現跨芯片“交流”。

硬件資源層,百舸設計了一套新的物理網絡架構,就像是城市里精心規劃的高效路線,新一代的HPN網絡規模上支持10萬卡,可同時容納十萬卡并行訓練,這就為計算資源的高效運行提供了有力保障,讓AI模型訓起來更快更穩定。

集群組件層,百舸自研的集合通信庫BCCL,可以實現GPU、昆侖芯等標準RDMA設備的互聯互通,使得通信效果達到最優。以前沒有統一溝通方式的時候,不同芯片互不打通,常常出現混亂,那協同工作效率自然就很低了。BCC制定了一套統一的通行規則,就可以讓芯片高效協作,加上自適應并行策略搜索,自動規劃出最佳方案,就能讓各種硬件充分發揮作用,提升多芯混合訓練任務的整體效能。

訓推加速層,百舸在AI加速套件AIAK-LLM中構建了Accelerator抽象層,屏蔽硬件差異,相當于為多個集群開辟高速路,快速通信,讓各種硬件都能充分發揮作用,高效協作,由此來構建極致規模、極致高密和極致互聯的GPU集群。

想象一下,當企業使用萬卡、超萬卡集群時,就像一個源源不斷供給養分的算力土壤,無論是金融機構處理海量交易數據,還是運行復雜的科學計算模型,或者是AI智能體實時響應客戶需求,都能游刃有余。

目前,百舸已經具備了成熟的10萬卡集群部署和管理能力,在橫跨幾十公里的集群上,百舸可以把單一訓練任務的性能折損控制在4%以內,也讓百度智能云成為GPU云廠商中納管超大規模集群的一個標桿。

第二重改造:精益化,PD分離讓AI應用隨時在線。

如今,企業對算力的需求發生了巨大轉變,從過去側重于模型訓練,逐漸轉向更注重實時性的推理和后訓練階段,有點像城市交通發展到了一定階段,新路(訓練)就建得少了,取而代之的是防止車流擁堵(推理優化)。

無論是B端用戶還是C端用戶,如果大模型思考十幾秒才給回應,用戶都會不耐煩直接退出,這就是“首token延遲”。為了盡可能滿足用戶“即時反饋”的嚴苛要求,就迫使模型廠商絞盡腦汁。不能忽略的是,算力基礎設施的優化,就像是把路鋪平、修上護欄,提升系統的處理能力和并發效率,從而讓在線服務像上高速一樣順暢運行,大大降低延遲率。

PD分離加速技術成為云廠商們競相展示的“王牌”,而百度智能云的PD分離式推理基礎設施,憑借全局優化能力脫穎而出。

物理網絡層面,百度智能云打造了HPN(High-Performance Network)高性能網絡集群,擁有自適應路由算法,像智能導航一樣,避免了大規模數據傳輸時(如Alltoall)的流量集中問題。全新的拓撲結構,如同重新規劃的城市路網,降低通信瓶頸,使帶寬有效性達到90%以上,讓交換機轉發延遲大大降低,集群傳輸又快又穩。

流量管理層面,百度智能云自研的高性能KV Cache傳輸庫,為高優先級隊列預留帶寬,相當于“特殊車輛優先通行通道”;分層傳輸設計支持多層KV Cache復用,相當于潮汐車道,根據數據流量靈活調整傳輸通道,提升通行效率,并且訓推任務互不干擾,貨車轎車“各走各道”,實現了DCN彈性RDMA滿帶寬傳輸,讓數據高效流通。

通信組件層面,百度智能通過Alltoall算子優化和動態冗余專家編排,優化計算流與通信流,確保集群中所有GPU通信時間一致,顯著提升吞吐量和性能。

以往企業使用大模型時,常因算力瓶頸、數據傳輸慢等問題受限,如同灌溉管道不暢影響了養分輸送。而百度智能云將網絡基礎設施、通信組件與上層業務深度融合,精心修建了一套高效的“算力管網”,可以讓數據、算力在不同業務場景間快速流動,能夠助力各行各業快速應用大模型,解決企業智能化轉型的當務之急。

第三重改造:多元化,一云多芯筑起算力可靠圍墻。

限卡又限云,已經是美國遏制中國AI發展的明牌。完全依賴英偉達風險太大了,國際形勢變化頻繁,供應鏈隨時可能被卡脖子,企業構建算力集群,不能押注在單一芯片,會考慮一云多芯。但采購國產芯片分散風險,異構芯片納管與并行計算效率低,不同類型芯片之間協同工作困難重重,算力資源浪費嚴重。

在國內算卡供應緊張的當下,讓多樣化芯片能夠協同訓練,意義不用多說。“一云多芯混訓”的能力,也讓百度智能云成為多數企業GPU云的選擇,比如長安汽車。

走進長安汽車智算中心,就像是一座算力工廠,依靠百舸平臺與長安汽車自研的 “星環平臺”,將算力資源發揮到極致。過去,服務器像低效運轉的老舊生產線,大量算力被閑置浪費。如今,百舸升級的智能調度系統,集群平均算力使用率飆升至90%,綜合資源利用率提升50%。

再比如某個頭部城商行。對銀行來說,業務可持續性至關重要,如果用戶訪問不了系統、辦不了業務是重大事故。既要自主可控的異構算力集群,又要穩定可靠的服務保障,對城商行的基礎設施提出了巨大挑戰。該城商行與百度智能云合作,通過異構平臺在算力感知的情況下,進行統一調度,讓不同芯片不再“打群架”,可以被混合管理、混合使用,從而兼顧了算力安全與業務穩定。

再到百度自建的國產昆侖芯 P800 大型單一集群里一看,資源利用率更是高達 98%,讓每一張GPU都物盡其用。

原來,單一服務器最多容納8張計算卡,而昆侖芯超節點技術可以將64張昆侖芯P800集中于單機柜,并且通信效率堪比單一機型。跨集群層面,百度百舸打通集群內的網絡墻,實現異構芯片互聯互通。通過accelerator 抽象層,屏蔽底層芯片差異,通過統一接口實現異構芯片的“即插即用”;采用自適應并行工具,找到最優的切分策略,根據芯片性能自動分配任務,減少性能損失。最終實現了近乎無損的“萬卡級多芯混訓”能力。

在萬卡規模上,百舸可將兩種芯片混合訓練,目前一共支持 18 種以上芯片類型,徹底解決了一云多芯混訓的復雜難題。

如今,經過規?;?、精益化、多元化的三重技術改造,GPU云已從零散低效的“算力作坊”,升級為高效精益的“現代農場”。百度智能云也憑借在GPU云服務領域的卓越表現,成為頭部廠商中增速最快的云服務廠商。IDC最新發布的《中國智算專業服務市場報告》中,百度智能云憑借AI解決方案實施服務,成為行業第一,領跑市場。

這說明,依靠技術創新,GPU云廠商可以逃離內卷,為行業和客戶創造差異化價值,讓GPU云服務在企業級市場煥發出充沛的價值。

wKgZO2hVZteAY6dMAAIDe-koyWk969.jpg

堅持“技術精耕”,百度智能云走了一條向技術要效益、向技術要價值的良性發展之路。不僅讓其在GPU云市場建立差異化競爭的壁壘,也為整個行業從粗放走向精益,從內卷走向高質量發展,提供了一個很好的參考樣本。

那我們不禁要問,為什么百度智能云能擺脫內卷的漩渦?是什么讓百度智能云有所不同?

一方面,是百度的技術基因,經過多年在AI領域的發展,百度及百度智能云已經打造了一系列高度適配AI業務、具有獨特創新能力的“尖刀型”技術,有力地解決GPU云集群建設中的痛點與難點。

另一方面,是百度智能云的發展路徑清晰,向技術要答案、不走內卷化之路的戰略選擇是明確的,這也決定了百度智能云必須在技術上下苦功、登天梯。面對需求側的企業客戶,以供給側的高質量GPU云服務,回應AI規模應用的復雜算力需求;面對云市場的競爭對手,以技術領導力帶動GPU云產業的高質量發展,避免裸金屬的紅海價格戰,以百舸為核心的能力與服務,開拓更大的價值空間。

GPU云的未來,不是卷“誰更便宜”,而是看“誰敢創新”。真正的技術領導者,將贏下這場AI算力革命的主導權。

wKgZPGhVZtiAVakdAAG_Wb9TvGE272.jpg

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4923

    瀏覽量

    130829
  • AI
    AI
    +關注

    關注

    88

    文章

    34591

    瀏覽量

    276289
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    硅谷GPU服務器是什么意思?使用指南詳解

    硅谷GPU服務器本質上是一種IaaS(基礎設施即服務)產品,它將物理服務器上的GPU資源通過虛擬技術分割成可彈性調配的服務。與普通CP
    的頭像 發表于 06-16 09:41 ?99次閱讀

    工業機器人行業內卷不斷加劇

    “美的內部有個口號——積極參與內卷,但是要勇敢跳出內卷?!泵赖募瘓F董事長兼總裁方洪波如是說。
    的頭像 發表于 06-04 10:56 ?406次閱讀

    GPU計算服務怎么樣

    在當今數字快速發展的時代,高性能計算需求日益增長。為滿足這些需求,GPU計算服務應運而生。那么,GPU計算服務怎么樣呢?接下來,AI部
    的頭像 發表于 02-05 15:01 ?423次閱讀

    GPU加速服務器怎么用的

    GPU加速服務器是將GPU硬件與計算服務相結合,通過服務提供商的平臺,用戶可以根據需求靈活租用帶有
    的頭像 發表于 12-26 11:58 ?403次閱讀

    大模型,在內卷中尋找出口

    逃離內卷的堰塞湖,所有模廠2025年都必須回答的問題是:如果大模型是水和電,那么用戶和開發者擰開開關,究竟能得到什么?
    的頭像 發表于 12-24 13:39 ?676次閱讀
    大模型,在<b class='flag-5'>內卷</b>中尋找出口

    GPU服務器租用費用貴嗎

    計算領域,GPU服務器因其強大的計算能力和圖形處理能力,被廣泛應用于多個領域。然而,對于許多企業和個人開發者來說,GPU服務器的租用
    的頭像 發表于 12-19 17:55 ?607次閱讀

    法蘭克福gpu服務器怎么用

    使用法蘭克福GPU服務器,可以按照以下步驟進行,法蘭克福gpu服務器怎么用,主機推薦小編為您整理發布法蘭克福gpu
    的頭像 發表于 12-18 10:28 ?391次閱讀

    GPU服務器租用多少錢

    GPU服務器的租用價格受多種因素影響,包括服務提供商、GPU型號和性能、實例規格、計費模式、促銷活動以及地域差異等。下面,AI部落小編為您整理GPU
    的頭像 發表于 12-09 10:50 ?681次閱讀

    如何構建及優化GPU網絡

    并從計算節點成本優化、集群網絡與拓撲的選擇等方面論述如何構建及優化GPU網絡。
    的頭像 發表于 11-06 16:03 ?933次閱讀
    如何構建及優化<b class='flag-5'>GPU</b><b class='flag-5'>云</b>網絡

    GPU市場趨勢與未來發展

    隨著科技的飛速發展,圖形處理單元(GPU)已經成為現代計算領域不可或缺的一部分。從游戲到專業圖形設計,再到人工智能和深度學習,GPU在各個領域都發揮著重要作用。 GPU市場現狀 1.
    的頭像 發表于 10-27 14:14 ?1273次閱讀

    國產MCU廠商,靠什么從內卷中脫穎而出?

    導語在當下內卷的大環境下,航順芯片是如何消除內卷,突破高端的?當前,全球半導體行業正經歷寒冬。受經濟環境疲軟、消費需求減弱、庫存調整等因素影響,半導體市場增速顯著放緩。在這種背景下,半導體廠商間
    的頭像 發表于 10-22 16:20 ?679次閱讀
    國產MCU廠商,靠什么從<b class='flag-5'>內卷</b>中脫穎而出?

    光伏行業內卷還有多久?

    市場從業者共同的疑問,光伏行業究竟是如何從人見人愛漸漸變成讓人談虎色變的? 01.誰該為內卷背鍋 光伏行業內卷的起因是多方面的,主要包括以下幾個方面: 供需嚴重錯配。 近年來,隨著政策的扶持和
    的頭像 發表于 10-11 11:28 ?509次閱讀

    新加坡電信與日立深化合作,共推數據中心與GPU技術

    新加坡電信與日立公司近日宣布,雙方已正式簽署諒解備忘錄,標志著雙方在數據中心及圖形處理器(GPU技術領域的合作邁入新階段。此次合作是在雙方6月初步合作基礎上的重大擴展,旨在共同探索并推動下一代數據中心解決方案及GPU
    的頭像 發表于 08-26 16:25 ?836次閱讀

    科技報到:從計算到AI大模型,巨頭生態革命邁出關鍵一步

    ”,導致整個行業陷入到了“低水平內卷”的境地。 如今,在大模型的促進下,千行萬業的智能轉型愈演愈烈,而算力作為靈活高效、性價比極高的算力資源獲取方式,正在成為各AI廠商新的算力底
    的頭像 發表于 08-26 15:00 ?439次閱讀
    科技<b class='flag-5'>云</b>報到:從<b class='flag-5'>云</b>計算到AI大模型,<b class='flag-5'>云</b>巨頭生態革命邁出關鍵一步

    GPU服務器架構解析及應用優勢

    GPU服務器作為一種高性能計算資源,近年來在人工智能、大數據分析、圖形渲染等領域得到了廣泛應用。它結合了計算的靈活性與GPU的強大計算能力,為企業和個人用戶提供了一種高效、便捷的計
    的頭像 發表于 08-14 09:43 ?822次閱讀