建一座殿堂之前,首先要立起足夠支撐其屋頂重量的支柱。
段玉裁在《說文解字注》里說,“柱之言主,屋之主也”。也就是說,支柱是一座屋子最主要,最基礎的東西。支柱不牢,再美好的雕梁畫棟也會歸為泡影。
在今天,我們正在以拳拳之心建設一座名為AI大模型的穹頂。預訓練大模型通用性好、泛化性強的優勢,讓各個行業都看到了走向智能化的曙光,點燃了社會經濟的熾熱追尋。根據相關數據,幾天之前在上海舉辦的世界人工智能大會上,就有超過30款中國AI大模型集中亮相。通觀整個中國,更是來到了“百模大戰”的盛況。根據科技部新一代人工智能發展研究中心等機構發布的《中國人工智能大模型地圖研究報告》顯示,中國研發的大模型數量排名全球第二,并且在一些垂直領域實現了全球領先。
仰望大模型的穹頂固然重要。但此時更該去思考,這座穹頂的支柱是否堅實可靠,能撐起多大的重量?在傳輸、算力兩大AI基礎設施之外,存力對大模型發展的支撐意義,正在引發更多關注。

(華為數據存儲產品線總裁 周躍峰)
7月14日,大模型時代華為AI存儲新品發布會舉辦。期間,華為詳盡展示了大模型帶給存儲底座的挑戰,以及華為在技術、產品、生態上選擇的應對之道。
華為數據存儲產品線總裁周躍峰在“數據新范式,釋放AI新動能”主題分享中表示:“大模型時代,數據決定AI智能的高度。作為數據的載體,數據存儲成為AI大模型的關鍵基礎設施。華為數據存儲未來將持續創新,面向AI大模型時代提供多樣化的方案與產品,攜手伙伴共同推進AI賦能千行百業。”
當世界醉心于建設大模型的穹頂,存儲產業需要先樹起能夠支撐智能世界的支柱。面對大模型時代,華為存儲選擇了自己的擔當。
假想:缺乏存力支撐的大模型時代會怎樣?
我們都知道,發展AI大模型還有很多層面的問題需要解決。比如可供訓練的中文語料、數據集不足;大模型過于依賴人工調優,落地成本過大;對高端算力有依賴,算力資源稀缺等。
但在這些問題之外,我們必須正視這樣一個現實:假設大模型缺乏適配的存儲產品與存儲資源,那么結果可能也不容樂觀。在華為看來,在AI發展的不同領域與階段,面臨著數據存儲方面的4大挑戰。
首先是數據歸集太慢。大模型有著龐大的數據規模,且需要用到大量的非結構化數據進行訓練。這就導致AI訓練需要從跨地域的多個數據源,進行大量的原始數據拷貝,如果這個過程過于復雜,效率過低,就會導致AI開發進度被擱置。尤其會嚴重限制那些本地數據規模龐大的行業落地大模型。
其次是數據預處理周期長。AI訓練首先需要進行大量的數據預處理。尤其大模型數據規模龐大,數據預處理的工作量也隨之遞增。一個典型的百TB級大模型數據集,數據預處理工作經常要超過10天,占AI數據挖掘全流程的30%。如果沒有針對性的存力幫助,隨著模型的不斷增大,數據預處理的工作量、工作時長以及消耗算力將持續增大,導致大模型的訓練愈發艱難。

然后是數據集加載慢,訓練易中斷。大模型的訓練參數、訓練數據集規模特別龐大,這就導致多種狀況都會影響到數據集的加載,從而導致模型訓練的中斷甚至重來。尤其在訓練復雜的模型結構時,數據加載不順暢,易出錯會導致巨大的工作開銷增加。
比如根據相關數據,OpenAI 在 GPT-4 的訓練使用了約 25000 個 A100 GPU的算力,進行了90到100天的訓練。其模型 flops 利用率僅有32%到36%。大量故障導致重新啟動檢查點,就是其算力利用率低的主要原因。如果不能解決這個問題,大模型不斷發展就意味著無盡的算力資源與人力資源將消耗在數據故障當中,讓大模型的應用成本難以承受。
此外還有一個挑戰,是模型的推理實時性和精準度低。大模型在推理部署時,需要將最新的數據隨時聯接進來,而目前主流方法訓練時間長且成本高。如果不能克服這個挑戰,將讓大模型的推理部署效果大打折扣,從而影響智能化的最終落地效果。
由此可見,大模型時代各家不僅需要比算法,比算力,比數據,更需要比存力。具體而言,就是比拼存儲資源,比拼存儲體系應對大模型需求的準確性,比拼在數據側提升大模型訓練推理效果的軟硬件適配。如果缺少存力這根支柱,就像缺少AI算力、缺少數據、缺少落地場景一樣,大模型時代是根本是不成立的。
建立:針對AI大模型的存儲支柱
好在,針對這樣的現實,存儲產業已經行動了起來。比如面對大模型時代的AI存儲,就可以提供4大能力:針對數據歸集難題,華為可以通過數據編織能力,實現跨系統、跨地域、跨云的全局統一數據視圖和調度;針對數據預處理周期長的問題,華為打造了近存計算能力,讓數據在存儲完成數據準備,更好釋放AI算力資源;針對訓練易中斷等問題,華為通過預處理加速、AI訓練/推理加速等技術,實現訓練過程0等待 。
把這些長期建設的技術能力與針對性解題思路聚合在一起,最終形成能夠應對大模型存力挑戰,適配大模型的開發與部署需求的產品與解決方案——這就是華為存儲為大模型穹頂,建立存儲支柱的方式。
這些技術能力,最終凝結成了本次發布的兩款產品:面向AI全流程,提供領先性能的OceanStor A310深度學習數據湖存儲,以及能夠大幅降低AI使用門檻的FusionCube A3000訓/推超融合一體機。
面向數據量不斷擴張,模型日新月異的AI大模型,高性能、有針對性的數據存儲底座是發展的必要條件,OceanStor A310深度學習數據湖存儲就為此而生。其具備超高可擴展性,混合負載高性能,多協議無損融合互通,能夠實現數據歸集、預處理、訓練、推理的AI全流程海量數據管理。

面對AI計算與HPC合流的產業趨勢,OceanStor A310可以提供面向AI、HPC、大數據場景的同源數據分析能力,最大支持4096節點擴展,單框5U支持業界最高的400GB/s帶寬以及1200萬IOPS的最高性能,支持多協議無損融合互通,實現數據的0拷貝,全流程效率提升60%。OceanStor A310存儲通過近存計算,可以實現訓練數據的預處理,預處理效率提升30%。利用全局文件系統GFS,接入分散在各地域的原始數據,簡化數據歸集流程,從而將華為應對AI大模型的存儲能力集中釋放,一次性接觸AI開發全流程的數據難題與存力挑戰。
未來,AI將融入千行百業,重塑千行百業。這也就導致能夠適配更多行業場景、應用場景的超融合一體機將成為產業智能化進程中的剛需。

為此,華為推出了FusionCube A3000訓/推超融合一體機,面向行業大模型訓練/推理場景,針對百億級模型應用,集成了OceanStor A300高性能存儲節點、訓/推節點、交換設備、AI平臺軟件與管理運維軟件,為大模型伙伴提供拎包入住式的部署體驗,實現一站式交付,做到開箱即用,2小時內即可完成部署,可以說是打通了大模型落地的最后一公里。
訓/推節點與存儲節點均可獨立水平擴展,以匹配不同規模的模型需求。同時FusionCube A3000通過高性能容器實現多個模型訓練推理任務共享GPU,將資源利用率從40%提升到70%以上。
在這兩款產品的加持下,無論是探索智能化天花板的大模型開發訓練,還是實現智能化落地的場景化部署,AI大模型都將得到有力的存力支持。
存力支柱,就這樣樹立在AI大模型時代的穹頂下。
未來:存儲支柱向上生長,AI穹頂指向天宇
面向縱深性、長期化的AI大模型發展,存儲產業如何提供持續的支持與幫助?對于這個問題,華為在發布會當中也給出了自己的答案。在華為看來,大模型爆發并不應該僅僅成為存儲產業的短期機遇。長期來看,AI與存儲應該彼此促進,互為助力,形成長期積極發展的良性局面。
為此,華為首先將積極投入未來,持續在AI數據存儲方面進行研究和準備。發布會現場,周躍峰與華為天才少年張霽進行了對話,討論了華為在數據歸集、數據訓練、數據推理等方面如何提升存儲能力,幫助AI開發與落地做到更好。
比如說,面向跨地域歸集的數據安全流轉難題,華為正在研究被稱為“數據方艙”的技術。這項技術使得數據及其訪問權限、憑證信息實現全封裝,從而確保在流轉過程中數據處于安全、可靠的環境當中。
這類對于未來AI技術發展趨勢的預判與研發投入,將成為華為在AI存儲領域持續打開產業空間的鑰匙,也將成為推動存儲產業迎接AI時代機遇的新動力。
另一方面,想要適配AI大模型帶來的產業發展空間,存儲產業必須依靠合作,建設生態,從而才能夠向用戶提供綜合性、行業性的解決方案。
在生態化發展的驅動下,用戶開發大模型、應用大模型過程中多樣性、復雜性的軟硬件需求將得到持續滿足,從而確保模型開發、落地暢通無阻。
整體而言,華為存儲既為火爆的AI大模型,提供了即刻能夠解決問題、實現資源滿足的存儲解決方案,也著眼未來發展,在存儲技術、生態上進行不斷的革新、生長。AI大模型與存儲底座,就像是穹頂與支柱的關系,支柱越來越高,穹頂的高度也自然提升,智能化的極限才能不斷被打破。
為了能夠建好AI大模型的穹頂,華為存儲帶來了三方面的價值,真正實現了以存儲為支柱的產業擔當。
首先,面對數據歸集、數據訓練中斷等一系列真實存在AI訓練部署難題,華為存儲以更好的技術帶來了解題思路,提供了應對策略,從而在存儲與AI兩個技術領域間架起了橋梁,達成了供需之間的溝通。
其次,華為面向大模型訓練與落地,都提供了資源更加充沛、利用更加合理的存儲底座。這將有助于優化大模型的綜合成本,提升各行業利用大模型,適配大模型的可能性。
再次,華為在存儲領域推動的開放合作方案,可以推動存儲生態與AI生態相互促進。讓更多軟硬件企業加入到AI大模型的機遇中,分享智能時代紅利,從而全面促進存儲產業的發展與進化。
向下扎到根,向上捅破天的AI存儲支柱,在這些價值的凝聚下逐漸成型。
用好這根支柱,可以支撐AI大模型發展,提升大模型從訓練到推理的全流程效率。
發展這根支柱,可以助力千行百業的智能化落地,打造出智能時代新的基礎設施。
站在這根支柱上,我們能夠看到第四次工業革命的晨光破曉。
-
華為
+關注
關注
216文章
35034瀏覽量
255088 -
存儲
+關注
關注
13文章
4505瀏覽量
87075 -
AI
+關注
關注
87文章
34269瀏覽量
275427 -
算力
+關注
關注
2文章
1146瀏覽量
15453 -
大模型
+關注
關注
2文章
3030瀏覽量
3830 -
存力
+關注
關注
0文章
25瀏覽量
171
發布評論請先 登錄
得一微定義“AI存力芯片”,讓每比特數據創造更多智能
8芯網線斷了一根可以用嗎
得一微:AI存力芯片,重構計算范式

存力接棒算力,慧榮科技以主控技術突破AI存儲極限

評論