華為全場景AI方案構建完成!
在今天深圳的發布會上,華為副董事長、輪值董事長徐直軍發布了最新商用AI芯片昇騰910(Ascend 910),以及首款國產的全場景AI計算框架——MindSpore計算框架。
至此,從去年發布“五大AI戰略”,短短一年時間,在各方壓力下的華為,已經迅速完成了全場景AI方案的全部部件構建。華為表示,接下來會專注于各部件的優化和升級。
在答記者問的環節徐直軍也提到,“516事件”(美國商務部以國家安全為由,將華為公司及其70家附屬公司列入出口管制「實體名單」)對華為戰略推薦和全場景產品研發沒有任何影響,盡管外部環境發生了很多變化,但是整個AI戰略和產品商用依然在穩步推進,也達到了預期結果。
而對于華為在計算框架生態的構建上,如何與谷歌和Facebook等已經長期耕耘的公司競爭的問題,徐直軍表示,華為的優勢在于有自己的移動終端產品,并且利用算力和計算框架結合,可以打造很多其他框架不能實現的功能。
其實在8月21日開幕的第31屆Hot Chips大會上,華為作為主角之一與AMD、Intel、ARM等巨頭同臺亮相時,就推出了AI芯片所用的“Da Vinci(達芬奇)”架構,以及昇騰310、昇騰910芯片和麒麟810芯片。
昇騰310、昇騰910芯片早在去年10月10日的華為全鏈接2018大會上就已首次亮相。
聚焦低功耗的昇騰310已經量產商用,那今天發布的昇騰910(Ascend 910)AI處理器和MindSpore計算框架又有什么新的亮點呢?
最新商用AI芯片昇騰910發布
先看昇騰910,據華為介紹,這款芯片在算力方面超過了預期,同等規格下,昇騰910達到并超過了C級規格,能在一個時鐘周期下完成4096次計算。
這個成績得益于基于達芬奇架構的AI核的計算核心,除了標量和矢量計算單元,AI核集成了3D立方體計算引擎,與CPU和GPU相比,有兩個數量級上的提升。
昇騰910更是集成了32個立方體計算引擎,能夠輸出256TFLOPS(每秒256萬億次浮點指令),所以昇騰910不僅是一個AI芯片,更是一個高度集成的片上系統,集成了CPU、DVBP及任務管理器。
同時昇騰910擁有自治能力,使其可以獨立完成整個AI訓練流程,最小化和Host的交互,從而發揮其強大的算力。
再看昇騰910的通信機制,昇騰910集成了HCCS、PCLe和RoCE三種高速接口,其中自研的HCCS可以提供單接口240Gbps的傳輸,從而實現芯片構建訓練系統的性能和靈活性的大幅提升。
華為也表示,將繼續面向未來投資,針對不同場景進行研發,提供更強大經濟的算力需求。昇騰310、昇騰910僅僅是一個開始,未來將推出昇騰920。
在價格上,華為也表示,這款芯片的售價還沒有確定,但是絕不會高于同性能芯片的售價。
發布首款國產全場景AI計算框架——MindSpore
接下來,華為還發布了一款全場景AI計算框架——MindSpore。
徐直軍表示,目前國內還沒有一款能夠對標Tensorflow的全場景AI計算框架,MindSpore希望能夠彌補國內的這一空白。
在性能上,MindSpore對開發者非常友好,能夠有效減少模型開發時間,降低開發門檻。相同場景需求下,減少模型代碼量20%,效率能夠整體提升50%以上。
具體來說,MindSpore自動微分采用Source 2 Source方式實現,在性能和可編程性上,明顯優于業界圖和運算符重載方式,同時能夠實現任意算子的微分表達和編譯優化,實現反向算子自動生成,從而極大方便模型開發。
隨著數據集和模型規模越來越大,模型并行成為必然,手工切分的模型并行存在門檻高、效率低、調優難的缺陷,而MindSpore只需要定義單機模型,即可實現多機混合并行運行,無需了解AI集群細節。
MindSpore同時支持靜態圖和動態圖,且可用一條語句實現無縫切換,從而讓調試也變得簡單而高效。
不僅有開發態的高效,運行態的友好同樣是MindSpore的追求目標。MindSpore大大提高了運算性能,并且除了支持華為的昇騰910外,也支持其他業界其他CPU、GPU。
MindSpore還提供了Ascend Native運行技術,助力昇騰算力最佳發揮。主從控制模式中,CPU和GPU交互,引入內存和數據開銷,在芯片上完成神經網絡模型所需要的所有控制和執行。
至于很多人問為什么有了TensorFlow還要開發MindSpore,徐直軍表示:目前沒有任何一個國產框架支持全場景。華為目前的業務包括云、端、邊,這些都需要全場景支持的AI框架。在不同的運行環境中,架構上支持可大可小,適應全部場景部署。
在隱私保護方面,MindSpore不帶有隱私信息的梯度模型,能夠在保證保護用戶隱私的前提下,跨場景協同。
總的來說,支持端、邊、云獨立和協同的統一訓練和推理的MindSpore計算框架,降低了AI的開發和使用門檻,釋放AI生產力,最大程度發揮AI芯片算力潛力,從而鼓勵開發人員共同打造AI生態,推動AI產業落地。
華為稱,MindSpore將在明年一季度開源,讓更多開發者參與將MindSpore打造好。
華為全場景AI構建方案完成
最后,讓我們再回顧一下華為去年發布的AI五大戰略:
投資基礎研究:在計算視覺、自然語言處理、決策推理等領域構筑數據高效(更少的數據需求)、能耗高效(更低的算力和能耗),安全可信、自動自治的機器學習基礎能力
打造全棧方案:打造面向云、邊緣和端等全場景的、獨立的以及協同的、全棧解決方案,提供充裕的、經濟的算力資源,簡單易用、高效率、全流程的AI平臺
投資開放生態和人才培養:面向全球,持續與學術界、產業界和行業伙伴廣泛合作,打造人工智能開放生態,培養人工智能人才
解決方案增強:把AI思維和技術引入現有產品和服務,實現更大價值、更強競爭力
內部效率提升:應用AI優化內部管理,對準海量作業場景,大幅度提升內部運營效率和質量
而今年芯片和計算架構的發布,也是華為對這一戰略的落地實踐。這也標志著華為全場景AI構建方案完成。
目前從世界范圍來看,在桌面CPU上,Intel和AMD處于絕對的統治地位;GPU方面,則是英偉達在領跑;至于手機處理器,則基本握在了ARM手中。盡管華為有備胎計劃,但是性能方面預計很難超過這些技術成熟、人才資本雄厚的企業。
深圳半導體協會秘書長常軍鋒曾指出,國外半導體巨頭通過國際標準、行業標準、專利保護建立了技術壁壘。
AI芯片,則成為了國產芯片彎道超車的絕佳機會。
AI芯片從發育到成熟落地,國內基本和國外大廠處于同一起跑線上,并且如今華為昇騰系列已經商業化,昇騰910作為是目前單芯片計算密度最大的芯片,計算力也超過了谷歌及英偉達競品。
-
華為
+關注
關注
216文章
35021瀏覽量
254959 -
AI
+關注
關注
87文章
34144瀏覽量
275234 -
AI芯片
+關注
關注
17文章
1968瀏覽量
35684
發布評論請先 登錄
大算力芯片的生態突圍與算力革命
DeepSeek推動AI算力需求:800G光模塊的關鍵作用

算智算中心的算力如何衡量?

億鑄科技熊大鵬探討AI大算力芯片的挑戰與解決策略
存算一體架構創新助力國產大算力AI芯片騰飛
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析
大模型時代的算力需求
安謀科技異構算力賦能AI計算,此芯科技首款AI PC芯片發布

評論