電子發燒友網報道(文/黃晶晶)生成式人工智能(GenAI)經歷2023年的興起,在2024年迎來新的高度,近期文生視頻又火爆全網。GenAI將滲透到教育、就業、制造、醫療和交通等各個領域,創新應用不斷涌現。這其中除了GPU對AI至關重要之外,不斷優化的CPU性能同樣必不可少。在AI時代,以Arm為代表的半導體設計及軟件平臺公司為這些創新奠定基石。
Arm高級副總裁兼基礎設施事業部總經理Mohamed Awad分析,計算正越來越專用化,通用CPU不再能滿足需求。以基礎設施領域來看,計算轉型持續朝向更復雜的倉庫級計算。與此同時,許多頭部企業正在打造定制芯片,并希望對支持云計算關鍵工作負載的計算進行優化。
近日,Arm 宣布推出兩款全新 Arm Neoverse 計算子系統 (CSS) —— Neoverse CSS N3 和 Neoverse CSS V3,專注于釋放芯粒等新技術的潛力,并更大限度地優化實際工作負載的 TCO,這對于包括AI、數據庫、網絡等在內的整個生態系統至關重要。
CSS N3 和 CSS V3均基于全新的第三代 Neoverse IP 構建,N 系列聚焦能效,而V系列平臺針對性能優先,這也是V系列首次引入CSS。
Neoverse CSS N3和CSS V3性能顯著提升
據Arm 基礎設施事業部產品解決方案副總裁 Dermot O’Driscoll介紹,CSS N3在進行了調優后,提供滿足基礎設施性能要求的高效計算。CSS N3與CSS N2 相比,其每核心的每瓦性能提升20%。CSS N3 的首個實例可提供 32 核,熱設計功耗 (TDP) 低至 40W。其可擴展性非常強,可覆蓋電信、網絡和 DPU 等一系列應用。同時還考慮到橫向擴展云配置。CSS N3 基于新的 Neoverse N3 IP 平臺打造,為 N 系列產品引入了 Armv9.2 功能,能為每個核心提供 2MB 的專用 L2 緩存,并支持最新的 PCIe 和 CXL I/O 標準以及 UCIe 芯粒標準。
CSS V3 基于新的Neoverse V3 核心打造,是 Arm 目前單線程性能最高的 Neoverse 核心。與CSS N2 產品相比,CSS V3的單芯片性能提高了50%。CSS V3 在單芯片上最多可擴展至 128 核,并支持最新的高速內存和 I/O 標準。V3 為 Arm 機密計算架構 (CCA) 提供硬件支持。V3也可提供業界領先的專用 L2 緩存大小,顯著改善性能表現。
以下(見下圖)是基于 Neoverse N 系列和 V 系列打造的芯片在一些關鍵工作負載下的性能數據。Dermot O’Driscoll表示,這種代際產品之間的性能提升只有通過 Arm 才能實現,因為 Arm 能讓客戶掌握創新的步伐,而不受制于技術供應商。
與AI的耦合,面向AI基礎設施
新的CPU核心帶來全方位的良好提升,包括從視頻處理到 SQL 數據庫的性能均有所躍進。N 系列在壓縮方面取得性能優勢,可降低云服務運營商的成本,并最終降低云服務客戶的成本。V 系列顯著提高了協議緩沖區的性能,這是在數據中心內傳輸數據的一項關鍵功能。在這里,Dermot O’Driscoll重點解析了通過分析關鍵工作負載核心的任務算法,對微架構進行調整從而獲得的性能效果。
AI數據分析工作負載就是最好的例證。XGBoost 是一種強大且廣泛使用的機器學習 (ML) 算法,可以幫助人們理解數據并做出更明智的決策。例如為人們推薦下一個媒體內容,預測高峰時段的打車費用,以及等提供相關的機票優惠等等。
在這個用例中(見下圖),通過改進分支預測,更好地管理最后一級緩存和相關內存帶寬,以及大幅增加 L2 緩存。其結果令人驚嘆,N3 的性能提升高達 196%。
目前行業重點放在訓練大語言模型(LLM)上,但更多業務落地在AI推理。分析師認為,已部署的 AI 服務器中有高達 80% 專用于推理。也就是說找到合適的模型和模型配置,并加以訓練,然后將其部署到更具成本效益的計算基礎設施上。
Dermot O’Driscoll表示,這一轉變意味著吞吐量是考量因素之一,而在基于 Arm 架構的芯片上,Token 生成吞吐量表現相當優異。其他考量因素還包括靈活性、易于部署,可支持各種軟件框架,具備低成本和高能效等優勢。CPU 推理將是生成式AI計算應用的關鍵組成。下圖為Arm在CPU推理的 LLM 優化方面的初步數據。可以看到,這些工作負載已從 ML 專用的 Neoverse 功能(如 Bfloat16、MatMul、SVE 和 SVE2),以及微架構優化中受益。
當然,除了CPU的AI推理,AI加速器也備受關注。據最新統計,打造 AI 加速器的公司已接近 80 家。以NVIDIA來看,NVIDIA不僅利用其領先的 Hopper GPU,同時也使用了基于 Neoverse V2 平臺的緊耦合計算芯粒Grace。Dermot O’Driscoll談到,NVIDIA Grace Hopper 的一大關鍵創新在于內存容量和共享內存模式。這種緊耦合的 CPU 加上加速器配置,對大參數 LLM 非常有益,對檢索-增強-生成 (RAG) 等新興方法也很有幫助。Neoverse CSS 是專為幫助客戶在基于Arm領先的 CPU 平臺上,快速打造通用計算芯粒而推出的產品。它能提供客戶所需的所有接口,以便選擇耦合自身的加速器。
通用芯粒互連技術 (UCIe) 是一項行業標準,旨在解決芯粒物理層兼容性的問題。Arm和生態系統合作伙伴正積極參與這個項目。協議層存在多種標準,包括 PCIe、CXL 和 AMBA。Arm 深入參與到 AMBA CHI,引入芯片到芯片 (C2C) 的擴展功能,但系統架構層面仍面臨難題。例如,怎樣在設計時對芯粒進行邏輯分區,如何設置直接內存訪問 (DMA) 和中斷、電源和安全等管理功能,要建立可互操作的生態系統,就需要在生態系統層面一致地解決這些問題。
Arm近期發布了芯粒系統架構 (Chiplet System Architecture, CSA) ,正與 20 多家合作伙伴一同對此進行審核,齊心協力推動整個 Arm 生態系統釋放芯粒技術的潛力。
Arm全面設計生態項目不斷壯大
去年十月,Arm將廣泛的半導體產業匯聚一起,借由 Arm 全面設計,圍繞 Arm 計算子系統開展創新設計。僅僅推出短短四個月內,Arm 全面設計已經有 20 多家成員加入。其中包括新的 EDA 和配套 IP 提供商,以及來自包括韓國、中國臺灣、中國大陸和印度等戰略市場的芯片設計合作伙伴。Arm基礎設施事業部營銷副總裁 Eddie Ramirez表示,Arm正在與三家主要代工廠合作,以確保 CSS 產品能在其先進工藝節點上進行優化。定制芯片離不開可靠供應鏈的支持,唯有 Arm 可提供多樣的技術和選擇。
去年,Socionext 成為首家宣布計劃在臺積公司領先的2納米工藝上開發基于CSS芯粒的合作伙伴。這款配置 32 核的芯粒可與其他芯粒結合使用,提供可擴展且經濟高效的計算解決方案。該設計將基于新推出的Neoverse CSS V3 來打造。
智原科技也在構建基于芯粒的服務器芯片,該芯片將搭載 64 顆 N 系列核心,并基于英特爾代工服務的 18A 工藝節點進行生產制造。
此外,ADTechnology 將提供高性價比的16 核 CSS N 系列邊緣服務器平臺,他們將與三星代工廠合作,為邊緣計算釋放更強大的算力。
Arm 全面設計合作伙伴正在打造多款基于 CSS 的 SoC,以賦能新一代 AI 服務器,并借助各大代工廠的前沿工藝完成這項任務。
Arm軟件生態系統優勢凸顯
Arm軟件生態系統也在迅速擴展,幫助開發者簡化部署流程,提高采用 Arm技術的硬件的生產效率。Eddie Ramirez介紹說,去年,80%的云原生計算基金會 (CNCF) 畢業項目原生支持 Arm 架構。CNCF是開源云原生軟件領域的中堅力量,也是當今許多現代軟件和云服務的基礎。Arm 與云服務提供商一同提供可免費訪問的基于 Neoverse 平臺的云實例,以簡化軟件開發者的資源訪問路徑。例如,OCI 最近宣布計劃向 CNFC 捐贈 300 萬美元的計算積分,旨在助力實現所有項目支持 Arm 架構。
再來看Arm Neoverse 軟件生態系統,它正在不斷擴展以滿足基礎設施軟件應用領域的所有開發者的需求。從主流編程語言、軟件工具、所有主要 Linux 發行版,到支持網絡、存儲和大數據以及 AI 應用的項目,這包括軟件棧各個級別的知名開源企業。此外還包括大量獨立軟件供應商 (ISV),他們可提供各類應用和 SaaS 產品。這一生態系統正成為云服務提供商部署其云服務的上佳之選,以便能夠充分利用 Arm 提供的 TCO 優勢。
此外,主要的企業軟件 ISV 承諾將 Arm 平臺用于其核心產品組合。Oracle 發布的 Oracle Database 19c 支持基于 Arm 架構的服務器,可用于云端和本地部署。這種向傳統企業軟件的轉變,以及部分大型 ISV 的投資,是 Arm 生態系統不斷擴展的又一例證。
Eddie Ramirez表示,超過 15 年在 Neoverse 軟件生態系統的投資,讓Arm實現了強大的軟件支持水平,助力超過五萬家公司在支持 Arm 的基礎設施上部署關鍵工作負載。這也是 Arm 及其合作伙伴生態系統降低部署成本,并提高正在部署的各類定制芯片可用性的另一種方式。
小結:
過去幾年,Arm 能夠在基礎設施領域取得不小的進展,Mohamed Awad認為主要是卓越性能、靈活性以及生態系統三方面助力。
如今,AI 正成為包括網絡、安全和存儲等諸多領域不可或缺的一部分,它可應用到包括小型終端到交換機、路由器和基站等各種設備在內的整個基礎設施中。Arm 在軟件、 IP 和芯片生態系統中提供出色性能和靈活性,從而降低配置的總成本并加速產品上市。Arm 將持續發揮關鍵作用,協助科技先行者解決由AI轉型帶來的不斷增長的數據和計算需求。
-
AI
+關注
關注
87文章
34197瀏覽量
275350
發布評論請先 登錄
Arm 公司面向 PC 市場的 ?Arm Niva? 深度解讀
Arm 公司面向移動端市場的 ?Arm Lumex? 深度解讀
Arm 公司面向汽車市場的 ?Arm Zena? 深度解讀
解讀基于Arm Neoverse V2平臺的Google Axion處理器
Arm Neoverse CMN S3 推動Compute Express Link (CXL) 存儲創新

評論