2011年ARM公司的年度技術會議TechCon發布了全新的ARMv8架構[1],同一年,在以色列,Nafea Bshara和Bilik Hrvoye從他們的前老板獲得2000萬美元的投資,創建了Annapurna Labs。四年之后的2015年,亞馬遜用35億美元收購了這家公司。Annapurna Labs從此成為亞馬遜的一個部門,這個部門相繼設計了3代基于ARMv8A的處理器——也就是Graviton系列。
話不多說,先上參數:
數據整理:健哥。
原始地址:https://fvot4kwt4n.feishu.cn/sheets/shtcn69s9nbcvYxX0bAnDgxiAUb
Graviton3們,等等,這里為什么用們?因為Graviton3這顆“芯片”(Chip)里面是由7顆芯片(die)組成的。雖然沒有召喚出神龍,Graviton3的引力吸引到了4個DDR控制器die(每個die又有兩個DDR5通道)和兩個PCIe5.0控制器die。
把多個die封裝到一個芯片中的技術稱為chiplet技術,這樣的好處是,如果將來亞馬遜有了更快的CPU,而周圍的DDR和PCIe控制器不變,則不需要重新設計制造DDR和PCIe控制器芯片,可以把新的CPU和已有的控制器封裝到一起。這樣,系統設計可以更加靈活。前面表格的華為鯤鵬920,也采用了這項技術。
芯片整體性能方面,官方的說法是每個核心的性能至少快了25%。下面的SPEC CPU 2017測試也可以說明這一點。圖中的藍色是Graviton2,綠色是Graviton3。SPEC CPU是業內通行的測試CPU性能的benchmark,包括整數測試,浮點測試等等,大多數的用例都取自最終用戶的應用,例如perl解釋器,視頻壓縮,3D渲染等等[3]。
來源:AWS re:invent 2021
Nginx的負載均衡測試里面,Graviton3比前一代好了一倍。
來源:AWS re:invent 2021
對于Nodejs,則提高了40%
來源:AWS re:invent 2021
視頻編碼提高了50%
來源:AWS re:invent 2021
機器學習提高了幾乎150%
來源:AWS re:invent 2021
由于亞馬遜做了軟硬件垂直優化,不光是芯片本身的迭代,整個服務器的結構也有改進,這次一個主板上(下圖右側)支持三顆Graviton3芯片。
來源:AWS re:invent 2021
最后,讓我們“打開”芯片,看看里面的CPU。Graviton3使用了ARM Neoverse V1。V1主要是支持ARMv8.4的特性(上次說的蘋果M2支持到ARMv8.5特性),包括MPAM,SVE,嵌套虛擬化等。
來源:https://community.arm.com/arm-community-blogs/b/architectures-and-processors-blog/posts/neoverse-v1-platform-a-new-performance-tier-for-arm
ARMv8.4的MPAM是內存的分區和監控功能,通過Partition ID對cache的容量和內存帶寬進行劃分。SVE是ARM在NEON的下一代SIMD(單指令多數據)指令集,關于SVE指令,2020年的超級計算機排行榜的第一名的Fugaku,就是基于ARM架構并使用了SVE指令集。[4]
ARMv8.4還支持了安全世界的虛擬化(Secure EL2),平時咱們用的Linux/Android都運行在Normal World(非安全世界,和安全世界相對)。安全世界運行需要更高安全性的能力,例如手機的指紋識別,版權視頻播放等等。安全世界的虛擬化就是允許安全世界運行多個安全操作系統。
來源:https://en.wikipedia.org/wiki/Bfloat16_floating-point_format
ARMv8.6的Bfloat16不僅支持了Bfloat16浮點類型,還支持了該類型的點積和矩陣運算,以及從單精度浮點(32位)轉換到Bfloat16的命令。Bfloat16格式是由Google Brain團隊開發的格式,如上圖,指數有8位,小數有7位。該格式很適合機器學習使用。
來源:AWS re:invent 2021
Graviton3的CPU性能如何呢?有大神做了詳細的測試[5],健哥選了其中的時延測試。下圖的Amphere Altra和Graviton2一樣都采用了Neoverse N1,下圖是二者和Graviton3的memory時延對比,可以看出Graviton3的L3 cache性能(下圖虛線,第三個臺階)明顯比另外兩個處理器好。但是由于DDR5本身的延遲比DDR4大一些,再加上DDR5在另外的die上面,所以Graviton3的主內存時延比另外兩個稍稍大一些(下圖第四個臺階,圖片的右上角)。
Graviton3在亞馬遜云服務上已經上線,一根豪華冰棍的錢(每小時15.5RMB)就能愉快的玩耍64個vCPU的虛擬機1小時,相比之下,1vCPU2G內存的虛擬機只需要每小時兩毛四。64個CPU意味著單個Graviton3的芯片完全被你所用,系統cache和內存帶寬都是你一個人的。
對ARM架構和調測調優感興趣的小伙伴可以進群咨詢了解健哥的課程
審核編輯 :李倩
-
處理器
+關注
關注
68文章
19805瀏覽量
233530 -
芯片
+關注
關注
459文章
52170瀏覽量
436129 -
ARM
+關注
關注
134文章
9306瀏覽量
375003
原文標題:從外到內揭開亞馬遜的自研ARM芯片:Graviton3
文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄

Arm發布基于Armv9架構的Cortex-A320處理器
在AWS Graviton4處理器上運行大語言模型的性能評估

海光處理器有哪些型號
強悍的AWS Graviton4處理器及其背后的Arm Neoverse
Arm與AWS合作深化,AWS Graviton4展現顯著進展
Cortex-A55 處理器到底什么來頭?創龍教儀一文帶您了解
全志T536系列處理器特性概述 集成RISC-V E907協處理器

AM3517/AM3505高性能ARM Cortex-A8微處理器數據表

AMD的銳龍9000系列處理器將延后至8月發布

評論