近日AWS re:Invent2022隆重召開,作為一年一度的云科技盛會,AWS高級副總裁Pete DeSantis介紹了 AWS 的一些重大工作成果與改進,主要包含硬件、網(wǎng)絡(luò)、科學(xué)和軟件四部分。本文將重點介紹Nitro V5、Graviton3E以及SRD網(wǎng)絡(luò)傳輸協(xié)議方面的創(chuàng)新。
硬件:Nitro V5、Graviton3E
會上,AWS 宣布推出第五代Nitro網(wǎng)絡(luò)安全芯片和硬件管理系統(tǒng),以及全新基于ARM架構(gòu)、自研的高性能計算服務(wù)器CPU芯片Graviton 3E。
Nitro V5
Nitro V5由 Annapurna Labs 團隊打造,是AWS DPU的最新迭代。DeSantis 指出,與上代相比,Nitro V5采用的晶體管數(shù)量翻倍,內(nèi)存速度提高了50%,PCIe帶寬也實現(xiàn)了翻倍。這意味著Nitro V5每瓦性能提高40%,PPS(每包設(shè)備轉(zhuǎn)發(fā))性能提高60%,延遲降低30%,此外,能耗比也將提升大約30%。
Graviton 3E
AWS 專為高性能工作負載設(shè)計推出了新的 Graviton3E CPU。相比具有550億個晶體管的Graviton 3,Graviton 3E在性能上有較大提升,包括并行負載執(zhí)行效率(HPL)最高提升35%,用于金融相關(guān)運算執(zhí)行效率提升30%。
DeSantis 表示,Graviton 3E在某些高性能計算能力上是現(xiàn)有Graviton芯片的兩倍,當(dāng)與其他AWS技術(shù)結(jié)合時新芯片的性能提高20%。在虛擬化應(yīng)用部分,Graviton 3E芯片可組成最多64組虛擬CPU,并具有128GB存儲容量,最快將在2023年初開始布署應(yīng)用。
EC2 實例
DeSantis 還展示了三個新的 EC2 實例——C7gn、R7iz 和 Hpc7g。
1)C7gn由 AWS Graviton3E和 Nitro v5提供支持,專為要求苛刻的網(wǎng)絡(luò)密集型工作負載而設(shè)計,例如虛擬網(wǎng)絡(luò)設(shè)備和數(shù)據(jù)分析。C7gn實例支持高達 200 Gbps 的網(wǎng)絡(luò)帶寬和高達 50% 的數(shù)據(jù)包處理性能,它將提供多種尺寸,最多 64 個 vCPU 和 128 GiB 內(nèi)存。
2)Hpc7g同樣由 Graviton3E 提供支持,這個新實例將提供多種大小,最多 64 個 vCPU 和 128 GiB 內(nèi)存。它旨在為緊密耦合的計算密集型 HPC 和分布式計算工作負載的公司提供最佳性價比。
3)R7iz由第 4 代英特爾至強可擴展處理器(代號 Sapphire Rapids)提供支持,將提供多種大小,最多 128 個 vCPU 和 1 TiB 內(nèi)存。
客戶變友商?
2021年,AWS業(yè)務(wù)凈銷售額為622.02億美元,同比增長37%,是全球最大的云計算提供商,也是數(shù)據(jù)中心芯片的最大買家之一。但Graviton 3E的推出,使AWS與其合作伙伴英特爾、英偉達、AMD“芯片三巨頭”展開競爭。
服務(wù)器芯片市場歷來由英特爾主導(dǎo),但近年來AMD 占據(jù)了很大一部分業(yè)務(wù),英偉達的 GPU 也因運行AI系統(tǒng)和其他復(fù)雜任務(wù)而受到許多企業(yè)的青睞。AWS 相信自己也有機會從中獲利,據(jù)悉,AWS在2015年收購了芯片制造商Annapurna Labs,隨后開始自研芯片設(shè)計工作。
DeSantis 認為,與購買英特爾、英偉達或AMD芯片相比,AWS自研芯片將為客戶提供更具性價比的算力支持。不過他也強調(diào)AWS與上述伙伴仍維持著密切的合作關(guān)系,并計劃繼續(xù)提供基于這些芯片廠商的高性能計算芯片相關(guān)服務(wù)。
網(wǎng)絡(luò):SRD協(xié)議
網(wǎng)絡(luò)部分的重點是SRD網(wǎng)絡(luò)協(xié)議,SRD全稱Scalable Reliable Datagram,意思是可擴展的可靠數(shù)據(jù)報,SRD 是 AWS 為提高 HPC 性能而開發(fā)的一種高吞吐、低延遲的網(wǎng)絡(luò)傳輸協(xié)議,并于 2019 年公布。DeSantis聲稱 SRD 協(xié)議優(yōu)于 TCP。
1970 年代起出現(xiàn)的TCP/IP 雖然是目前以太網(wǎng)架構(gòu)的主要傳輸手段,但它的問題在于不適合對延遲敏感的應(yīng)用,TCP傳輸是一對一的連接,就算解決了時延的問題,也難在故障時重新快速連線。
具體來看,數(shù)據(jù)中心中,理想情況下TCP的往返延遲為25us左右,如果發(fā)生擁塞或鏈路故障,TCP需要的等待時長會上升至50ms。帶來這些延遲的主要原因是TCP丟包之后的重傳機制。
TCP 是通用協(xié)議,沒有針對HPC場景進行優(yōu)化,早在2020 年,AWS 已經(jīng)提出需要移除TCP。
SRD 協(xié)議是專門為AWS網(wǎng)絡(luò)構(gòu)建和優(yōu)化的,可以將丟包重傳的延時從毫秒級降低到微秒級。
SRD提供跨多個路徑的負載平衡以及從數(shù)據(jù)包丟失或鏈路故障中快速恢復(fù)。利用商用以太網(wǎng)交換機上的標準ECMP功能并解決其局限性。SRD采用專門的擁塞控制算法,通過將排隊保持在最低限度,有助于進一步降低丟包的機會并最大限度地減少重傳時間。
SRD提供可靠但亂序的交付,并將次序恢復(fù)的任務(wù)留給上層。強制執(zhí)行嚴格的有序交付通常只會造成隊頭阻塞、增加延遲并減少帶寬。SRD不保留數(shù)據(jù)包順序,而是通過盡可能多的網(wǎng)絡(luò)路徑發(fā)送數(shù)據(jù)包,同時避免路徑過載。通過在接收處以極快的速度進行重新排序,最終在充分利用網(wǎng)絡(luò)吞吐能力的基礎(chǔ)上,極大降低傳輸延遲。
DeSantis表示,EFA、EBS和ENA都用上了自家的SRD。
EFA是用于大規(guī)模運行HPC/ML應(yīng)用的高性能網(wǎng)絡(luò)接口,直接與Nitro 控制器配合使用,實現(xiàn)更低延遲和更高吞吐量,支持內(nèi)核旁路和RDMA。這避免了使用傳統(tǒng)網(wǎng)絡(luò)協(xié)議的上下文切換和內(nèi)存復(fù)制帶來的低延遲和性能下降。對性能敏感的應(yīng)用更適合使用EFA。
EBS(Elastic Block Store)
EBS為EC2實例提供塊級存儲,它被各種任務(wù)關(guān)鍵型應(yīng)用(如IO密集型數(shù)據(jù)庫使用),對于塊存儲,性能、離群值、尾部延遲都很重要。EBS對網(wǎng)絡(luò)延遲最敏感的地方之一是寫入,它能將極少數(shù)(P99.999)會出現(xiàn)的35ms延遲降低五倍,并且能將整體的延遲水平降到一個全新的水平。
EBS和SRD的結(jié)合還將吞吐量提高了4倍。
DeSantis表示即將推出的新的EBS io2 數(shù)據(jù)平臺,將與SRD 一起運行。
ENA(Elastic Network Adapter)
ENA是用于EC2實例的標準網(wǎng)絡(luò)驅(qū)動程序。ENA利用Nitro控制器從主EC2服務(wù)器卸載工作,允許客戶講更多資源用于他們的工作負載。ENA Express可以引入任何網(wǎng)絡(luò)接口,可以與任何網(wǎng)絡(luò)協(xié)議(如TCP/UDP)一起工作,只需在ENA上啟用ENA Express接口,就可以獲得更低延遲和更高吞吐量。
?
科學(xué):機器學(xué)習(xí)
科學(xué)方面的創(chuàng)新主要討論的是機器學(xué)習(xí),DeSantis談到的兩大性能改進是:
1)使用STOCHASTIC ROUNDING,使用戶能夠同時獲得16位計算精度的訓(xùn)練速度和32位的計算精度。
2)Ring of Rings 算法使計算處理器能夠在模型每次迭代后更有效地交換信息,從而使處理器之間的同步速度提高 75%。
軟件:Lambda SnapStart
軟件運行方面的創(chuàng)新主要談的是Lambda SnapStart。Lambda 是一項計算服務(wù),是 Serverless 技術(shù)的先驅(qū)者,使用者無需預(yù)置或管理服務(wù)器即可運行代碼。
Lambda 最大的優(yōu)勢就是模型操作簡單、價格經(jīng)濟實惠,但仍面臨著“冷啟動”這一挑戰(zhàn),Lambda SnapStart 通過使用Firecracker及快照功能將性能提高90%,減少了Lambda運行軟件應(yīng)用時的冷啟動時間。此外,Lambda SnapStart可以對延遲敏感的 Java 應(yīng)用程序提供高達 10 倍更快啟動時間的改進性能,只需最少或無需更改代碼。
值得一提的是,DeSantis稱 Amazon Lambda SnapStart 版本自發(fā)布起免費向公眾開放,Amazon Lambda SnapStart 項目地址:
https://github.com/aws/aws-lambda-snapstart-java-rules
編輯:黃飛
?
評論