高性能計(jì)算(HPC)曾一度是大型數(shù)據(jù)中心和超級(jí)計(jì)算機(jī)的專屬,但如今依賴HPC的應(yīng)用不勝枚舉,在與我們生活息息相關(guān)的各種應(yīng)用領(lǐng)域都必不可少,如科學(xué)、醫(yī)療、安全、短視頻…...
為實(shí)現(xiàn)更好的HPC芯片設(shè)計(jì),開發(fā)者們應(yīng)該了解如何提升RAS,即可靠性 (Reliability)、可用性 (Availability)和可服務(wù)性 (Serviceability)。
RAS的含義并不難懂,但涉及到HPC的SoC時(shí),它表示什么呢?數(shù)據(jù)中心運(yùn)營(yíng)商長(zhǎng)期以來一直與客戶保持服務(wù)水平協(xié)議,以確保系統(tǒng)的正常運(yùn)行時(shí)間。RAS是對(duì)此類協(xié)議的補(bǔ)充,現(xiàn)已能通過新技術(shù)獲得支持,最終生成切實(shí)可行的見解。本文將進(jìn)一步介紹為什么芯片生命周期管理(SLM)、嵌入式監(jiān)控IP以及正確的設(shè)計(jì)和驗(yàn)證工具能夠幫助HPC設(shè)計(jì)實(shí)現(xiàn)高水平的RAS。
高性能計(jì)算三大關(guān)鍵組成
家用安全門鈴或樓宇監(jiān)控系統(tǒng)所拍攝的視頻片段、金融和商業(yè)運(yùn)作建模、科學(xué)和醫(yī)學(xué)研究、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)……隨著設(shè)備和系統(tǒng)收集的數(shù)據(jù)激增,再結(jié)合人工智能(AI)以及大量可用的計(jì)算資源,開發(fā)者們可以快速獲得切實(shí)可行的見解,這使得HPC比1940年代第一臺(tái)超級(jí)計(jì)算機(jī)的應(yīng)用更為廣泛。
如今,常規(guī)的HPC基礎(chǔ)設(shè)施包括計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)三大部分,且均有性能、延遲、功耗、可擴(kuò)展性、效率和安全性方面的要求。下面我們分別進(jìn)行說明:
- 計(jì)算部分包括CPU和GPU、加速器、片上網(wǎng)絡(luò)(NoC)和計(jì)算服務(wù)器,用于處理高性能數(shù)據(jù)。該部分的關(guān)鍵在于復(fù)雜的多核甚至Multi-Die系統(tǒng)架構(gòu)、快速訪問的大內(nèi)存、高帶寬I/O接口、電源/冷卻管理和安全性。片內(nèi)監(jiān)控和分析可支持RAS目標(biāo)。
- 網(wǎng)絡(luò)部分包括交換機(jī)和路由器、適配器、網(wǎng)橋、中繼器、網(wǎng)絡(luò)接口卡(如智能網(wǎng)卡)以及光電互連,可提供高性能連接,最好具有高吞吐量、低延遲、高能效、可配置性和可擴(kuò)展性、實(shí)時(shí)監(jiān)控和報(bào)告以及安全性。調(diào)試能力、前向糾錯(cuò)(FEC)和IP可以支持RAS要求。
- 存儲(chǔ)部分包括固態(tài)驅(qū)動(dòng)器(SSD)或硬盤驅(qū)動(dòng)器(HDD)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)和網(wǎng)絡(luò)附接存儲(chǔ)(NAS)。理想情況下,該部分應(yīng)可提供高帶寬存儲(chǔ),減少數(shù)據(jù)傳輸能耗和延遲,具有靈活性、可擴(kuò)展性、可靠性和安全性。內(nèi)置自測(cè)(BIST)、糾錯(cuò)碼(ECC)和冗余等功能可以實(shí)現(xiàn)高水平的RAS。
HPC集群可包含大量的服務(wù)器,而計(jì)算集群的總物理尺寸、能耗或熱量輸出可能會(huì)成為一大問題。此外,集群對(duì)服務(wù)器之間的專用通信也有要求。
在集群中服務(wù)器數(shù)量相當(dāng)多時(shí),微小的設(shè)計(jì)改進(jìn)也可以創(chuàng)造巨大的價(jià)值,因此,為HPC優(yōu)化的服務(wù)器設(shè)計(jì)正在嶄露頭角。有時(shí),此類設(shè)計(jì)針對(duì)搜索引擎公司等大型公共網(wǎng)絡(luò)運(yùn)營(yíng)商,也有益于HPC集群。但它們也可以提供只適合HPC用戶的功能。例如,如果系統(tǒng)被設(shè)計(jì)成以不同的方式提供集群互連,有望大幅減少布線。
通過片內(nèi)監(jiān)控和分析
提供可行見解
HPC能夠處理PB級(jí)甚至ZB級(jí)的數(shù)據(jù),并且能夠?qū)崟r(shí)(或接近實(shí)時(shí))運(yùn)行復(fù)雜的模型。而如果HPC系統(tǒng)出現(xiàn)故障,必然會(huì)導(dǎo)致資金損失和業(yè)務(wù)中斷。對(duì)于關(guān)鍵任務(wù)應(yīng)用來說,后果會(huì)更加嚴(yán)重。在先進(jìn)工藝節(jié)點(diǎn)上,有大型單片晶?;騇ulti-die等復(fù)雜架構(gòu),滿足RAS的要求則更具有挑戰(zhàn)性。
根據(jù)當(dāng)前應(yīng)用的重要性,系統(tǒng)可以建立備份,在發(fā)生故障時(shí)提供冗余備份。此外,還可以在系統(tǒng)和芯片層面以其它方式實(shí)現(xiàn)RAS目標(biāo)。SLM也發(fā)揮著巨大的作用,它可以提供智能、自動(dòng)化片內(nèi)監(jiān)控IP和方法,在系統(tǒng)生命周期的每個(gè)階段生成可行見解。
將監(jiān)視器和傳感器嵌入到芯片中是開發(fā)者們幾十年來一直在做的事。然而,該技術(shù)已經(jīng)可以提供準(zhǔn)確度更高、顆粒度更細(xì)的數(shù)據(jù)。這提高了設(shè)備的實(shí)時(shí)環(huán)境、結(jié)構(gòu)和功能狀況的可見性,可以實(shí)現(xiàn)監(jiān)控溫度熱點(diǎn)、工藝變化和電源電壓,準(zhǔn)確測(cè)量時(shí)序裕量等功能。
得益于嵌入式、基于云的分析以及統(tǒng)一的SLM解決方案,設(shè)計(jì)團(tuán)隊(duì)能夠在設(shè)計(jì)、研發(fā)和生產(chǎn)階段甚至現(xiàn)場(chǎng)操作時(shí)持續(xù)、實(shí)時(shí)掌握其設(shè)備的芯片健康狀況,從而更好地了解根本原因,并立即進(jìn)行調(diào)試和維修,降低成本和潛在的危害。SLM可以解決晶體管老化、延遲故障等問題,能夠帶來諸多益處。
舉例而言,如果衛(wèi)星出現(xiàn)故障,常見的辦法是在實(shí)驗(yàn)室維修電路板,再將其安裝在衛(wèi)星上,這會(huì)花費(fèi)數(shù)周時(shí)間,其間衛(wèi)星需要停用,以進(jìn)行故障診斷和維修。借助SLM技術(shù)在現(xiàn)場(chǎng)進(jìn)行故障檢修和修復(fù),團(tuán)隊(duì)可以在更少的中斷次數(shù)和更短的中斷時(shí)間內(nèi),保持系統(tǒng)的正常運(yùn)行。
數(shù)據(jù)中心也可以體現(xiàn)SLM是如何加快實(shí)現(xiàn)RAS要求的。
-
在芯片層面,在現(xiàn)場(chǎng)進(jìn)行遠(yuǎn)程調(diào)試的能力是團(tuán)隊(duì)成功打造超大規(guī)模數(shù)據(jù)中心的關(guān)鍵,SLM提供的遠(yuǎn)程遙測(cè)和監(jiān)控功能使之成為可能。
-
在系統(tǒng)層面,SLM精確的時(shí)鐘降頻對(duì)最大化數(shù)據(jù)吞吐量和CPU、GPU和AI引擎的利用率至關(guān)重要。
-
在數(shù)據(jù)中心層面,SLM工具可以有效監(jiān)控服務(wù)器性能、網(wǎng)絡(luò)擁塞和磁盤利用率,從而檢測(cè)和預(yù)測(cè)數(shù)據(jù)中斷,增加正常運(yùn)行時(shí)間。
-
在超大規(guī)模層面,團(tuán)隊(duì)可以利用SLM最大限度地減少片上熱量和供電壓力,以延長(zhǎng)可靠性。
-
對(duì)于Die-to-Die高速接口,SLM可監(jiān)控信號(hào)完整性,結(jié)合接口完整性的冗余,有助于確保小芯片設(shè)計(jì)的穩(wěn)健性。
總結(jié)
端到端的解決方案并非是各自獨(dú)立的點(diǎn)工具的集合,而能夠提供設(shè)計(jì)校準(zhǔn)分析、片內(nèi)監(jiān)控、系統(tǒng)性能優(yōu)化等多項(xiàng)功能,無縫實(shí)現(xiàn)RAS目標(biāo)。新思科技可提供出色的端到端流程,我們的芯片生命周期管理系列還配有廣泛的低延遲、經(jīng)驗(yàn)證的IP組合以及面向HPC應(yīng)用的設(shè)計(jì)和驗(yàn)證技術(shù)。
該解決方案配備物理感知芯片監(jiān)控器、云分析以及嵌入式分析和優(yōu)化技術(shù),還包括SoC傳感器IP和制程監(jiān)控器,用于設(shè)計(jì)、研發(fā)、生產(chǎn)階段和現(xiàn)場(chǎng)的優(yōu)化。在制造階段和現(xiàn)場(chǎng),監(jiān)控器可以收集有關(guān)芯片的實(shí)時(shí)數(shù)據(jù),輔以全面的測(cè)試和調(diào)試解決方案,可確保高水平的RAS。
隨著HPC應(yīng)用日益增多,SoC開發(fā)必須確保系統(tǒng)的高可靠性、可用性和可服務(wù)性。實(shí)現(xiàn)最佳水平的RAS,支持流媒體視頻、氣候變化建模等多項(xiàng)應(yīng)用,萬物數(shù)智化的世界才能保持高速運(yùn)行。
? ?
原文標(biāo)題:HPC黃金三角:可靠、可用、可服務(wù)
文章出處:【微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
新思科技
+關(guān)注
關(guān)注
5文章
863瀏覽量
51389
原文標(biāo)題:HPC黃金三角:可靠、可用、可服務(wù)
文章出處:【微信號(hào):Synopsys_CN,微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一篇文章教你使用運(yùn)放實(shí)現(xiàn)三角波、方波(詳細(xì)電路分析)+multisim仿真
馬達(dá)控制上必要的知識(shí) 三角函數(shù)
17座站,啟源芯動(dòng)力打造閩南金三角電動(dòng)重卡充換電網(wǎng)絡(luò)

用DAC8562輸出一個(gè)三角波測(cè)試,用示波器發(fā)現(xiàn)輸出的三角波有毛刺,怎么解決?
淺談電動(dòng)機(jī)三角接法是什么意思?舉例分析
三相電機(jī)三角形連接有哪些參數(shù)關(guān)系?
什么是三相電機(jī)三角形接法?定義是什么?
TI Arm內(nèi)核三角函數(shù)的優(yōu)化

評(píng)論