人工智能正在改變世界。然而,它需要大量的處理能力。需求每 100 天翻一番,這推動了人工智能基礎設施的投資熱潮。
數據中心是未來人工智能創新的基礎,其性能備受矚目。由于涉及的規模和復雜性,確保數據中心的穩健性和可靠性是一項艱巨的任務。從芯片到 GPU,再到服務器、網絡組件和軟件,基礎設施的每一個元素都必須在網絡層面進行單獨和綜合評估,以確保其無縫運行并消除任何薄弱環節。這給服務提供商帶來了沉重的負擔;然而,考慮到其中的利害關系,每一次效率的提高都意義重大。
在深入探討測試的必要性之前,我們先來看看人工智能是如何給數據中心帶來負擔的。當前AI技術的迅猛發展,源于其應用所依賴的復雜算法與模型體系;與特定任務軟件相比,它們消耗了更多的計算資源,因此也消耗了更多的能源。這是因為訓練支持生成式人工智能的大語言模型(LLMs)需要龐大的計算資源。而且,隨著人工智能解決方案變得越來越精細和復雜,對更多處理資源和數據存儲的需求并沒有緩解的跡象。
例如,Sam Altman 最近聲稱,由于公司 "缺少 GPU",OpenAI 最新模型的推廣速度放緩。更重要的是,高盛預測,到 2030 年,人工智能將推動數據中心電力增長 165%。這使得基礎設施成為業界關注的焦點,因為業界正在尋找各種方法來創建一個能夠支持未來迭代的技術環境。
前方道路上的坑洼
人工智能數據中心需要滿足和管理對計算資源前所未有的需求;這些集群必須高效地支持智能時代,并提供必要的計算、內存和網絡性能。測試在幫助克服挑戰方面具有舉足輕重的作用。要驗證、優化和提高人工智能數據中心的性能,需要能夠再現人工智能工作負載的復雜性和規模的系統級仿真器。隨著基礎設施的發展,系統級評估對于確保性能的穩健性和可靠性至關重要。
規模:數據中心運營的各個方面都必須增長,包括電力、冷卻、基礎設施、存儲和帶寬。實現這一目標的一個關鍵方面是解決分布式計算環境中的延遲問題。人工智能 集群(在 GPU 上分配任務)很容易因尾部延遲(系統最慢組件的滯后時間)而出現性能瓶頸。有效的擴展需要通過工作負載均衡來檢測并盡量減少這種情況。
然而,僅僅符合標準是不夠的,還必須對組件的性能進行評估,看它是如何處理網絡協議數據和前向糾錯的。例如,符合標準的收發器可能會因為沒有在協議/網絡層進行適當測試而失效。
測試可幫助服務商識別系統效率低下的問題,優化資源分配,并確保系統在所有節點上都能保持高性能。通過微調,數據中心可以在發展過程中提高效率,改善運營和資源利用率。
專用硬件:人工智能專用硬件對于提供更多計算資源至關重要。例如,Nvidia 的最新超級芯片將性能提高了 30 倍,同時能耗降低了 25 倍。不僅是芯片,AI要求所有組件全面提速——從互連架構、內存模塊、網絡推理卡到交換機,均需提升運行速度,同時能效要求也需同步提升。
然而,這些技術進步需要超越合規性測試的嚴格評估,以驗證峰值負載下的性能表現。系統級驗證對確保設備在實際運行環境中穩定可靠至關重要。壓力測試可確保AI設備的性能,而互連架構與網絡結構的優化(通過網絡驗證)能避免瓶頸;內存與存儲評估則保障快速數據訪問。通過整合全方位測試,服務提供商可實現高效擴展。
智能工作負載:要滿足計算需求,就必須采用分解式架構,以便動態分配資源。測試可以驗證智能管理,并應結合仿真技術,對網絡結構以及動態資源分配和自動縮放進行基準測試。
要確保網絡性能,就必須使用真實世界模型進行壓力測試、制定基準并找出尾部延遲,所有這些都能改善工作負載分配。這使服務商能夠實現性能目標,同時根據當前和預測的需求動態管理資源。在堆棧中添加先進的軟件對于最大限度地提高性能至關重要。
可靠性是關鍵
人工智能模型將繼續推動更多計算資源的指數級增長,這也推動了基礎設施現代化的軍備競賽。然而,要想讓高盛的預測成為現實,就必須在組件和系統層面進行嚴格評估,以發現效率低下的問題,確保數據中心的每個方面都穩健、可靠,并在必要的規模上進行優化。
作者:
Marie Hattar
是德科技高級副總裁兼首席市場官
是德科技全新KAI系列解決方案
旨在幫助客戶通過仿真真實世界的AI工作負載來驗證AI集群組件,從而擴展數據中心的AI處理能力,洞察系統的性能和效率。
AI數據中心構建器通過模擬真實工作負載驗證AI基礎設施的性能,通過評估新算法、組件或協議提高AI訓練的性能。
KAI數據中心構建器的工作負載模擬功能將大型語言模型(LLM)和其他人工智能(AI)模型訓練所需要的工作負載集成到AI基礎設施組件的設計和驗證中——包括網絡、主機和加速器。該解決方案實現了硬件設計、協議、架構和AI訓練算法之間的更緊密協同,提升系統性能。
KAI數據中心構建器的工作負載仿真解決方案再現了真實AI訓練任務的網絡通信模式,加速模型訓練優化所需的學習曲線,并更深入洞察性能下降的原因,這些是現實AI訓練任務過程中難以獲得的。
?產品頁面:KAI數據中心構建器
互連與網絡性能測試儀1600GE(INPT-1600GE)硬件流量仿真器可運行先進的軟件解決方案,可驗證200GE到1600GE的AI基礎設施、網絡組件和數據中心互連。
新的互連和網絡性能測試系統通過INPT-1600GE搭配ITS軟件,可以作為一個整體系統,智能地組織、存儲和使用數據,實現高速以太網網絡和AI數據中心中的互連自動化驗證。
?產品頁面:互連與網絡性能測試儀1600GE(INPT-1600GE)
全新采樣示波器可優化1.6T光學收發器測試效率,用于研發和制造下一代數據中心AI集群光互連。
DCA-M采樣示波器提供高達240 Gbps/通道的高速光信號分析,并且專為滿足1.6T收發器光學測試的嚴格要求而設計,具有高光學測量靈敏度和集成時鐘恢復功能,支持高達120 GBaud的數據速率,專門針對數據中心AI集群的下一代光互連的研發和制造需求。
?解決方案頁面:DCA-M解決方案概述
關于是德科技
是德科技(NYSE:KEYS)啟迪并賦能創新者,助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數公司,我們提供先進的設計、仿真和測試解決方案,旨在幫助工程師在整個產品生命周期中更快地完成開發和部署,同時控制好風險。我們的客戶遍及全球通信、工業自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手,加速創新,創造一個安全互聯的世界。
-
人工智能
+關注
關注
1804文章
48701瀏覽量
246458 -
是德科技
+關注
關注
21文章
982瀏覽量
83212 -
算力
+關注
關注
2文章
1142瀏覽量
15445
原文標題:算力突圍:破解人工智能的基礎設施困局
文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
維諦加速推進人工智能基礎設施演進,助力NVIDIA 800 VDC 電源架構發布

評論