本文由半導體產業縱橫(ID:ICVIEWS)編譯自semiengineering
由于人工智能和分解而加速的性能改進正在推動計算前沿的重大變革。
由于人工智能的普及,超級計算機和高性能計算機變得越來越難以區分,這推動了商業和科學應用性能的巨大提升,也給兩者帶來了類似的挑戰。雖然超級計算和高性能計算 (HPC) 的目標一直很相似(超快處理速度),但它們所服務的市場卻截然不同。超級計算機(例如Top 500 榜單上的超級計算機)通常是科學和學術計算的展示,其性能通常以百億億次浮點運算來衡量。另一方面,HPC 的目標是更傳統的應用,使用高帶寬內存、快速處理器間通信和每秒大量浮點運算 (FLOPS)。但隨著對 AI 訓練和推理的關注,這些計算架構之間的相似性正在增加。“從根本上講,HPC 基于高帶寬內存訪問、快速且低延遲的處理器間通信以及大量單精度和雙精度 FLOPS,”Eliyan 首席架構師 Paul Hylander 解釋道。“在過去 20 年中,HPC 一直依靠基于服務器的計算,因為 HPC 的容量不足以證明其本身需要專用網絡、處理和內存開發。現在,隨著大量資金投入 AI 計算,人們重新重視更高帶寬的內存、更高帶寬的網絡和更好的散熱解決方案——以及更重要的,芯片解決方案,以便能夠擴展每個節點的計算量。”
如今,超級計算機可以分為兩大類。Arteris 產品管理總監 Ashley Stevens 表示:“有些超級計算機純粹基于處理器,包括配備加速器的超級計算機,通常是 GPU 等。有些問題的代碼可以追溯到幾年前。有些甚至可以追溯到 20 世紀 60 年代的科學領域,如核建模等,而且只能在通用計算機上運行。但還有一類問題比較新,可以重新編碼以在加速器系統上運行。因此,目前,性能最高的系統和最節能的系統將配備加速器,通常是 GPU。”具體來說,超級計算機之所以成為超級計算機,是因為它包含一個具有一致互連的節點,以及一個節點到節點互連,因此它們可以相互通信。“通常使用消息傳遞接口 (MPI),”史蒂文斯說。“因此,有辦法將問題拆分為多個節點,在兩個節點之間使用 MPI,或者有時使用遠程 DMA (rDMA),其中一臺計算機可以將數據 DMA 傳輸到另一臺計算機。這就是超級計算機的定義。它們具有系統間通信。”
混合策略
AI 對超級計算和 HPC 都產生了深遠的影響。過去五年來,異構環境中 CPU 和 GPU 的集成發生了重大變化。GPU 曾經主要用于游戲和比特幣挖礦,現在已成為加速 AI 計算任務的必備工具。GPU 如此受歡迎的原因在于其可擴展性。
Alphawave Semi ASIC IP 解決方案總監 Shivi Arora 表示:“一切都歸結于系統所包含的內核數量。這取決于您是面向 HPC 數據中心,還是關注 DPU/CPU 類型的市場。HPC 和超級計算機都朝著同一個方向發展。系統上可以安裝的 CPU 數量決定了您要支持的市場。”這種混合搭配的粒度為混合系統打開了大門,結合了經典計算、超級計算甚至量子計算,以滿足各種應用程序的性能、可靠性和安全性需求。是德科技流程和數據管理總經理兼業務部負責人 Simon Rance 表示:“總體而言,超級計算正在不斷發展。但量子計算也正在真正獲得發展勢頭。
在高數學類型的計算應用中(需要以非常快、激進的速度進行計算),我們看到越來越多的超級計算進入量子計算。這是量子計算現在真正強大的領域。當它處理來自各種來源的信息時,例如對于人工智能來說,試圖理解它試圖實時處理的內容,這就是我們看到的超級計算的自然演變。”然而,這加劇了一些常見的挑戰。IBM 高性能計算全球負責人 CT Rusert 表示:“當我們對比 5 年前和現在的超級計算機時,會發現它們取得了驚人的進步。我們的超級計算機能夠以前所未有的速度進行百億億次級的建模計算,而 5 年前我們還做不到這一點。這也帶來了挑戰。隨著我們成為一個更加注重能源和效率的社會,有了這些超級計算機,我們如何讓它們更節能呢?”
如今,這些挑戰已經跨越到兩個計算領域,人工智能對更多馬力提出了無盡的需求,以訓練多模型并解決龐大而復雜的計算問題。Cadence 戰略與新業務集團總監 Rob Knoth 表示:“人工智能工廠的概念,即消費和生產代幣,是一項計算密集型的研究。它正像野火一樣蔓延,推動整個生態系統發生變化,包括人們對超級計算機的看法、消費設備中可接受的計算量、汽車中的計算規模、人形機器人或無人機的計算規模。需要大量的計算,而每種計算對功率計算、熱范圍、電網連接的要求都不同。它能在無需充電的情況下走動或飛行多長時間?“超級計算機”這個詞因人工智能而改變,以及它如何改變人工智能,這真是令人著迷、美麗、可怕和鼓舞。超級計算機的規模使我們能夠制作這些新前沿模型,制作這些多模式模型,能夠開始談論物理人工智能,談論制造一個可維修的人形機器人所需的后果,以及它與汽車中的芯片或新數據中心中的芯片有何不同。”
關鍵推動因素
這種融合的核心是技術進步,例如高帶寬內存、不同芯片內部和之間的高帶寬通信以及可大規模擴展的基于小芯片的解決方案。所有這些都是滿足人工智能需求的關鍵,因為人工智能需要強大的計算能力來訓練多模態模型和執行推理任務。“在年度超級計算大會上,過去五到七年來一直在討論融合這個話題,” Rambus研究員、杰出發明家 Steven Woo 表示。“從最高層次來看,如果你看看 500 強榜單中的頂級超級計算機,你會發現它們不僅配備了傳統 CPU(例如英特爾或 AMD 的 CPU),還配備了大量來自英偉達或 AMD 的顯卡或 AI 引擎。如果你從高層次看這些專門的 AI 集群,你會發現它們并沒有什么不同。至于 AI 引擎與傳統 CPU 的比例,這將根據超級計算機或 AI 集群的構成而變化。
但如果從 30,000 英尺的高度來看,它們非常相似。然后你會開始意識到人們在超級計算領域運行的許多基準測試在這些 AI 超級集群上也能很好地運行,反之亦然,因此這引發了更多關于融合的討論。“是否需要有一類單獨的機器專門服務于超級計算市場?同時,人工智能是否變得如此基礎以至于這兩者正在融合在一起?”這種融合也帶來了挑戰。由于超級計算機消耗大量電力,因此能源效率和可持續性是主要問題。冷卻系統和先進的封裝技術對于管理熱封套和確保高效電力輸送必不可少。此外,數據移動的成本已經高于計算成本,因此需要采用新方法來最大限度地減少數據傳輸并提高整體系統效率。人工智能中的許多技術驅動因素都進入了超級計算機,反之亦然。“如果你看看超級計算機項目,你會發現它們大多是由國家推動的,”Woo 說。“美國的項目大約每 10 年運行一次。大約每五年左右,就會有一臺新的超級計算機問世。因此,五年的時間用于研究和思考原型和其他東西,五年的時間用于執行以構建機器。三個最大的超級計算機項目包括一個由美國贊助的項目,日本一直贊助一個非常大的項目,然后中國有自己的項目。美國上一次做的超級計算機項目被稱為 Exascale 項目。美國傳統上表示下一個標準將比之前的機器性能高 1,000 倍,它被稱為 Exascale。此外,美國政府與工業界合作,為學術界和工業界提供大量投資資金來開發新技術,然后這些技術進入超級計算機。它們也進入了商業產品。”
人工智能也有助于縮小超級計算機和 HPC 之間的性能差距。“NVIDIA 的 Grace Blackwell 去年問世,Rubin 將于今年問世,因此您可以看到這一年的性能進步令人驚嘆。兩者都是極其重要的技術驅動因素,但人工智能目前似乎處于更快的發展周期。機器之間的目標不一定像超級計算機程序那樣崇高,超級計算機程序的目標是性能提高 1,000 倍。在人工智能中,很難逐年做到這一點,但它們確實每一代都取得了巨大的進步。”
數據移動的挑戰
超級計算發展面臨的另一個壓力是數據移動。“十多年來,人們已經充分認識到數據移動是一個大問題。Exascale 計劃進行了大量研究,并且有一些很棒的演示,如果你只是遵循技術發展曲線,你會發現數據移動的成本比計算成本更高,”Woo 說。“當時有一些預測,以及經過深思熟慮和非常清晰的研究,它們得出結論,這將是一個問題。有幾種方法可以解決這個問題。要么把組件放得更近,要么想辦法制造現在人們所說的超級芯片。”
過去,問題在于光罩。“芯片尺寸只能這么大。但現在他們正在尋找方法來超越這個尺寸,將多個光罩大小的芯片拼接在一起,現在它們彼此緊挨著,所以如果你從五英尺外看,它看起來就像一個大芯片,它們連接在一個基板上,”Woo 解釋道。“所有這些都是由先進封裝和業界一直在研究的基于 HBM 等技術實現的。人工智能、高性能計算和超級計算之間存在著良性互動,其中物理原理沒有改變,問題很大,它們之間有細微的差別,但數據移動已被證明是最大的問題之一。你可以從邏輯上說,‘我們不要把數據移動太遠’,但這又帶來了行業必須解決的其他挑戰,比如熱問題。你如何處理熱問題?我們知道液體冷卻注定會在未來幾年成為主流。另一個挑戰是電力輸送。我如何將所有的功率、電流和電壓集中到這個相對較小的區域?我們以前不常這樣做。這并不是說我們做不到。這更像是尋找經濟的方法。你如何以一種非常易于制造的方式來做到這一點?”
所有這些也帶來了一些復雜的分區挑戰,因為距離會影響獲得結果的時間。“我們現在擁有如此強大的處理計算能力,但我們現在面臨著處理器之間的延遲問題,以及處理和顯示或實時返回結果的問題,”Keysight 的 Rance 說。“這是我們從超級計算發展而來的一部分。這不僅僅是一臺超級計算機在計算一些東西。它是信息共享,并將其帶回,然后在一毫秒內做出決定。”
準確性現在是個問題
而人工智能又帶來了另一個問題。與傳統計算不同,人工智能是概率性的。結果基于分布,而分布并不總是完全準確的。這在超級計算中是不可接受的。
“它需要不同的精度,”Arteris 的 Stevens 說。“在科學計算中,通常使用雙精度 64 位,偶爾使用 32 位。但這些 AI 東西可能只使用 8 位或 16 位。OpenAI 顯然是 AI,而不是傳統的超級計算機類型的應用程序,但運行多年前的代碼是有要求的。最近很多都是 AI 訓練。我過去參與的事情更多是嘗試以良好的性能運行 60 年代的舊 Fortran 代碼。今天,最高效的機器是帶有加速器的機器,因為一般來說,硬件越專業,效率就越高。它越通用,效率就越低。GPU 只適合某些東西。如果某些代碼是用 Fortran 編寫的,那么完成它并不容易。即使它們支持,雖然它們支持 IEEE 浮點,但它們不一定支持普通計算機支持的所有不同模式和極端情況。因此,它們適用于某些類型的問題,但不一定適用于所有類型的問題。我們現在看到的可能是越來越多的專業化,尤其是在人工智能領域。你已經看到了這一點,人們更專注于一個特定的問題,而不是更通用的計算。這使得它更有效率。”
不僅僅是技術除了技術層面,“超級計算機”一詞還具有重要的文化和啟發價值。它代表著技術的最前沿,是下一代工程師和科學家的燈塔。
“超級計算機不僅僅與工程有關,”Cadence 的 Knoth 說道。“在超級計算大會上,很多人會告訴你‘超級計算機’的確切科學定義,但我認為這并不重要。‘超級計算機’這個詞對于科學交流比對于科學更重要。它具有力量,因為它隨著時間而變化。房間里有 ENIAC 的照片,然后人們從口袋里掏出手機說,‘我這里有它。’所以,對我來說,超級計算機這個詞在文化和激勵背景下比在技術背景下更重要。超級計算機有助于激勵下一代工程師。它們是一個有助于使我們的工作民主化以幫助其他人了解工程領域正在發生的事情的術語。超級計算機揭示了最前沿的事物。我們要去哪里?我們為什么要去?我們正在解決哪些真正酷的問題?與許多擺在你面前的東西相比,他們是開拓者。”
能源效率和可持續性的作用
隨著超級計算和 HPC 系統的不斷發展,能源效率和可持續性已成為關鍵考慮因素。這些系統的巨大計算能力需要大量的能源。
為了解決這些問題,研究人員和工程師正在開發新技術和新方法,以提高超級計算和 HPC 系統的能源效率。這包括使用先進的冷卻系統來管理熱包絡并降低能耗。此外,他們還在努力優化這些系統的設計和架構,以最大限度地降低功耗并提高整體效率。
很多人認為 HPC 和超級計算面臨的最大挑戰是能耗和功耗。“舉個最壞的例子,微軟、OpenAI 和軟銀宣布的星際之門系統將需要 5 千兆瓦的電力,”Arteris 的史蒂文斯說。“這比英國或美國的任何核電站都要大,盡管世界上也有一些這么大的核電站。在其他國家,典型的核反應堆大約為 1 或 1.5 千兆瓦,因此星際之門將需要其中的三個。建造一座核電站至少需要 10 年。到那時他們還在建造同樣的東西嗎?我們這個行業的發展非常快,所以你可以想象為它建造一個發電站。你的目標可能不是你 10 年后最終做的事情。最大的挑戰之一是功耗。目前頂級超級計算機需要大約 30 兆瓦的電力,有些甚至更多。近 15 年前,我曾參與過一項關于富岳超級計算機的研究。當時,人們認為極限是 10 兆瓦。但現在我們的系統耗電量是 30 兆瓦的三倍,而且他們計劃建造一座千兆瓦級的發電廠。因此,能源效率將變得非常重要。計算性能的極限實際上是能耗,而這一點尚未得到真正考慮。”
以不同方式將各個部件組合在一起
超級計算機為大規模異構集成鋪平了道路。小芯片概念將這種方法帶到了封裝級別。
Alphawave Semi 的 chiplet 首席產品線經理 Sue Hung Fung 表示:“我們現在將所有這些不同的東西都放在一個封裝中。這只是一個被分解的大型單片芯片。然后我們將所有這些都放入一個封裝中,這是一個系統級封裝,我們正在為 AI/ML 構建這些東西,因為我們看到數據中心中大量數據的巨大驅動力,并為 AI 進行 LLM 訓練和推理。根據我們在計算中放入的內核類型,我們可以從中獲得什么樣的性能。這將特定于該應用程序用例,取決于內核的類型,取決于您使用多少個內核。”這是一臺超級計算機,還是一臺高性能計算機?還是介于兩者之間?答案并不總是顯而易見的,而且隨著給定時間內計算量的不斷增加,答案也變得越來越不明顯。
-
超級計算
+關注
關注
1文章
42瀏覽量
11393 -
人工智能
+關注
關注
1804文章
48684瀏覽量
246392 -
HPC
+關注
關注
0文章
332瀏覽量
24198
發布評論請先 登錄
環旭電子如何解決高效能運算系統挑戰
康佳特推出高性能COM-HPC模塊conga-HPC/cBLS
云計算HPC軟件關鍵技術
云計算和HPC的關系
中航光電即將亮相2024年全球超級計算大會
維諦技術(Vertiv):未來HPC,你想象不到的酷炫變革!

NVIDIA助力丹麥發布首臺AI超級計算機
云計算hpc的主要功能是什么
帶你了解什么是高性能計算(HPC)

評論