超級計算機是一項重要的投資,但對于研究人員和科學家來說,它們是極其寶貴的工具。為了有效和安全地共享這些數據中心的計算能力, NVIDIA 引入了云本地超級計算架構。它結合了裸機性能、多租戶和超級計算的性能隔離。
Magnum IO是數據中心的 I / O 子系統,它引入了新的增強功能,以加速支持多租戶數據中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云本機超級計算架構。
它們由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網絡適配器。
這種進化環境的挑戰是什么?
基于 GPU 的高性能計算已經通過機器學習和模擬改變了科學并增強了實驗。運行這些深度學習框架和模擬工具的 GPU 會消耗數 PB 的數據,并在整個數據中心造成擁塞和瓶頸。使事情進一步復雜化的是,這些應用程序的多個實例在共享超級計算基礎設施中同時運行會對每個應用程序的性能產生不利影響,從而導致無法預測的運行時間。
Magnum IO for Cloud 本機超級計算體系結構具有新的和改進的功能,以減輕在多租戶環境中運行對最終用戶性能的負面影響。它提供確定性的性能級別,就好像它們的應用程序是網絡上唯一運行的應用程序一樣。
第三代 NVIDIA SHARP (可擴展分層聚合和縮減協議)
夏普技術通過消除端點之間多次發送數據的需要,將集合操作從主機 CPU 卸載到交換機網絡,從而提高了 MPI 操作的性能。這種方法減少了到達聚合節點時通過網絡的數據量,并顯著減少了 MPI 操作時間。
在網絡中實現集體通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計算,而不是使用它們來處理通信。
圖 1 NVIDIA SHARP 聚合架構框圖。
最近發布的 NVIDIA Quantum-2 InfiniBand 交換機為通過網絡的大型數據聚合提供了幾乎無限的可擴展性。由于支持無限的小消息縮減和每個交換機的多個大消息縮減流,跨共享系統運行應用程序的多個租戶現在可以充分利用 SHARP 的優勢。
Watch the In-Network Computing with NVIDIA SHARP Video.
性能隔離
多租戶超級計算涉及許多在共享基礎設施上運行的用戶應用程序,可能會重復使用物理服務器、存儲、網絡以及這些應用程序生成的 I / O 流量模式。
NVIDIA Quantum InfiniBand 在檢測到網絡擁塞時管理網絡擁塞,并在源位置實施控制以減少網絡擁塞。但使用多租戶,用戶應用程序可能不知道對相鄰應用程序流量的任意干擾,因此需要隔離以提供預期的性能級別。
借助最新的 NVIDIA Quantum-2 InfiniBand 平臺和 Magnum IO ,創新的主動監控和擁塞管理提供了所需的流量隔離。這幾乎消除了性能抖動,并確保了預期的預測性能,就像應用程序在專用系統上運行一樣。
圖 2 性能隔離的好處。
專為安全、多租戶、裸機性能而打造
NVIDIA Cloud-Native Supercomputing體系結構使用 Magnum IO 在多租戶環境中實現最高性能、安全性和編排。
圖 3 使用 DPU 遷移到云本機超級計算體系結構。
此外,實現這種架構轉換的另一個核心元素是數據處理單元( DPU ),也稱為 BlueField 。作為一個完全集成的片上數據中心平臺, BlueField 卸載和管理數據中心基礎設施,而不是主機處理器,實現超級計算機的安全和協調。它還能夠提供額外的通信框架卸載,產生 100% 的通信計算重疊,同時實現 MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當結合 NVIDIA Quantum-2 的最新進展時,該體系結構在安全的多節點體系結構中展示了裸機性能的性能隔離。
Magnum IO 消除了 I / O 瓶頸,并公開了硬件級加速引擎、網絡計算和擁塞控制方面的最新技術,這些技術是支持當今具有裸機性能的多租戶數據中心所必需的。
關于作者
Scot Schultz 是 HPC 技術專家,專注于人工智能和機器學習系統。 Scot 在分布式計算、操作系統、人工智能框架、高速互連和處理器技術方面擁有廣泛的知識。在他的整個職業生涯中,擁有超過 25 年的高性能計算系統經驗,他的職責包括各種工程和領導角色,包括戰略 HPC 技術生態系統支持。 Scot 在眾多行業標準組織的成長和發展中發揮了重要作用。
Harry Petty 是一位經驗豐富的數據中心營銷人員和技術專家,曾在大型科技公司擔任領導職務,為混合云、存儲解決方案、網絡處理器和服務器產品線推廣 SDN 產品。他曾與許多客戶合作,在多個數據中心部署應用程序。當 Harry 不討論 HPC 數據中心的 IO 子系統時,他喜歡在北加利福尼亞州附近的 Sierra 山麓和湖泊中進行戶外活動。
審核編輯:郭婷
-
數據中心
+關注
關注
16文章
5146瀏覽量
73219 -
人工智能
+關注
關注
1804文章
48737瀏覽量
246664 -
機器學習
+關注
關注
66文章
8492瀏覽量
134122
發布評論請先 登錄
物聯網云IO模塊是什么
聯發科與NVIDIA合作 為NVIDIA 個人AI超級計算機設計NVIDIA GB10超級芯片
云計算HPC軟件關鍵技術
云計算和HPC的關系
λ-IO:存儲計算下的IO棧設計

解析一體式IO與分布式IO:從架構到應用

評論