CoreWeave 為高性能、安全、多租戶環境開發了云規模加速計算基礎設施
AI 變革正在重塑數據中心格局,亟需能夠提供更靈活、高性價比的計算和數據能力的平臺。為了滿足這些需求,作為推動 AI 變革的超大規模云服務提供商,CoreWeave 致力于開發一種用于加速計算工作負載的云平臺,該云平臺能夠在多租戶環境中提供高性能、嚴格的租戶隔離和安全性。
CoreWeave 云平臺使用 NVIDIA BlueField DPU,簡化了大規模先進基礎設施的工程、組裝、運行和監測,為 AI 工作負載提供頂尖的性能與效率。
挑戰
為了滿足 AI 的需求,數據中心需要具有靈活、高性能、高性價比的計算與數據能力的平臺。CoreWeave 致力于開發一個云規模的加速計算基礎設施,以便在多租戶環境中提供高性能、嚴格的租戶隔離和安全性。
CoreWeave 的基礎設施需要支持外部網絡訪問和內部網絡計算,還必須能夠管理數十萬顆 NVIDIA GPU 之間的網絡流量,并在高負載下保持性能。此外,該基礎設施還需要卸載并加速網絡和存儲任務,以釋放 CPU 資源,從而使處理器能夠專注于處理計算密集型工作負載,并加快存儲訪問速度,從而實現更高效的AI計算。CoreWeave 的另一個主要目標是開發一個能夠滿足 AI 應用日益增長需求的基礎設施,并確保其可擴展性,以便在未來更好的處理日益復雜的計算密集型大規模工作負載。CoreWeave 借助NVIDIA BlueField 網絡平臺和 NVIDIA DOCA 軟件框架的強大功能來滿足這些需求。
解決方案
CoreWeave 借助 NVIDIA BlueField-3 DPU 來提高其 AI 云基礎設施的效率,提供可擴展性并優化其性能。他們使用 DPU 來卸載并加速網絡、管理、存儲和安全服務,并釋放 CPU 資源。
CoreWeave 使用 NVIDIA DOCA 軟件框架在應用程序域和基礎設施服務域進行開發。
CoreWeave 使用 BlueField DPU 和 DOCA 開發了一個具有強大、高性價比且快速擴展的平臺,使任何規模的客戶都能夠創建、訓練和微調為其特定業務挑戰而定制的模型。
CoreWeave 將其管理和存儲基礎設施與運行 NVIDIA Cumulus Linux 的NVIDIA Spectrum 以太網交換機連接起來,以實現 API 為中心的網絡運營。
CoreWeave 使用 NVIDIA Quantum-2 InfiniBand 網絡平臺作為其 GPU 到 GPU 的 AI 計算網絡,不僅實現了低延遲、高帶寬、高效數據傳輸和性能隔離,還確保為要求苛刻的 AI 工作負載提供極佳的性能和可擴展性。
借助 BlueField DPU 和 DOCA增強網絡功能
CoreWeave 使用NVIDIA DOCA 軟件框架中的組件—特別是基于 OVS-DOCA 和DOCA FLOW 的 DOCA基 于主機的網絡(DOCA HBN)服務,加速了云網絡服務和 API。DOCA HBN 利用與 NVIDIA Cumulus Linux 網絡操作系統相同的核心組件,如 FRRouting 和 NVIDIA User Experience(NVUE),并將它們打包到在 BlueField DPU 上運行的容器中。此設置使 CoreWeave 能夠以可擴展、分布式的方式管理復雜的網絡功能,支持多租戶環境中的租戶隔離、負載均衡和流量引導。這確保每個云租戶只能訪問自己的數據和計算任務,并確保這些任務在不影響性能的情況下得到高效管理,從而實現可擴展且安全的網絡。通過卸載和加速這些任務,DOCA HBN 減輕了 CPU 負載,使其能夠處理計算密集型進程,并提高整體系統性能。
借助 DOCA HBN,CoreWeave 將網絡隔離功能遷移至BlueField DPU,并采用 EVPN VXLAN 為每個租戶創建了獨立的虛擬網絡,通過 VXLAN 網絡標識符處理路由流量,以確保實現完全隔離。由于嚴格的網絡隔離對于安全性與合規性在多租戶環境中至關重要。CoreWeave 還通過在 BlueField 上部署互聯網網關實現了去中心化架構,并使用 OVS-DOCA 進行流量引導和網絡地址轉換(NAT)。BlueField 還通過托管網關和 BGP 路由,在網絡流量管理方面發揮至關重要的作用,從而實現高效的網絡管理。
通過 BlueField 集成實現系統級優化
為了構建下一代 AI 存儲服務,即 CoreWeave AI 對象存儲,CoreWeave 與 VAST Data 合作,充分利用雙方與 NVIDIA 技術的深度集成。VAST 將 BlueField DPU 作為控制數據節點(DNode),通過 NVIDIA DOCA API 將數據服務直接卸載到 BlueField DPU,從而消除了對傳統 x86 CPU 的需求。
該架構重新定義了數據層的控制和策略執行方式,更加接近數據流向且效率更高。CoreWeave 最初使用的 NVIDIA DPU 是 BlueField-1,現已發展至 BlueField-3,并持續致力于將 BlueField 部署到計算相鄰節點(CNode)。這實現了基礎設施級的多租戶,其中每個 CoreWeave AI 對象存儲租戶都能在一個隔離且安全的網絡域中運行。實時遙測和細粒度策略執行直接在 DPU 層完成。該平臺對多協議訪問的支持進一步簡化了復雜性,并實現了跨不同計算和數據環境的無縫互操作性。
這種靈活性使 CoreWeave 能夠在不影響性能或犧牲租戶隔離性的情況下擴展 AI 對象存儲。將控制服務卸載到 BlueField DPU 徹底重塑了基礎設施的經濟學,因其優化了性能、安全性和可擴展性。性能基準測試顯示了該架構演進的優點:與基于 x86 架構、配備 DRAM 和傳統 NVIDIA ConnectX 網卡的 DNode 相比,基于 BlueField 的 DNode 在連續吞吐量方面提高了 60%,從 40GB/s 增加至 64GB/s,同時功耗降低了 58%,從 1200 W 下降至 500 W。這相當于每瓦性能提高了 3.84 倍。該設計為現代 AI 基礎設施提供了藍圖,展示了基礎設施層的軟硬件協同設計如何為 CoreWeave 等云服務提供商帶來效率、可擴展性和性能的巨大提升。
新系統還通過采用四塊 BlueField DPU 和八個 100GbE 端口,將線路帶寬提高至原來的兩倍。雖然部分功耗節省歸因于采用了更大、更高效的固態硬盤(SSD),但其整體效率提升主要歸功于 DPU 的集成。此次測試展現了 BlueField DPU 變革數據中心架構的潛力,為像 CoreWeave 這樣尋求提升 AI 基礎設施性能和能效的公司提供了夢寐以求的解決方案。
x86 CPU 與 BlueField DPU 的對比
上圖通過對比,顯示出運行在 x86 CPU 和運行在 NVIDIA BlueField DPU 之間的差異。
借助 NVIDIA Spectrum 以太網交換機和 Cumulus Linux 實現云規模效率
除了利用 BlueField DPU 來卸載、加速和隔離工作負載外,CoreWeave 還通過運行 NVIDIA Cumulus Linux 的 NVIDIA Spectrum 以太網交換機來連接存儲和管理基礎設施。Cumulus Linux 旨在通過軟件驅動的自動化來簡化網絡管理。通過將純三層 EVPN VXLAN 與 NVUE 對象模型的 API 相結合,CoreWeave 即使在大規模情況下也能輕松管理網絡的自動化、運營和更新。
利用 NVIDIA Quantum-2 InfiniBand實現極高的 AI 性能
CoreWeave 利用 BlueField DPU 和 Spectrum 以太網交換機構建存儲與管理網絡,同時使用 NVIDIA Quantum-2 InfiniBand 網絡平臺構建 GPU 到 GPU 的 AI 計算網絡。InfiniBand 是 AI 網絡的黃金標準,可為高負載和大規模 AI 訓練工作負載提供極高的有效帶寬和超低的延遲。InfiniBand 的功能,如動態路由和基于遙測的擁塞控制,對于多租戶 AI 云環境至關重要,能夠實現性能隔離,并確保所有 CoreWeave 用戶都能獲得所需的全部網絡帶寬。CoreWeave 還使用 Quantum InfiniBand 的 NVIDIA 可擴展分層聚合和歸約協議(SHARP)進行 AI 集合操作網絡計算,卸載 GPU 的通信操作,簡化網絡流量模式,并加快任務完成時間。
總結
CoreWeave 使用 NVIDIA DOCA 部署 NVIDIA BlueField DPU,從而變革了其 AI 云基礎設施,并在技術、運營和業務層面帶來了顯著的價值。通過集成 BlueField DPU,CoreWeave 構建出一個高效、可擴展、安全的平臺,滿足了現代 AI 工作負載和云端運營的嚴苛要求。憑借將 VAST Data 的存儲解決方案與NVIDIA BlueField DPU相結合這一創新方法,CoreWeave 已躋身領先的 AI 云服務提供商之列,并通過對創新技術的不懈追求來滿足未來的客戶需求,同時應對日益復雜的 AI 工作負載。
戰略性的部署 NVIDIA BlueField DPU 和 NVIDIA DOCA 軟件框架等先進技術,可以徹底改變 AI 應用的云基礎設施。CoreWeave 成功利用 BlueField DPU 構建了可擴展、高效且安全的 AI 云平臺,彰顯了 BlueField DPU 在優化 AI 和高性能計算基礎設施方面的顯著優勢。
-
NVIDIA
+關注
關注
14文章
5315瀏覽量
106510 -
數據中心
+關注
關注
16文章
5237瀏覽量
73562 -
AI
+關注
關注
88文章
35249瀏覽量
280477 -
DPU
+關注
關注
0文章
394瀏覽量
24955
原文標題:CoreWeave 借助 NVIDIA BlueField DPU 開創數據中心新范式
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
NVIDIA計劃打造全球首個工業AI云平臺
NVIDIA技術助力歐洲廠商推出機器人系統與平臺
NVIDIA推出AI平臺DGX Cloud Lepton
NVIDIA攜手谷歌云助力企業引入代理式AI
云驥智行借助NVIDIA Jetson打造“域腦”通用計算平臺
華為云Stack助力統計信息化智能升級
利用NVIDIA DPF引領DPU加速云計算的未來

AI云平臺的核心優勢
NVIDIA發布Cosmos?平臺,助力物理AI系統發展
NVIDIA將亮相亞馬遜云科技re:Invent 2024
賴耶科技通過NVIDIA AI Enterprise平臺打造超級AI工廠
AMD EPYC處理器助力阿里云AnalyticDB性能升級

利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

評論