女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA助力CoreWeave云平臺性能升級

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-07-23 10:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CoreWeave 為高性能、安全、多租戶環境開發了云規模加速計算基礎設施

AI 變革正在重塑數據中心格局,亟需能夠提供更靈活、高性價比的計算和數據能力的平臺。為了滿足這些需求,作為推動 AI 變革的超大規模云服務提供商,CoreWeave 致力于開發一種用于加速計算工作負載的云平臺,該云平臺能夠在多租戶環境中提供高性能、嚴格的租戶隔離和安全性。

CoreWeave 云平臺使用 NVIDIA BlueField DPU,簡化了大規模先進基礎設施的工程、組裝、運行和監測,為 AI 工作負載提供頂尖的性能與效率。

挑戰

為了滿足 AI 的需求,數據中心需要具有靈活、高性能、高性價比的計算與數據能力的平臺。CoreWeave 致力于開發一個云規模的加速計算基礎設施,以便在多租戶環境中提供高性能、嚴格的租戶隔離和安全性。

CoreWeave 的基礎設施需要支持外部網絡訪問和內部網絡計算,還必須能夠管理數十萬顆 NVIDIA GPU 之間的網絡流量,并在高負載下保持性能。此外,該基礎設施還需要卸載并加速網絡和存儲任務,以釋放 CPU 資源,從而使處理器能夠專注于處理計算密集型工作負載,并加快存儲訪問速度,從而實現更高效的AI計算。CoreWeave 的另一個主要目標是開發一個能夠滿足 AI 應用日益增長需求的基礎設施,并確保其可擴展性,以便在未來更好的處理日益復雜的計算密集型大規模工作負載。CoreWeave 借助NVIDIA BlueField 網絡平臺和 NVIDIA DOCA 軟件框架的強大功能來滿足這些需求。

解決方案

CoreWeave 借助 NVIDIA BlueField-3 DPU 來提高其 AI 云基礎設施的效率,提供可擴展性并優化其性能。他們使用 DPU 來卸載并加速網絡、管理、存儲和安全服務,并釋放 CPU 資源。

CoreWeave 使用 NVIDIA DOCA 軟件框架在應用程序域和基礎設施服務域進行開發。

CoreWeave 使用 BlueField DPU 和 DOCA 開發了一個具有強大、高性價比且快速擴展的平臺,使任何規模的客戶都能夠創建、訓練和微調為其特定業務挑戰而定制的模型。

CoreWeave 將其管理和存儲基礎設施與運行 NVIDIA Cumulus Linux 的NVIDIA Spectrum 以太網交換機連接起來,以實現 API 為中心的網絡運營。

CoreWeave 使用 NVIDIA Quantum-2 InfiniBand 網絡平臺作為其 GPU 到 GPU 的 AI 計算網絡,不僅實現了低延遲、高帶寬、高效數據傳輸和性能隔離,還確保為要求苛刻的 AI 工作負載提供極佳的性能和可擴展性。

借助 BlueField DPU 和 DOCA增強網絡功能

CoreWeave 使用NVIDIA DOCA 軟件框架中的組件—特別是基于 OVS-DOCA 和DOCA FLOW 的 DOCA基 于主機的網絡(DOCA HBN)服務,加速了云網絡服務和 API。DOCA HBN 利用與 NVIDIA Cumulus Linux 網絡操作系統相同的核心組件,如 FRRouting 和 NVIDIA User Experience(NVUE),并將它們打包到在 BlueField DPU 上運行的容器中。此設置使 CoreWeave 能夠以可擴展、分布式的方式管理復雜的網絡功能,支持多租戶環境中的租戶隔離、負載均衡和流量引導。這確保每個云租戶只能訪問自己的數據和計算任務,并確保這些任務在不影響性能的情況下得到高效管理,從而實現可擴展且安全的網絡。通過卸載和加速這些任務,DOCA HBN 減輕了 CPU 負載,使其能夠處理計算密集型進程,并提高整體系統性能。

借助 DOCA HBN,CoreWeave 將網絡隔離功能遷移至BlueField DPU,并采用 EVPN VXLAN 為每個租戶創建了獨立的虛擬網絡,通過 VXLAN 網絡標識符處理路由流量,以確保實現完全隔離。由于嚴格的網絡隔離對于安全性與合規性在多租戶環境中至關重要。CoreWeave 還通過在 BlueField 上部署互聯網網關實現了去中心化架構,并使用 OVS-DOCA 進行流量引導和網絡地址轉換(NAT)。BlueField 還通過托管網關和 BGP 路由,在網絡流量管理方面發揮至關重要的作用,從而實現高效的網絡管理。

通過 BlueField 集成實現系統級優化

為了構建下一代 AI 存儲服務,即 CoreWeave AI 對象存儲,CoreWeave 與 VAST Data 合作,充分利用雙方與 NVIDIA 技術的深度集成。VAST 將 BlueField DPU 作為控制數據節點(DNode),通過 NVIDIA DOCA API 將數據服務直接卸載到 BlueField DPU,從而消除了對傳統 x86 CPU 的需求。

該架構重新定義了數據層的控制和策略執行方式,更加接近數據流向且效率更高。CoreWeave 最初使用的 NVIDIA DPU 是 BlueField-1,現已發展至 BlueField-3,并持續致力于將 BlueField 部署到計算相鄰節點(CNode)。這實現了基礎設施級的多租戶,其中每個 CoreWeave AI 對象存儲租戶都能在一個隔離且安全的網絡域中運行。實時遙測和細粒度策略執行直接在 DPU 層完成。該平臺對多協議訪問的支持進一步簡化了復雜性,并實現了跨不同計算和數據環境的無縫互操作性。

這種靈活性使 CoreWeave 能夠在不影響性能或犧牲租戶隔離性的情況下擴展 AI 對象存儲。將控制服務卸載到 BlueField DPU 徹底重塑了基礎設施的經濟學,因其優化了性能、安全性和可擴展性。性能基準測試顯示了該架構演進的優點:與基于 x86 架構、配備 DRAM 和傳統 NVIDIA ConnectX 網卡的 DNode 相比,基于 BlueField 的 DNode 在連續吞吐量方面提高了 60%,從 40GB/s 增加至 64GB/s,同時功耗降低了 58%,從 1200 W 下降至 500 W。這相當于每瓦性能提高了 3.84 倍。該設計為現代 AI 基礎設施提供了藍圖,展示了基礎設施層的軟硬件協同設計如何為 CoreWeave 等云服務提供商帶來效率、可擴展性和性能的巨大提升。

新系統還通過采用四塊 BlueField DPU 和八個 100GbE 端口,將線路帶寬提高至原來的兩倍。雖然部分功耗節省歸因于采用了更大、更高效的固態硬盤(SSD),但其整體效率提升主要歸功于 DPU 的集成。此次測試展現了 BlueField DPU 變革數據中心架構的潛力,為像 CoreWeave 這樣尋求提升 AI 基礎設施性能和能效的公司提供了夢寐以求的解決方案。

93e5b4bc-6626-11f0-a6aa-92fbcf53809c.png

x86 CPU 與 BlueField DPU 的對比

上圖通過對比,顯示出運行在 x86 CPU 和運行在 NVIDIA BlueField DPU 之間的差異。

借助 NVIDIA Spectrum 以太網交換機和 Cumulus Linux 實現云規模效率

除了利用 BlueField DPU 來卸載、加速和隔離工作負載外,CoreWeave 還通過運行 NVIDIA Cumulus Linux 的 NVIDIA Spectrum 以太網交換機來連接存儲和管理基礎設施。Cumulus Linux 旨在通過軟件驅動的自動化來簡化網絡管理。通過將純三層 EVPN VXLAN 與 NVUE 對象模型的 API 相結合,CoreWeave 即使在大規模情況下也能輕松管理網絡的自動化、運營和更新。

利用 NVIDIA Quantum-2 InfiniBand實現極高的 AI 性能

CoreWeave 利用 BlueField DPU 和 Spectrum 以太網交換機構建存儲與管理網絡,同時使用 NVIDIA Quantum-2 InfiniBand 網絡平臺構建 GPU 到 GPU 的 AI 計算網絡。InfiniBand 是 AI 網絡的黃金標準,可為高負載和大規模 AI 訓練工作負載提供極高的有效帶寬和超低的延遲。InfiniBand 的功能,如動態路由和基于遙測的擁塞控制,對于多租戶 AI 云環境至關重要,能夠實現性能隔離,并確保所有 CoreWeave 用戶都能獲得所需的全部網絡帶寬。CoreWeave 還使用 Quantum InfiniBand 的 NVIDIA 可擴展分層聚合和歸約協議(SHARP)進行 AI 集合操作網絡計算,卸載 GPU 的通信操作,簡化網絡流量模式,并加快任務完成時間。

總結

CoreWeave 使用 NVIDIA DOCA 部署 NVIDIA BlueField DPU,從而變革了其 AI 云基礎設施,并在技術、運營和業務層面帶來了顯著的價值。通過集成 BlueField DPU,CoreWeave 構建出一個高效、可擴展、安全的平臺,滿足了現代 AI 工作負載和云端運營的嚴苛要求。憑借將 VAST Data 的存儲解決方案與NVIDIA BlueField DPU相結合這一創新方法,CoreWeave 已躋身領先的 AI 云服務提供商之列,并通過對創新技術的不懈追求來滿足未來的客戶需求,同時應對日益復雜的 AI 工作負載。

戰略性的部署 NVIDIA BlueField DPU 和 NVIDIA DOCA 軟件框架等先進技術,可以徹底改變 AI 應用的云基礎設施。CoreWeave 成功利用 BlueField DPU 構建了可擴展、高效且安全的 AI 云平臺,彰顯了 BlueField DPU 在優化 AI 和高性能計算基礎設施方面的顯著優勢。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5315

    瀏覽量

    106510
  • 數據中心
    +關注

    關注

    16

    文章

    5237

    瀏覽量

    73562
  • AI
    AI
    +關注

    關注

    88

    文章

    35249

    瀏覽量

    280477
  • DPU
    DPU
    +關注

    關注

    0

    文章

    394

    瀏覽量

    24955

原文標題:CoreWeave 借助 NVIDIA BlueField DPU 開創數據中心新范式

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA計劃打造全球首個工業AI平臺

    NVIDIA 宣布,其正在為歐洲制造商構建全球首個工業 AI 。這家總部位于德國的 AI 工廠將配備 1 萬個 GPU,包括通過 NVIDIA DGX B200 系統 和 NVIDIA
    的頭像 發表于 06-16 14:17 ?518次閱讀

    NVIDIA技術助力歐洲廠商推出機器人系統與平臺

    基于 NVIDIA 安全的全棧機器人開發平臺,Agile?Robots、Humanoid、Neura?Robotics、Universal Robots、Vorwerk?和?Wandelbots 等公司推出 NVIDIA 加速的
    的頭像 發表于 06-16 13:54 ?618次閱讀

    NVIDIA推出AI平臺DGX Cloud Lepton

    CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda、Nebius、Nscale、SoftBank Corp. 和 Yotta Data Services 為 DGX Cloud Lepton Marketplace 提供數以萬計的 GPU 資源。
    的頭像 發表于 05-22 09:42 ?369次閱讀

    NVIDIA攜手谷歌助力企業引入代理式AI

    谷歌 Gemini 模型即將支持本地部署,可通過搭載 NVIDIA Blackwell 架構的基礎設施,在 Google 分布式上運行 NVIDIA 機密計算。
    的頭像 發表于 04-11 16:32 ?503次閱讀

    NVIDIA助力解決量子計算領域重大挑戰

    NVIDIA 加速量子研究中心提供了強大的工具,助力解決量子計算領域的重大挑戰。
    的頭像 發表于 03-27 09:17 ?638次閱讀

    驥智行借助NVIDIA Jetson打造“域腦”通用計算平臺

    本案例中,驥智行(Pegasus Technology)借助 NVIDIA Jetson 打造“域腦”通用計算平臺,實現了在人形機器人、智能新終端等具身智能場景的部署應用,滿足多場景算力需求,保障系統安全穩定運行并推動功能拓展
    的頭像 發表于 02-21 11:41 ?879次閱讀

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?732次閱讀
    使用<b class='flag-5'>NVIDIA</b>推理<b class='flag-5'>平臺</b>提高AI推理<b class='flag-5'>性能</b>

    華為Stack助力統計信息化智能升級

    經過充分調研和考察,華為Stack在平臺、數據庫、大數據的全棧自主創新能力和在政務領域的持續積淀,獲得了國家統計局的認可。國家統計局聯合華為公司提前布局,以“一網通辦、一統管”為
    的頭像 發表于 02-07 10:22 ?506次閱讀

    利用NVIDIA DPF引領DPU加速計算的未來

    越來越多的企業開始采用加速計算,從而滿足生成式 AI、5G 電信和主權的需求。NVIDIA 推出了 DOCA 平臺框架(DPF),該框架提供了基礎構建模塊來釋放 NVIDIA Blu
    的頭像 發表于 01-24 09:29 ?744次閱讀
    利用<b class='flag-5'>NVIDIA</b> DPF引領DPU加速<b class='flag-5'>云</b>計算的未來

    AI平臺的核心優勢

    AI平臺不僅為企業提供了強大的數據處理和分析能力,還通過其獨特的優勢,助力企業在激烈的市場競爭中脫穎而出。以下,是對AI平臺核心優勢的梳
    的頭像 發表于 01-21 10:01 ?430次閱讀

    NVIDIA發布Cosmos?平臺,助力物理AI系統發展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平臺,該平臺專為自動駕駛汽車(AV)和機器人等物理AI系統而設計,旨在推動這些領域的快速發展。 Cosmos
    的頭像 發表于 01-08 15:36 ?625次閱讀

    NVIDIA將亮相亞馬遜科技re:Invent 2024

    12 月 2 日至 6 日,NVIDIA 將在于拉斯維加斯舉行的亞馬遜科技 re:Invent 2024 上展示全棧產品。與會者可以深入了解在亞馬遜科技上所提供的各種 NVIDIA
    的頭像 發表于 11-27 11:18 ?946次閱讀

    賴耶科技通過NVIDIA AI Enterprise平臺打造超級AI工廠

    NVIDIA 技術團隊保持合作。賴耶科技通過NVIDIA AI Enterprise平臺打造的超級 AI 工廠,致力于加速大模型場景應用的深化拓展及落地,為企業與個人開發者提供高性能
    的頭像 發表于 11-19 14:55 ?1129次閱讀

    AMD EPYC處理器助力阿里AnalyticDB性能升級

    阿里瑤池旗下的云原生數倉AnalyticDB for PostgreSQL與AMD新一代硬件深度優化 ,結合全自研計算引擎及行列混合存儲實現性能升級,綜合性能 提升30% 。結合豐富
    的頭像 發表于 09-19 11:11 ?819次閱讀
    AMD EPYC處理器<b class='flag-5'>助力</b>阿里<b class='flag-5'>云</b>AnalyticDB<b class='flag-5'>性能</b><b class='flag-5'>升級</b>

    利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

    DolphinDB 是一家高性能數據庫研發企業,也是 NVIDIA 初創加速計劃成員,其開發的產品基于高性能分布式時序數據庫,是支持復雜計算和流數據分析的實時計算平臺,適用于金融、電力
    的頭像 發表于 09-09 09:57 ?907次閱讀
    利用<b class='flag-5'>NVIDIA</b> RAPIDS加速DolphinDB Shark<b class='flag-5'>平臺</b>提升計算<b class='flag-5'>性能</b>