NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎(chǔ)設(shè)施的重要組成部分。從初始版本到備受期待的NVIDIA DOCA 3.0發(fā)布,每個(gè)版本都擴(kuò)展了NVIDIA BlueField DPU和ConnectX SuperNIC的功能,從而實(shí)現(xiàn)了前所未有的 AI 平臺(tái)可擴(kuò)展性和性能。
通過豐富的庫(kù)和服務(wù)生態(tài)系統(tǒng),DOCA 充分利用 BlueField DPU 和 SuperNIC,實(shí)現(xiàn)了在超過 10 萬個(gè) GPU 上的超大規(guī)模部署,同時(shí)保持嚴(yán)格的租戶隔離并優(yōu)化資源利用率。DOCA 的安全功能可為容器化 AI 工作負(fù)載提供硬件級(jí)威脅檢測(cè),而不會(huì)對(duì)性能造成影響。DOCA 的智能數(shù)據(jù)加速功能解決了 AI 數(shù)據(jù)流水線中的關(guān)鍵瓶頸,而其編排功能則簡(jiǎn)化了復(fù)雜的 DPU 加速服務(wù)部署。
本文將介紹 DOCA 3.0,它代表了這些進(jìn)步的最終成果。DOCA 3.0 為 AI 工廠提供全新升級(jí)的基礎(chǔ)設(shè)施服務(wù),并為 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施提供優(yōu)化的框架,為開發(fā)者提供構(gòu)建安全、高效的 AI 基礎(chǔ)設(shè)施所需的必要工具,其規(guī)模之大前所未有。如今,一個(gè)廣泛且蓬勃發(fā)展的開發(fā)者社區(qū)正在使用 DOCA,這項(xiàng)技術(shù)將繼續(xù)改變企業(yè)部署、管理和編排基礎(chǔ)設(shè)施的方式,為未來的 AI 創(chuàng)新提供支持。
DOCA 3.0 簡(jiǎn)介
在當(dāng)今快速發(fā)展的 AI 領(lǐng)域中,支持大規(guī)模 AI 部署的基礎(chǔ)設(shè)施與模型本身同樣重要。隨著企業(yè)從實(shí)驗(yàn)性 AI 項(xiàng)目擴(kuò)展到生產(chǎn)就緒型部署,底層計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)基礎(chǔ)設(shè)施必須不斷發(fā)展,以滿足前所未有的需求。DOCA 正是這一發(fā)展的核心,它正在徹底改變開發(fā)者構(gòu)建、部署和管理下一代 AI 平臺(tái)的方式。
最新版本的 DOCA 3.0 為開發(fā)者提供了豐富的庫(kù)、驅(qū)動(dòng)和 API,幫助他們?yōu)?NVIDIA BlueField DPU 和 Connect-X SuperNIC 創(chuàng)建高性能應(yīng)用程序和服務(wù)。這一創(chuàng)新框架可將資源密集型任務(wù)從 CPU 卸載到專用硬件加速器,從而顯著提高 AI 工作負(fù)載的性能、安全性和效率。
DOCA 3.0 的亮點(diǎn)包括:
DOCA 支持 InfiniBand Quantum-X800 和 ConnectX-8 SuperNIC (GA)
用于 NIM 容器威脅檢測(cè)的全新 DOCA Argus 服務(wù)
DOCA 平臺(tái)框架(DPF)可信主機(jī)用例(GA)
使用 BlueField-3 的 DOCA SNAP Virtio-fs(測(cè)試版)文件系統(tǒng)仿真
適用于 AI 計(jì)算集群的 DOCA Perftest(GA)RDMA 基準(zhǔn)工具
圖 1:NVIDIA DOCA 3.0 堆棧
超大規(guī)模 GPU 計(jì)算:擴(kuò)展多租戶 AI 工廠
構(gòu)建具有更多參數(shù)和訓(xùn)練數(shù)據(jù)的更大規(guī)模 AI 模型的競(jìng)賽,將計(jì)算需求推向了前所未有的高度。現(xiàn)代 AI 工廠必須支持涵蓋數(shù)萬個(gè) GPU 的大規(guī)模部署,同時(shí)保持租戶之間嚴(yán)格的性能隔離。
DOCA 通過其網(wǎng)絡(luò)庫(kù)解決這一挑戰(zhàn),這些庫(kù)在多租戶環(huán)境中實(shí)現(xiàn)高效的資源利用和工作負(fù)載隔離。具體而言,DOCA RDMA 庫(kù)提供了對(duì)大規(guī)模分布式 AI 訓(xùn)練至關(guān)重要的高性能、低延遲通信功能。該庫(kù)支持節(jié)點(diǎn)之間的直接內(nèi)存訪問,無需 CPU 參與,從而顯著降低多 GPU 系統(tǒng)中的通信開銷。
DOCA GPUNetIO 庫(kù)通過 GPUDirect Async Kernal-initiated 通信(GDAKI),在網(wǎng)絡(luò)中提供 GPU 之間的直接數(shù)據(jù)路徑,進(jìn)一步增強(qiáng) GPU 之間的通信,從而實(shí)現(xiàn)對(duì)分布式訓(xùn)練算法至關(guān)重要的高效集合操作。這些庫(kù)與 DOCA 以太網(wǎng)、DOCA RDMA 或 DOCA DMA 協(xié)同工作,構(gòu)建了一個(gè)高性能網(wǎng)絡(luò)基礎(chǔ),可以擴(kuò)展到支持超過 10 萬個(gè) GPU 的部署。
傳統(tǒng)的軟件定義數(shù)據(jù)中心方法可能會(huì)消耗 30% 甚至更多的服務(wù)器 CPU 核心。通過DOCA Flow等庫(kù)將這些功能卸載到 BlueField DPU,DOCA 可以釋放寶貴的 CPU 資源用于 AI 計(jì)算,這相當(dāng)于 30 多個(gè) CPU 核心的性能。DOCA Flow 庫(kù)支持復(fù)雜的數(shù)據(jù)包處理和流管理,支持大規(guī)模 AI 工廠中復(fù)雜的流量模式。
適用于 AI 工作負(fù)載的多租戶隔離
DOCA 架構(gòu)通過其基于主機(jī)的網(wǎng)絡(luò)服務(wù)提供強(qiáng)大的隔離機(jī)制,確保來自不同租戶的工作負(fù)載保持安全隔離。該服務(wù)在租戶環(huán)境之間實(shí)施硬件強(qiáng)制隔離,防止未經(jīng)授權(quán)的訪問,同時(shí)實(shí)現(xiàn) AI 的無縫執(zhí)行。對(duì)于將敏感 AI 工作負(fù)載與其他應(yīng)用程序一同運(yùn)行的云服務(wù)提供商和企業(yè)而言,此功能至關(guān)重要。
強(qiáng)大的威脅檢測(cè):實(shí)時(shí)保護(hù) AI 工作負(fù)載
隨著 AI 系統(tǒng)對(duì)業(yè)務(wù)運(yùn)營(yíng)的重要性與日俱增,保護(hù)其免受威脅也變得至關(guān)重要。DOCA 釋放了 BlueField DPU 和 SuperNIC 的網(wǎng)絡(luò)安全潛力,支持快速創(chuàng)建和集成應(yīng)用程序,從而卸載和加速加密、分布式防火墻、入侵檢測(cè)和網(wǎng)絡(luò)微分段等安全任務(wù)。
通過結(jié)合使用 DOCA 庫(kù),NVIDIA 網(wǎng)絡(luò)安全 AI 平臺(tái)利用硬件級(jí)檢測(cè)提供對(duì)網(wǎng)絡(luò)流量和系統(tǒng)行為的深度可視性。與依賴軟件代理的傳統(tǒng)安全解決方案不同,BlueField DPU 充當(dāng)嵌入式安全處理器,可將關(guān)鍵的網(wǎng)絡(luò)安全任務(wù)從傳統(tǒng) CPU 上卸載。這種方法可以在不影響系統(tǒng)性能的情況下實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè)和保護(hù)。
DOCA 支持的安全應(yīng)用程序可以:
持續(xù)分析遙測(cè)數(shù)據(jù),識(shí)別潛在威脅的模式和異常
通過 AI 驅(qū)動(dòng)的異常檢測(cè)提供實(shí)時(shí)威脅檢測(cè)
在風(fēng)險(xiǎn)升級(jí)為重大安全事件之前主動(dòng)降低風(fēng)險(xiǎn)
在 AI 組件之間實(shí)施強(qiáng)大的加密和安全通信通道
對(duì)于 AI 工作負(fù)載,這種安全架構(gòu)具有顯著優(yōu)勢(shì)。AI 模型和訓(xùn)練數(shù)據(jù)通常代表著寶貴的知識(shí)產(chǎn)權(quán),因此成為攻擊的主要目標(biāo)。DOCA 支持機(jī)密計(jì)算功能,可保護(hù)部署在 NVIDIA Blackwell 和 NVIDIA Hopper GPU 上的 AI 模型、算法和數(shù)據(jù)的機(jī)密性和完整性。
此外,DOCA 的安全功能能夠應(yīng)對(duì) AI 驅(qū)動(dòng)環(huán)境中 IT 和 OT 系統(tǒng)融合所帶來的復(fù)雜威脅形勢(shì)。通過提供硬件加速的安全功能,DOCA 可確保安全措施不會(huì)成為 AI 應(yīng)用的性能瓶頸。
加速下一代 AI 的數(shù)據(jù)處理
數(shù)據(jù)處理是現(xiàn)代 AI 工作流中最重大的挑戰(zhàn)之一。最新一代的 AI 模型需要前所未有的海量訓(xùn)練數(shù)據(jù),這給存儲(chǔ)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施帶來了巨大壓力。
DOCA 通過其全面的數(shù)據(jù)加速功能來解決這一挑戰(zhàn)。該框架的數(shù)據(jù)路徑加速器利用 BlueField-3 DPA 編程子系統(tǒng)提供一種編程模型,可將以通信為中心的用戶代碼卸載到專用的 DPA 處理器上運(yùn)行。這種卸載功能可顯著降低 CPU 開銷,同時(shí)通過 DPU 加速來提高性能。
此外,為了優(yōu)化 AI 流水線中的數(shù)據(jù)壓縮,DOCA 壓縮庫(kù)提供了硬件加速的壓縮和解壓縮功能。此功能可在不增加 CPU 或 GPU 計(jì)算負(fù)載的情況下減少數(shù)據(jù)傳輸時(shí)間和存儲(chǔ)需求。同樣,DOCA Erasure Coding 庫(kù)提供了彈性數(shù)據(jù)存儲(chǔ)功能,這對(duì)于保護(hù)寶貴的 AI 數(shù)據(jù)集至關(guān)重要。
為了應(yīng)對(duì)現(xiàn)代 AI 工作流帶來的挑戰(zhàn),DOCA Flow 庫(kù)實(shí)現(xiàn)了 AI 數(shù)據(jù)流水線的高性能網(wǎng)絡(luò),它提供了先進(jìn)的數(shù)據(jù)包處理功能,可優(yōu)化整個(gè)網(wǎng)絡(luò)中的數(shù)據(jù)移動(dòng)。DOCA Rivermax 庫(kù)通過提供高級(jí)功能來簡(jiǎn)化存儲(chǔ)系統(tǒng)和計(jì)算節(jié)點(diǎn)之間的數(shù)據(jù)傳輸,從而進(jìn)一步提高網(wǎng)絡(luò)性能。
優(yōu)化 AI 數(shù)據(jù)流水線的網(wǎng)絡(luò)性能
DOCA 基于主機(jī)的網(wǎng)絡(luò)(HBN)3.0 為無控制器 VPC 網(wǎng)絡(luò)提供了顯著的可擴(kuò)展性改進(jìn),支持高達(dá)八千個(gè) VTEP 和八萬個(gè) Type-5 路由,并計(jì)劃增加對(duì)一萬六千甚至更多個(gè) VTEP 的支持。此外,DOCA 3.0 還為 HBN 引入了兩項(xiàng)附加功能:雙向轉(zhuǎn)發(fā)檢測(cè)(BFD)支持[GA],通過主動(dòng)鏈路監(jiān)測(cè)實(shí)現(xiàn)快速路由收斂,以及 ECMP 故障轉(zhuǎn)移增強(qiáng)功能,通過更快的故障轉(zhuǎn)移確保最大限度的減少停機(jī)時(shí)間。
總的來說,這些功能使 HBN 成為裸金屬部署的理想選擇,并使 AI 平臺(tái)能夠處理存儲(chǔ)系統(tǒng)、計(jì)算節(jié)點(diǎn)和外部數(shù)據(jù)源之間的海量數(shù)據(jù)流。
對(duì)于 AI 開發(fā)者來說,DOCA 智能數(shù)據(jù)平臺(tái)功能可轉(zhuǎn)化為:
降低訓(xùn)練和推理流水線的數(shù)據(jù)處理延遲
提高數(shù)據(jù)密集型 AI 操作的吞吐量
提高計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施的資源利用效率
支持 IPMX 等新興視聽 AI 應(yīng)用標(biāo)準(zhǔn)
增強(qiáng)的 DOCA FireFly 服務(wù)通過硬件加速帶來了先進(jìn)的時(shí)間同步功能,提供分布式 AI 訓(xùn)練工作負(fù)載所必需的高精度同步能力。此功能可實(shí)現(xiàn)跨 GPU 集群的更高效協(xié)調(diào),這對(duì)于大規(guī)模訓(xùn)練和模型并行等技術(shù)尤為重要。
DPU 驅(qū)動(dòng)的基礎(chǔ)設(shè)施服務(wù)無縫管理
現(xiàn)代 AI 基礎(chǔ)設(shè)施的復(fù)雜性要求具備先進(jìn)的編排能力。DOCA 3.0 針對(duì)可信主機(jī)的 DOCA 平臺(tái)框架(DPF)已正式發(fā)布,它將 Kubernetes 控制平面功能擴(kuò)展到 DPU,使管理員能夠部署和編排 NVIDIA DOCA 服務(wù)和第三方應(yīng)用程序。
DOCA 服務(wù)是基于 DOCA 的容器化產(chǎn)品,采用容器封裝,可在 BlueField DPU 上便捷部署。這些服務(wù)利用 DPU 功能來提供遙測(cè)、時(shí)間同步、網(wǎng)絡(luò)解決方案等功能,所有這些功能都可以通過 NGC 目錄獲取。
圖 2:DOCA 平臺(tái)框架堆棧(GA)
通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理部署在 BlueField DPU 上的 DOCA 服務(wù)。該框架簡(jiǎn)化了 DPU 管理的復(fù)雜性,使管理員能夠與熟悉的 Kubernetes 結(jié)構(gòu)進(jìn)行交互。這種方法顯著簡(jiǎn)化了 AI 基礎(chǔ)設(shè)施服務(wù)的部署和運(yùn)維。
DPF 服務(wù)的功能鏈功能可在單個(gè) DPU 上集成加速網(wǎng)絡(luò)、高性能數(shù)據(jù)服務(wù)、安全功能等多種服務(wù)。這種編排功能創(chuàng)建了一個(gè)靈活的多供應(yīng)商生態(tài)系統(tǒng),從而為 AI 應(yīng)用提供加速網(wǎng)絡(luò)服務(wù)。
實(shí)際部署展示了這種方法的切實(shí)優(yōu)勢(shì)。NVIDIA DOCA 平臺(tái)框架與 Red Hat OpenShift 的集成已顯示出顯著的性能提升,RDMA 測(cè)試的平均帶寬達(dá)到 383.72Gb/s。這種網(wǎng)絡(luò)性能水平對(duì)于 LLM 等數(shù)據(jù)密集型 AI 工作負(fù)載至關(guān)重要。
對(duì)于 AI 平臺(tái)運(yùn)營(yíng)商,DOCA 基礎(chǔ)設(shè)施服務(wù)編排功能提供:
簡(jiǎn)化復(fù)雜 AI 優(yōu)化基礎(chǔ)設(shè)施的部署和管理
強(qiáng)大的生命周期管理,實(shí)現(xiàn)無縫的服務(wù)更新、擴(kuò)展和回滾
部署前驗(yàn)證,確保兼容性和需求得到滿足
實(shí)時(shí)監(jiān)測(cè)和可調(diào)試性,確保高可靠性
加速并保護(hù) NVIDIA NIM 微服務(wù)和 AI 工作負(fù)載
利用 DOCA 平臺(tái)框架的先進(jìn)編排功能、DOCA HBN、OVS-DOCA、DOCA SNAP Virtio-fs 以及最新服務(wù)NVIDIA DOCA Argus相結(jié)合,加速和保護(hù) NVIDIA NIM 微服務(wù)和 AI 工作負(fù)載。這凸顯了 DOCA 不斷發(fā)展的價(jià)值,并讓我們一窺未來解決方案將如何從框架中不斷涌現(xiàn)。
DOCA Argus 是一個(gè)網(wǎng)絡(luò)安全框架,旨在通過在 BlueField DPU 上提供無代理實(shí)時(shí)威脅檢測(cè)來保護(hù) AI 工廠。Argus 獨(dú)立于主機(jī)系統(tǒng)運(yùn)行,其攻擊檢測(cè)和響應(yīng)速度比傳統(tǒng)解決方案快 1000 倍,且不會(huì)影響性能。
它與企業(yè)安全系統(tǒng)無縫集成,提供持續(xù)監(jiān)測(cè)和自動(dòng)威脅緩解。Augus 利用先進(jìn)的內(nèi)存取證和可操作情報(bào),經(jīng)過優(yōu)化,可大規(guī)模保護(hù)容器化和多租戶 AI 工作負(fù)載。
DOCA Argus 與 OVS-DOCA 和 DOCA SNAP Virtio-fs 相結(jié)合,為 NVIDIA BlueField DPU 上的 AI 工作負(fù)載形成了創(chuàng)新的安全解決方案,解決了不同的基礎(chǔ)設(shè)施層問題,同時(shí)實(shí)現(xiàn)了跨組件威脅緩解。
圖 3:使用 DOCA 3.0 加速并保護(hù)
NIM 微服務(wù)和 AI 工作負(fù)載
DOCA Argus(計(jì)算層)通過 DPU 級(jí)內(nèi)存和進(jìn)程分析監(jiān)測(cè) AI 工作負(fù)載,并依賴 OVS-DOCA 卸載和隔離網(wǎng)絡(luò)流量(網(wǎng)絡(luò)層)。同時(shí),DOCA SNAP Virtio-fs(存儲(chǔ)層)通過 DPU 模擬的 Virtio 設(shè)備虛擬化文件系統(tǒng)訪問,將存儲(chǔ) IO 與主機(jī)內(nèi)核隔離開來,并為 Argus 提供異常訪問模式的審計(jì)日志。
該集成框架將安全性嵌入到計(jì)算層、網(wǎng)絡(luò)層和存儲(chǔ)層中,為 NIM 微服務(wù)實(shí)現(xiàn)亞毫秒級(jí)威脅響應(yīng),同時(shí)保持容器化 AI 流水線的可擴(kuò)展性。
開始使用 DOCA 3.0
隨著 AI 持續(xù)變革各行各業(yè),支撐其發(fā)展的基礎(chǔ)設(shè)施必須隨之發(fā)展。NVIDIA DOCA 框架代表著開發(fā)者構(gòu)建和部署 AI 平臺(tái)方式的根本性轉(zhuǎn)變,并通過其全面的庫(kù)和服務(wù)提供前所未有的性能、安全性和效率。
DOCA SDK 圍繞不同的 DOCA 庫(kù)構(gòu)建,旨在充分利用 BlueField DPU 的功能。借助 20 多個(gè)專用庫(kù),開發(fā)者可以通過強(qiáng)大的工具包來構(gòu)建優(yōu)化的 AI 基礎(chǔ)設(shè)施。
DOCA 服務(wù)通過為特定用例提供容器化解決方案來補(bǔ)充這些庫(kù)。您可以通過NGC 目錄(例如 DOCA 和 DPU)來找到它們。這種容器化方法可以快速部署并簡(jiǎn)化對(duì) AI 運(yùn)營(yíng)至關(guān)重要的基礎(chǔ)設(shè)施組件的管理。
DOCA 還在持續(xù)演進(jìn),定期更新框架并推出新功能,確保開發(fā)者能夠始終處于 AI 基礎(chǔ)設(shè)施創(chuàng)新的前沿。目前已有成千上萬的開發(fā)者在使用 DOCA,其生態(tài)系統(tǒng)繼續(xù)發(fā)展壯大,為 AI 應(yīng)用開發(fā)帶來了新的可能。
對(duì)于希望構(gòu)建下一代 AI 平臺(tái)的開發(fā)者,NVIDIA DOCA 提供了全面的工具包,幫助他們充分發(fā)揮 BlueField DPU 和 Connect-X SuperNIC 的潛力,以創(chuàng)建可以擴(kuò)展的基礎(chǔ)設(shè)施來滿足未來 AI 工作負(fù)載需求。通過采用 DOCA,企業(yè)站在 AI 基礎(chǔ)設(shè)施創(chuàng)新的前沿,為 AI 發(fā)展的新紀(jì)元做好準(zhǔn)備。
NVIDIA DOCA 3.0 標(biāo)志著 AI 計(jì)算網(wǎng)絡(luò)架構(gòu)和云計(jì)算基礎(chǔ)設(shè)施的重大進(jìn)步。
開啟您的開發(fā)之旅,享受 DOCA 提供的一切優(yōu)勢(shì)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5308瀏覽量
106340 -
gpu
+關(guān)注
關(guān)注
28文章
4943瀏覽量
131202 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7814瀏覽量
90911 -
AI
+關(guān)注
關(guān)注
88文章
35093瀏覽量
279457
原文標(biāo)題:NVIDIA DOCA 3.0 助力 AI 平臺(tái)開啟網(wǎng)絡(luò)新紀(jì)元
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
transcosmos在中國(guó)發(fā)布全渠道智能客服平臺(tái)"transCxLink"3.0版本

請(qǐng)問k230創(chuàng)樂博V3.0版本如何使用ADB傳輸文件呢?
NVIDIA虛擬GPU 18.0版本的亮點(diǎn)
NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell架構(gòu)技術(shù)解析
英偉達(dá)GTC25亮點(diǎn):NVIDIA Blackwell Ultra 開啟 AI 推理新時(shí)代
motorBench 2.45.0版本說明

豆神AI Windows PC端1.0版本登陸微軟商城
NVIDIA DOCA 2.9版本的亮點(diǎn)解析

NVIDIA DOCA-OFED的主要特性
NVIDIA Parabricks v4.3.1版本的新功能

NVIDIA JetPack 6.0版本的關(guān)鍵功能

IB Verbs和NVIDIA DOCA GPUNetIO性能測(cè)試

OpenVINO 2024.2版本亮點(diǎn)解析
機(jī)器視覺 歡創(chuàng)播報(bào) 華為高階智能駕駛3.0版本8月上市

RaftKeeper v2.1.0版本發(fā)布,性能大幅提升!

評(píng)論