快播激情图片小说,啊操我要高潮了鸡巴好大,亚洲无码乱伦av

NVIDIA Dynamo 擴展并服務于生成式 AI

NVIDIA Dynamo 是專為大規模分布式環境打造的開源推理服務框架。它支持所有主流推理框架，例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM，并包含高級優化功能，例如：

分離服務：在不同的 GPU 上分離預填充和解碼推理階段，以提高吞吐量。

LLM 感知路由：通過路由請求，以更大限度地提高 KV 緩存命中率，并避免重復計算成本。

KV 緩存卸載：將 KV 緩存卸載至經濟高效的內存層級中，以降低推理成本。

這些功能使 NVIDIA Dynamo 能夠為大規模多節點的 LLM 部署提供出色的推理性能和成本效益。

與亞馬遜云科技服務無縫集成

對于在 AWS 云上部署 LLM 的 AWS 開發者和解決方案架構師，Dynamo 將無縫集成到您現有的推理架構中：

Amazon S3:Dynamo NIXL 現在支持 Amazon S3，這是一種對象存儲服務，可提供幾乎無限的可擴展性、高性能和低成本。

計算 KV 緩存需要大量資源且成本高昂。通常會重復使用緩存值而不是重新計算。但是，隨著 AI 工作負載的增長，重用所需的 KV 緩存量可能會迅速超過 GPU 甚至主機顯存。通過將 KV 緩存卸載到 S3，開發者可以釋放寶貴的 GPU 顯存來處理新請求。這種集成減輕了開發者構建自定義插件的負擔，使他們能夠將 KV 緩存無縫卸載到 S3，從而降低總體推理成本。

Amazon EKS:Dynamo 在 Amazon EKS 上運行，這是一種完全托管的 Kubernetes 服務，使開發者能夠運行和擴展容器化應用程序，而無需管理 Kubernetes 基礎設施。

隨著 LLM 的規模和復雜性不斷增加，生產環境中的推理部署現在需要高級組件，例如可感知 LLM 的請求路由、分離服務和 KV 緩存卸載。這些緊密集成的組件增加了在 Kubernetes 環境中部署的復雜性。借助這種支持，開發者可以將 Dynamo 無縫部署到由 EKS 管理的 Kubernetes 集群中，使他們能夠按需快速啟動新的 Dynamo 副本，以處理推理工作負載的突發增長。

圖 1：使用 Amazon EKS 的 AWS 部署架構上的 Dynamo

AWS Elastic Fabric Adapter (EFA):Dynamo 的 NIXL 數據傳輸庫支持 Amazon 的 EFA，這是一個在 Amazon EC2 實例之間提供低延遲節點間通信的網絡接口。

隨著 LLM 規模的擴大并采用稀疏混合專家模型架構，跨多個 GPU 進行分片可在保持低延遲的同時提高吞吐量。在這些部署中，針對在 AWS 上運行的工作負載，使用 EFA 跨 GPU 節點傳輸推理數據。借助 Dynamo 的 EFA 支持，開發者可以通過 NIXL 的前端 API 使用簡單的 get、push 和 delete 命令，在節點之間輕松移動 KV 緩存。這樣一來，無需自定義插件即可訪問 Dynamo 的高級功能（如分離服務），加速 AI 應用的生產時間。

在 Blackwell 驅動的 Amazon P6 實例上

使用 Dynamo 優化推理

Dynamo 與任何 NVIDIA GPU 加速的亞馬遜云科技實例兼容，但與由 Blackwell 提供支持的 Amazon EC2 P6 實例搭配使用時，可顯著提升部署 DeepSeek R1 和最新 Llama 4 等高級邏輯推理模型時的性能。Dynamo 通過管理預填充和解碼自動縮放以及速率匹配等關鍵任務，簡化并自動處理分離 MoE 模型的復雜部署流程。

同時，Amazon P6-B200 實例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 帶寬，而由 NVIDIA提供支持的 P6e-GB200 Ultra 服務器具有獨特的擴展架構，可提供 130 TBps 的聚合全互聯帶寬，旨在加速混合專家模型 (MoE) 部署中廣泛采用的專家并行解碼操作所需的密集型通信模式。Dynamo 和 P6 驅動的 Blackwell 實例相結合，可提高 GPU 利用率，提高每美元的請求吞吐量，并推動生產級 AI 工作負載的利潤可持續增長。

開始使用 NVIDIA Dynamo

深化 Dynamo 與亞馬遜云科技的集成可幫助開發者無縫擴展其推理工作負載。

NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的亞馬遜云科技實例上運行。部署 NVIDIA Dynamo，即刻開始優化推理堆棧：https://github.com/ai-dynamo/dynamo。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5320

瀏覽量
106565
gpu

gpu

+關注

關注
28

文章
4961

瀏覽量
131506
亞馬遜

亞馬遜

+關注

關注
8

文章
2699

瀏覽量
84729
kubernetes

kubernetes

+關注

關注
0

文章
248

瀏覽量
9090

原文標題：NVIDIA Dynamo 新增對亞馬遜云科技服務的支持，可大規模提供經濟高效的推理

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

NVIDIA Dynamo新增對亞馬遜云科技服務的支持

評論