本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU
以及亞馬遜云科技的 EFA 來訓練其
最大的新一代大語言模型(LLM)。

大語言模型的一切都很龐大——巨型模型是在數千顆 NVIDIA GPU 和海量的數據集上所訓練而成。
不過這可能會給想要使用生成式 AI 的企業帶來很多巨大的挑戰。NVIDIA NeMo(一個用于構建、自定義和運行 LLM 的框架)能夠幫助企業克服上述挑戰。
亞馬遜云科技(AWS)有一支由資深科學家和開發者組成的團隊,致力于為 Amazon Bedrock(一項用于基礎模型的生成式 AI 服務)創建 Amazon Titan 基礎模型。該團隊在過去幾個月中一直在使用 NVIDIA NeMo。
亞馬遜云科技高級應用科學家 Leonard Lausen 表示:“我們使用 NeMo 的一大原因是它具有可擴展性,其優化功能使我們能夠以較高的 GPU 利用率運行,同時能夠擴展到更大的集群,進而能夠更快地訓練出模型,并向客戶交付。”
實現真正的大規模訓練
NeMo 的并行技術可實現高效的大規模 LLM 訓練。當與亞馬遜云科技的 Elastic Fabric Adapter(EFA)配合使用時,團隊可以將 LLM 擴展到多顆 GPU 上,從而加快訓練速度。
EFA 為亞馬遜云科技客戶提供了一個 UltraCluster 聯網基礎設施,可直接連接 1 萬多顆 GPU,并使用 NVIDIA GPUDirect 繞過操作系統和 CPU。
這一結合使亞馬遜云科技的科學家們能夠提供出色的模型質量,這是只依靠其他數據并行方法無法大規模實現的。
通用框架
Lausen 表示:“NeMo 的靈活性支持亞馬遜云科技根據新的 Titan 模型、數據集和基礎設施的具體情況來定制訓練軟件。
亞馬遜云科技的創新成果包括從 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式傳輸。Lausen 表示:“由于 NeMo 本身就是基于標準化 LLM 訓練管線組件的常用程序庫(如 PyTorch Lightning)所構建的,因此整合這些改進很容易。”
亞馬遜云科技和 NVIDIA 的共同目標是將雙方的合作經驗融入到 NVIDIA NeMo 等產品和 Amazon Titan 等服務中,最終造福客戶。
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。掃描下方海報二維碼,立即注冊 GTC 大會。
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3922瀏覽量
93115
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
英偉達GTC2025亮點 NVIDIA推出Cosmos世界基礎模型和物理AI數據工具的重大更新
從Open Model Zoo下載的FastSeg大型公共預訓練模型,無法導入名稱是怎么回事?
亞馬遜轉向Trainium芯片,全力投入AI模型訓練
亞馬遜追加40億美元投資,深化與Anthropic戰略合作
NVIDIA Isaac Sim滿足模型的多樣化訓練需求
NVIDIA助力提供多樣、靈活的模型選擇
NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

新款Nvidia Titan GPU正在開發中?或將擊敗未發布的RTX 5090

llm模型訓練一般用什么系統
預訓練模型的基本原理和應用
英偉達開源Nemotron-4 340B系列模型,助力大型語言模型訓練
NVIDIA Omniverse 將為全新 OpenPBR 材質模型提供原生支持

評論