87午夜黄色,激情网站视频在线播放,好硬好爽好大

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐，探索這一框架如何助力大模型的預訓練計算。上篇主要介紹了大模型訓練的發展趨勢、NVIDIA Megatron的模型并行設計，本篇將承接上篇的內容，解析Megatron 在NVIDIA DGX SuperPOD 上的實踐。

優化的分布式集群架構：NVIDIA DGX SuperPOD

有了高效的分布式訓練框架，自然也需要優化的分布式訓練集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個分布式集群的參考架構，最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs組建，旨在幫助AI 研究人員快速搭建一套強大、靈活、高效的系統，以滿足工業界日益復雜、多變的模型對計算資源不同程度的需求。尤其對于超大語言模型預訓練這一復雜場景，DGX SuperPOD 架構尤為重要。

DGX SuperPOD 采用模塊化的設計，支持不同規模大小的設計。一個標準的SuperPOD 由140 臺DGX A100和三層Infiniband 交換機通過胖樹結構全互聯起來。每臺DGX A100 配有8個200Gb/s 的高速計算網，并配有2個200Gb/s的高速存儲網，采用計算和存儲網絡分離的方案。

多個POD之間可以通過核心層交換機直連起來，可以支持多達560 臺DGX A100的互聯規模。

更多關于NVIDIA DGX SuperPOD 架構的詳細設計，請參閱下列連接中的白皮書：https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的實踐

基于DGX SuperPOD 的Megatron實踐在不同大小的模型上，都表現出了很好的計算效率。

模型從1.7B 到1T ，訓練規模從32 卡到3072 卡。

基于GPT-3 175B 模型的訓練，采用如下的配置：

128 臺 DGX A100，總共 1024張 A100

Tensor 并行度：8；Pipeline 并行度：16；數據并行度：8

全局Batch size ： 1536；Micro-batch size： 1

在如此大的訓練規模下，GPU 仍可達到44% 左右的計算效率，在規模和效率上，都遠遠超過已有的公開結果。

詳細內容請參考以下鏈接：

Megatron repro： https://github.com/nvidia/megatron-lm

GPT3-175B training scripts： https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

總結

1. 大模型是大勢所趨。

2. 大規模分布式訓練是訓練大模型的必須。

3. NVIDIA Megatron 是開源的、軟硬協同設計的訓練框架，專為Transformer-based的超大語言模型設計。

4. NVIDIA DGX SuperPOD 是開放的集群參考設計架構，專為大規模分布式訓練而準備。

5. Megatron 優化的Tensor模型并行：用于intra-transformer 層，可以高效地執行在HGX based的系統上。

6. Megatron優化的 Pipeline 模型并行：用于inter-transformer 層，可以有效地利用集群中多網卡的設計。

7. 數據并行的加持，可以擴展到更大規模、訓練更快。

8. GPT-3 175B 的大模型，在1024 張 A100上可達到44%左右的計算效率。

9. NVIDIA Megatron 的設計和實踐，已廣泛用于學術界和工業界。

編輯：jq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
7238

瀏覽量
90950
NVIDIA

NVIDIA

+關注

關注
14

文章
5232

瀏覽量
105715
交換機

交換機

+關注

關注
21

文章
2718

瀏覽量
101315
分布式

分布式

+關注

關注
1

文章
976

瀏覽量
75148

原文標題：NVIDIA Megatron：超大Transformer語言模型的分布式訓練框架 (二)

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

探究超大Transformer語言模型的分布式訓練框架

評論