女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探究超大Transformer語言模型的分布式訓練框架

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2021-10-20 09:25 ? 次閱讀

NVIDIA Megatron 是一個基于 PyTorch 的框架,用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐,探索這一框架如何助力大模型的預訓練計算。 上篇主要介紹了大模型訓練的發展趨勢、NVIDIA Megatron的模型并行設計,本篇將承接上篇的內容,解析Megatron 在NVIDIA DGX SuperPOD 上的實踐。

優化的分布式集群架構:NVIDIA DGX SuperPOD

有了高效的分布式訓練框架,自然也需要優化的分布式訓練集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個分布式集群的參考架構,最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs組建,旨在幫助AI 研究人員快速搭建一套強大、靈活、高效的系統,以滿足工業界日益復雜、多變的模型對計算資源不同程度的需求。尤其對于超大語言模型預訓練這一復雜場景,DGX SuperPOD 架構尤為重要。

DGX SuperPOD 采用模塊化的設計,支持不同規模大小的設計。一個標準的SuperPOD 由140 臺DGX A100和三層Infiniband 交換機通過胖樹結構全互聯起來。每臺DGX A100 配有8個200Gb/s 的高速計算網,并配有2個200Gb/s的高速存儲網,采用計算和存儲網絡分離的方案。

多個POD之間可以通過核心層交換機直連起來,可以支持多達560 臺DGX A100的互聯規模。

更多關于NVIDIA DGX SuperPOD 架構的詳細設計,請參閱下列連接中的白皮書:https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的實踐

基于DGX SuperPOD 的Megatron實踐在不同大小的模型上,都表現出了很好的計算效率。

模型從1.7B 到1T ,訓練規模從32 卡到3072 卡。

基于GPT-3 175B 模型的訓練,采用如下的配置:

128 臺 DGX A100,總共 1024張 A100

Tensor 并行度:8;Pipeline 并行度:16; 數據并行度:8

全局Batch size : 1536;Micro-batch size: 1

在如此大的訓練規模下,GPU 仍可達到44% 左右的計算效率,在規模和效率上,都遠遠超過已有的公開結果。

詳細內容請參考以下鏈接:

Megatron repro: https://github.com/nvidia/megatron-lm

GPT3-175B training scripts: https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

總結

1. 大模型是大勢所趨。

2. 大規模分布式訓練是訓練大模型的必須。

3. NVIDIA Megatron 是開源的、軟硬協同設計的訓練框架,專為Transformer-based的超大語言模型設計。

4. NVIDIA DGX SuperPOD 是開放的集群參考設計架構,專為大規模分布式訓練而準備。

5. Megatron 優化的Tensor模型并行:用于intra-transformer 層,可以高效地執行在HGX based的系統上。

6. Megatron優化的 Pipeline 模型并行:用于inter-transformer 層,可以有效地利用集群中多網卡的設計。

7. 數據并行的加持,可以擴展到更大規模、訓練更快。

8. GPT-3 175B 的大模型,在1024 張 A100上可達到44%左右的計算效率。

9. NVIDIA Megatron 的設計和實踐,已廣泛用于學術界和工業界。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7238

    瀏覽量

    90950
  • NVIDIA
    +關注

    關注

    14

    文章

    5232

    瀏覽量

    105715
  • 交換機
    +關注

    關注

    21

    文章

    2718

    瀏覽量

    101315
  • 分布式
    +關注

    關注

    1

    文章

    976

    瀏覽量

    75148

原文標題:NVIDIA Megatron:超大Transformer語言模型的分布式訓練框架 (二)

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    AI原生架構升級:RAKsmart服務器在超大規模模型訓練中的算力突破

    近年來,隨著千億級參數模型的崛起,AI訓練對算力的需求呈現指數級增長。傳統服務器架構在應對分布式訓練、高并發計算和顯存優化等場景時逐漸顯露瓶頸。而RAKsmart為
    的頭像 發表于 04-24 09:27 ?162次閱讀

    淺談工商企業用電管理的分布式儲能設計

    文章設計了一種新的用于工商業用電管理的分布式儲能系統。由于儲能系統硬件置換成本高,選擇在傳統儲能系統的硬件框架基礎上,對控制軟件進行優化設計,建立分布式儲能系統模型,分析發電量、儲電量
    的頭像 發表于 03-24 15:43 ?2167次閱讀
    淺談工商企業用電管理的<b class='flag-5'>分布式</b>儲能設計

    小白學大模型訓練語言模型的深度指南

    在當今人工智能飛速發展的時代,大型語言模型(LLMs)正以其強大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項研究中,科學家們為了深入了解如何高效地訓練大型
    的頭像 發表于 03-03 11:51 ?564次閱讀
    小白學大<b class='flag-5'>模型</b>:<b class='flag-5'>訓練</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型
    的頭像 發表于 02-10 09:37 ?330次閱讀

    分布式云化數據庫有哪些類型

    分布式云化數據庫有哪些類型?分布式云化數據庫主要類型包括:關系型分布式數據庫、非關系型分布式數據庫、新SQL分布式數據庫、以列方式存儲數據、
    的頭像 發表于 01-15 09:43 ?381次閱讀

    模型訓練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫,它支持在多種硬件配置上進行分布式訓練,包括 CPU、GPU、TPU 等。Accelerat
    的頭像 發表于 01-14 14:24 ?549次閱讀

    語言模型開發框架是什么

    語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發表于 12-06 10:28 ?443次閱讀

    分布式通信的原理和實現高效分布式通信背后的技術NVLink的演進

    的大小已經超出了單個 GPU 的范圍。所以就需要實現跨多個 GPU 的模型訓練,這種訓練方式就涉及到了分布式通信和 NVLink。 當談及分布式
    的頭像 發表于 11-18 09:39 ?1098次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實現高效<b class='flag-5'>分布式</b>通信背后的技術NVLink的演進

    分布式光纖測溫解決方案

    分布式光纖測溫解決方案
    的頭像 發表于 11-12 01:02 ?461次閱讀
    <b class='flag-5'>分布式</b>光纖測溫解決方案

    分布式光纖測溫是什么?應用領域是?

    分布式光纖測溫是一種先進的溫度測量技術,它利用光纖的拉曼散射原理進行溫度監測。以下是對分布式光纖測溫的詳細介紹: 一、基本原理 分布式光纖測溫的原理基于光纖的拉曼散射效應。當光纖某處的溫度發生變化
    的頭像 發表于 10-24 15:30 ?1057次閱讀
    <b class='flag-5'>分布式</b>光纖測溫是什么?應用領域是?

    分布式故障在線監測|高精度技術選用 行波特征 故診模型

    、高精度技術選用、行波特征及故障診斷模型的相關信息: 一、分布式故障在線監測: 1、工作原理:通過在監測對象(輸電線路)的不同位置分布式地安裝監測終端,實時采集監測對象的各種參數,如工頻電流、行波電流等。這些監
    的頭像 發表于 10-11 12:00 ?325次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自監督學習策略,在大量無標簽文本數據上學習
    發表于 08-02 11:03

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到
    的頭像 發表于 07-11 10:11 ?857次閱讀

    Transformer語言模型簡介與實現過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型
    的頭像 發表于 07-10 11:48 ?2797次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch
    的頭像 發表于 07-02 11:41 ?2404次閱讀