女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA DGX SuperPOD訓練SOTA大規(guī)模視覺模型

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-30 10:17 ? 次閱讀

最近的研究表明,在語義分割和目標檢測等計算機視覺任務中,大型 transformer 模型可以實現(xiàn)或提高 SOTA 。然而,與只能使用標準公共數(shù)據(jù)集的卷積網(wǎng)絡模型不同,它需要一個更大的專有數(shù)據(jù)集。

VOLO 模型體系結(jié)構(gòu)

新加坡 SEA AI 實驗室最近的項目 VOLO ( Vision Outlooker )展示了一種高效且可擴展的 Vision transformer 模式體系結(jié)構(gòu),該體系結(jié)構(gòu)僅使用 ImageNet-1K 數(shù)據(jù)集就大大縮小了差距。

VOLO 引入了一種新穎的 outlook attention ,并提出了一種簡單而通用的架構(gòu),稱為 Vision Outlooker 。與自我關注不同,自我關注側(cè)重于粗略級別的全局依賴關系建模, outlook 關注有效地將更精細級別的功能和上下文編碼為標記。這對識別性能極為有利,但在很大程度上被自我注意所忽視。

實驗表明, VOLO 在 ImageNet-1K 分類上達到了 87.1% 的 top-1 精度,這是第一個在這個競爭基準上超過 87% 精度的模型,無需使用任何額外的訓練數(shù)據(jù)。

pYYBAGKUKW2AJVYrAAB3gWHBaks500.png

圖 1 :不同尺寸級別的 VOLO 模型的 Top-1 精度

此外,經(jīng)過預訓練的 VOLO 可以很好地轉(zhuǎn)移到下游任務,例如語義切分。

poYBAGKUKXeACmrGAABDH4zJnn8426.png

表 1 :對比 ViT 、 CNN 基線模型概述

盡管 VOLO 模型顯示出了出色的計算效率,但訓練 SOTA 性能模型并非易事。

在這篇文章中,我們將介紹我們在 NVIDIA DGX SuperPOD 上基于 NVIDIA ML 軟件堆棧和 Infiniband 群集技術培訓 VOLO 模型所獲得的技術和經(jīng)驗。

培訓方法

培訓 VOLO 模型需要考慮培訓策略、基礎設施和配置規(guī)劃。在本節(jié)中,我們將討論此解決方案中應用的一些技術。

培訓策略

始終使用原始 ImageNet 樣本質(zhì)量數(shù)據(jù)訓練模型,并在細粒度上執(zhí)行神經(jīng)網(wǎng)絡( NN )架構(gòu)搜索,使理論上的研究更加鞏固。然而,這需要計算資源預算的很大一部分。

在這個項目的范圍內(nèi),我們采用了一種粗粒度的訓練方法,它不像細粒度的方法那樣能夠訪問盡可能多的神經(jīng)網(wǎng)絡體系結(jié)構(gòu)。然而,它能夠以更少的時間和更低的資源預算顯示 EIOF 。在這種替代策略中,我們首先使用分辨率較低的圖像樣本訓練潛在的神經(jīng)網(wǎng)絡候選,然后使用高分辨率圖像進行微調(diào)。

在早期的工作中,這種方法在降低邊際模型性能損失的計算成本方面被證明是有效的。

基礎設施

實際上,我們在本次培訓中使用了兩種類型的集群:

一個用于基礎模型預訓練,它是一個基于 NVIDIA DGX A100 的 DGX 吊艙,由使用 NVIDIA Mellanox HDR Infiniband 網(wǎng)絡集群的 5 個 NVIDIA DGX A100 系統(tǒng)組成。

一個用于微調(diào),即 NVIDIA DGX SuperPOD ,由 DGX A100 系統(tǒng)和 NVIDIA Mellanox HDR Infiniband 網(wǎng)絡組成。

poYBAGKUKX-AFx_KAABpOQFnrDA798.png

圖 2 :本項目使用的基于 NVIDIA 技術的軟件棧

軟件基礎設施在這一過程中也發(fā)揮了重要作用。圖 2 顯示,除了基礎的標準深度學習優(yōu)化 CUDA 庫(如 cuDNN 和 cuBLAS )外,我們還廣泛利用 NCCL 、 enroot 、 PyXis 、 APEX 和 DALI 來實現(xiàn)培訓性能的亞線性可擴展性。

DGX A100 POD 集群主要用于使用較小尺寸圖像樣本的基礎模型預訓練。這是因為基本模型預訓練的內(nèi)存限制較少,可以利用 NVIDIA A100 GPU 的計算能力優(yōu)勢。

相比之下,微調(diào)是在 NVIDIA DGX-2 的 NVIDIA DGX SuperPOD 上執(zhí)行的,因為微調(diào)過程使用更大的圖像,每臺計算能力需要更多的內(nèi)存。

培訓配置

需要引入句子

poYBAGKUKYiASGv4AAArAcln6GA209.png

表 2 :模型設置(對于所有模型,批大小設置為 1024 )

我們在 ImageNet 數(shù)據(jù)集上評估了我們提出的 VOLO 模型。在培訓期間,沒有使用額外的培訓數(shù)據(jù)。我們的代碼基于 PyTorch 、令牌標記工具箱和 PyTorch 圖像模型( timm )。我們使用帶有標記的 LV-ViT-S 模型作為基線。

安裝說明

我們使用了 AdamW 優(yōu)化器和線性學習率縮放策略 LR = LR基礎x Batch \ u 大小/ 1024 和 5 × 10 ? 2 先前工作建議的重量衰減率,表 3 中給出了所有 VOLO 模型的 LRbase 。

使用隨機深度。

我們在 ImageNet 數(shù)據(jù)集上訓練了 300 個時代的模型。

對于數(shù)據(jù)擴充方法,我們使用 CutOut 、 RandAug 和 MixToken 的標記目標。

我們沒有使用 MixUp 或 CutMix ,因為它們與 MixToken 沖突。

訓練前

在本節(jié)中,我們以 VOLO-D5 為例來演示如何訓練模型。

圖 3 顯示,使用單個 DGX A100 的 VOLO-D5 的訓練吞吐量約為 500 圖像/秒。據(jù)估計,完成一個完整的預訓練周期大約需要 170 個小時,這需要使用 ImageNet-1K 進行 300 個階段。這相當于 100 萬張圖片的一周。

為了加快速度,基于一個由五個 DGX A100 節(jié)點組成的簡單參數(shù)服務器架構(gòu)集群,我們大致實現(xiàn)了 2100 個圖像/秒的吞吐量,這可以將預訓練時間減少到約 52 小時。

poYBAGKUKZSAczC2AADXvu4-hcs150.png

圖 3 :D1 ~ D5 模型在一個 DGX A100 上跨一個完整歷元的訓練吞吐量

VOLO-D5 模型預訓練可以使用以下代碼示例在單個節(jié)點上啟動:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 ./distributed_train.sh 8 /path/to/imagenet \ --model volo_d5 --img-size 224 \ -b 44 --lr 1.0e-4 --drop-path 0.75 --apex-amp \ --token-label --token-label-size 14 --token-label-data /path/to/token_label_data

對于 MNMG 培訓案例,它需要將培訓集群詳細信息作為命令行輸入的一部分。首先,我們根據(jù)節(jié)點和集群架構(gòu)設置 CPU 、 MEM 、 IB 綁定。預訓練階段的集群是 DGX A100 POD ,每個 CPU 插槽有四個 NUMA 域,每個 A100 GPU 有一個 IB 端口,因此我們將每個列組綁定到 NUMA 節(jié)點中距離其 GPU 最近的所有 CPU 核。

對于內(nèi)存綁定,我們將每個列組綁定到最近的 NUMA 節(jié)點。

對于 IB 綁定,我們?yōu)槊總€ GPU 綁定一個 IB 卡,或者盡可能接近這樣的設置。

由于 VOLO 模型培訓基于 PyTorch ,并且簡單地利用了默認的 PyTorch 分布式培訓方法,因此我們的多節(jié)點多 GPU 培訓基于一個簡單的參數(shù)服務器架構(gòu),該架構(gòu)適合 NVIDIA DGX SuperPOD 的 fat 樹網(wǎng)絡拓撲。

為了簡化調(diào)度,分配節(jié)點列表中的第一個節(jié)點始終用作參數(shù)服務器和工作節(jié)點,而所有其他節(jié)點都是工作節(jié)點。為了避免潛在的存儲 I / O 開銷,數(shù)據(jù)集、所有代碼、中間/里程碑檢查點和結(jié)果都保存在一個基于 DDN 的高性能分布式存儲后端。它們通過 100G NVIDIA Mellanox EDR Infiniband 網(wǎng)絡裝載到所有工作節(jié)點。

為了加速數(shù)據(jù)預處理和流水線數(shù)據(jù)加載, NVIDIA DALI 配置為每個 GPU 進程使用一個專用數(shù)據(jù)加載程序。

poYBAGKUKZqAPWzCAAB3GeMTJdA484.png

圖 4 :訓練前階段訓練吞吐量相對于 A100 和 V100 的速度提高 GPU

微調(diào)

使用以下代碼示例,在單個節(jié)點上運行 VOLO-D5 模型微調(diào)非常簡單:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 ./distributed_train.sh 8 /path/to/imagenet \ --model volo_d5 --img-size 512 \ -b 4 --lr 2.3e-5 --drop-path 0.5 --apex-amp --epochs 30 \ --weight-decay 1.0e-8 --warmup-epochs 5 --ground-truth \ --token-label --token-label-size 24 --token-label-data /path/to/token_label_data \ --finetune /path/to/pretrained_224_volo_d5/

如前所述,由于用于微調(diào)的圖像大小遠遠大于預訓練階段使用的圖像大小,因此必須相應地減小批量大小。將工作負載放入 GPU 內(nèi)存中,這使得進一步擴展訓練到更大數(shù)量的 GPU 并行任務是必須的。

poYBAGKUKaGATw-wAACWmcdkF3Y359.png

圖 5 :針對 A100 和 V100 的數(shù)量提高微調(diào)階段訓練吞吐量 GPU

大多數(shù)微調(diào)配置類似于預訓練階段。

結(jié)論

在這篇文章中,我們展示了在大規(guī)模人工智能超級計算機上訓練 SOTA 大規(guī)模視覺 transformer 模型(如 VOLO \ u D5 )的主要技術和程序,如基于 NVIDIA DGX A100 的 DGX SuperPOD 。經(jīng)過訓練的 VOLO \ u D5 模型在圖像分類模型排名中取得了最佳的 Top-1 精度,無需使用 ImageNet-1k 數(shù)據(jù)集以外的任何其他數(shù)據(jù)。

這項工作的代碼資源(包括用于運行實驗的 Docker 映像和 Slurm 調(diào)度程序腳本)在 sail-sg/volo GitHub repo 中是開源的,以便將來可以在 VOLO \ u D5 上進行更廣泛的研究。

未來,我們希望進一步擴展這項工作,以培訓更智能、自我監(jiān)督、更大規(guī)模的模型,使用更大的公共數(shù)據(jù)集和更現(xiàn)代化的基礎設施,例如, NVIDIA DGX SuperPOD 和 NVIDIA H100 GPU。

關于作者

Terry Yin 目前是 NVIDIA AI 技術中心的高級深度學習解決方案架構(gòu)師。他分別于 2009 年和 2012 年在中國華南理工大學和韓國延世大學獲得學士和碩士學位。 2012 年至 2016 年,他是南洋理工大學新加坡分校的研究員,期間他獲得了東盟 ICT 金獎、數(shù)據(jù)中心動態(tài)獎、 ACM SIGCOMM 2013 年旅游獎和 GTC 2015 年演講者獎。他的研究興趣包括云計算系統(tǒng)、深度學習系統(tǒng)、高性能計算系統(tǒng)等。

Yuan Lin 是 NVIDIA 編譯團隊的首席工程師。他對所有使程序更高效、編程更高效的技術感興趣。在加入 NVIDIA 之前,他是 Sun Microsystems 的一名高級職員工程師。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5238

    瀏覽量

    105753
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4909

    瀏覽量

    130636
  • 人工智能
    +關注

    關注

    1804

    文章

    48677

    瀏覽量

    246346
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA發(fā)布AI優(yōu)先DGX個人計算系統(tǒng)

    NVIDIA 宣布,多家行業(yè)領先系統(tǒng)制造商將打造 NVIDIA DGX Spark。
    的頭像 發(fā)表于 05-22 09:39 ?154次閱讀

    ServiceNow攜手NVIDIA構(gòu)建150億參數(shù)超級助手

    Apriel Nemotron 15B 開源大語言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama Nemotron 開放數(shù)據(jù)集以及 ServiceNow 專業(yè)領域數(shù)據(jù)創(chuàng)建而成,并在
    的頭像 發(fā)表于 05-12 15:37 ?214次閱讀

    AI原生架構(gòu)升級:RAKsmart服務器在超大規(guī)模模型訓練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務器架構(gòu)在應對分布式訓練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?174次閱讀

    NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

    開發(fā)者、研究人員、數(shù)據(jù)科學家和學生,在臺式電腦上對大模型進行原型設計、微調(diào)和推理。用戶可以在本地運行這些模型,或?qū)⑵洳渴鹪?NVIDIA DGX Cloud 或任何其他加速云或數(shù)據(jù)中
    的頭像 發(fā)表于 03-20 18:59 ?771次閱讀
    <b class='flag-5'>NVIDIA</b> GTC2025 亮點  <b class='flag-5'>NVIDIA</b>推出 <b class='flag-5'>DGX</b> Spark個人AI計算機

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    DGX? 個人 AI 超級計算機。 ? DGX Spark(前身為 Project DIGITS)支持 AI 開發(fā)者、研究人員、數(shù)據(jù)科學家和學生,在臺式電腦上對大模型進行原型設計、微調(diào)和推理。用
    發(fā)表于 03-19 09:59 ?269次閱讀
       <b class='flag-5'>NVIDIA</b> 宣布推出 <b class='flag-5'>DGX</b> Spark 個人 AI 計算機

    Evo 2 AI模型可通過NVIDIA BioNeMo平臺使用

    Evo 2 是一個強大的新型 AI 模型,它基于亞馬遜云科技(AWS)上的 NVIDIA DGX Cloud 構(gòu)建而成,能夠幫助用戶深入了解不同物種的 DNA、RNA 和蛋白質(zhì)。
    的頭像 發(fā)表于 02-28 09:57 ?612次閱讀

    NVIDIA Isaac Sim滿足模型的多樣化訓練需求

    光輪智能借助?NVIDIA Isaac Sim,通過 3D 生成與建模技術構(gòu)建高度逼真的虛擬場景,將現(xiàn)實世界的復雜場景抽象并轉(zhuǎn)化為高質(zhì)量的訓練數(shù)據(jù)源,從而更有效地滿足模型的多樣化訓練
    的頭像 發(fā)表于 11-23 14:55 ?1120次閱讀

    使用EMBark進行大規(guī)模推薦系統(tǒng)訓練Embedding加速

    推薦系統(tǒng)是互聯(lián)網(wǎng)行業(yè)的核心系統(tǒng),如何高效訓練推薦系統(tǒng)是各公司關注的核心問題。目前,推薦系統(tǒng)基本上都是基于深度學習的大規(guī)模 ID 類模型模型包含數(shù)十億甚至數(shù)百億級別的 ID 特征,典型
    的頭像 發(fā)表于 10-31 14:46 ?609次閱讀
    使用EMBark進行<b class='flag-5'>大規(guī)模</b>推薦系統(tǒng)<b class='flag-5'>訓練</b>Embedding加速

    NVIDIA助力丹麥發(fā)布首臺AI超級計算機

    這臺丹麥最大的超級計算機由該國政府與丹麥 AI 創(chuàng)新中心共同建設,是一臺 NVIDIA DGX SuperPOD 超級計算機。
    的頭像 發(fā)表于 10-27 09:42 ?777次閱讀

    AI大模型訓練數(shù)據(jù)來源分析

    學術機構(gòu)、政府組織或企業(yè)公開發(fā)布,涵蓋了各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務的大規(guī)模圖像數(shù)據(jù)集。 Common Crawl :提供了大量的網(wǎng)頁抓取數(shù)據(jù)以供自然語言處理模型訓練
    的頭像 發(fā)表于 10-23 15:32 ?3127次閱讀

    NVIDIA NIM助力企業(yè)高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺集成了 NVIDIA NIM,將允許用戶通過 API 調(diào)用來大規(guī)模地部署大語言模型
    的頭像 發(fā)表于 10-10 09:49 ?670次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成式 AI
    的頭像 發(fā)表于 09-06 14:59 ?606次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>幫助開發(fā)者生成合成<b class='flag-5'>訓練</b>數(shù)據(jù)

    人臉識別模型訓練流程

    人臉識別模型訓練流程是計算機視覺領域中的一項重要技術。本文將詳細介紹人臉識別模型訓練流程,包括數(shù)據(jù)準備、
    的頭像 發(fā)表于 07-04 09:19 ?1745次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。預訓練
    的頭像 發(fā)表于 07-03 18:20 ?4131次閱讀

    大規(guī)模語言模型:從理論到實踐】- 閱讀體驗

    再次感謝電子發(fā)燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制 的心得體會。 雖然注意力機制可以顯著提高模型處理長序列數(shù)據(jù)的能力,但這也帶來了計算成本的增加。在大型模型
    發(fā)表于 06-07 14:44