女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA推理平臺(tái)和全棧方法提供最佳性能

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Dave Salvator ? 2022-04-08 16:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

三個(gè)趨勢(shì)繼續(xù)推動(dòng)著人工智能推理市場(chǎng)的訓(xùn)練和推理:不斷增長(zhǎng)的數(shù)據(jù)集,日益復(fù)雜和多樣化的網(wǎng)絡(luò),以及實(shí)時(shí)人工智能服務(wù)。 MLPerf 推斷 0 。 7 是行業(yè)標(biāo)準(zhǔn) AI 基準(zhǔn)測(cè)試的最新版本,它解決了這三個(gè)趨勢(shì),為開(kāi)發(fā)人員和組織提供了有用的數(shù)據(jù),以便為數(shù)據(jù)中心和邊緣的平臺(tái)選擇提供信息。

基準(zhǔn)測(cè)試擴(kuò)展了推薦系統(tǒng)、語(yǔ)音識(shí)別醫(yī)學(xué)成像系統(tǒng)。它已經(jīng)升級(jí)了自然語(yǔ)言處理( NLP )的工作負(fù)載,以進(jìn)一步挑戰(zhàn)測(cè)試中的系統(tǒng)。下表顯示了當(dāng)前的一組測(cè)試。

表 1 。 MLPerf 推斷 0 。 7 工作負(fù)載。

*新工作量

此外,針對(duì)數(shù)據(jù)中心和邊緣的多個(gè)場(chǎng)景進(jìn)行了基準(zhǔn)測(cè)試:

圖 1 。 MLPerf 推理 0 。 7 平臺(tái)類別和場(chǎng)景。

NVIDIA 輕松贏得了數(shù)據(jù)中心和邊緣類別的所有測(cè)試和場(chǎng)景。雖然這種出色的性能大部分可以追溯到我們的 GPU 體系結(jié)構(gòu),但更多的是與我們的工程師所做的出色的優(yōu)化工作有關(guān),現(xiàn)在開(kāi)發(fā)人員社區(qū)可以使用這些工作。

在這篇文章中,我深入研究了導(dǎo)致這些優(yōu)秀結(jié)果的因素,包括軟件優(yōu)化以提高執(zhí)行效率,多實(shí)例 GPU ( MIG )使一個(gè) A100GPU 最多可以作為七個(gè)獨(dú)立的 GPUs 運(yùn)行,以及 Triton 推斷服務(wù)器 支持在數(shù)據(jù)中心規(guī)模輕松部署推理應(yīng)用程序。

檢查的優(yōu)化

NVIDIA GPUs 支持 int8 和 FP16 的高吞吐量精確推斷,因此您可以在默認(rèn)情況下獲得出色的推斷性能,而無(wú)需任何量化工作。然而,在保持精度的同時(shí)將網(wǎng)絡(luò)量化到 int8 精度是最高的性能選項(xiàng),可以使數(shù)學(xué)吞吐量提高 2 倍。

在本次提交的資料中,我們發(fā)現(xiàn) FP16 需要滿足 BERT 的最高精度目標(biāo)。對(duì)于這個(gè)工作負(fù)載,我們使用了我們的 FP16 張量核心。在其他工作負(fù)載中,我們使用 int8 精度達(dá)到了最高精度目標(biāo)( DLRM 和 3D Unet 的 FP32 的 99 。 9% 以上)。此外, int8 提交的性能得益于 TensorRT 7 。 2 軟件版本中的全面加速。

許多推斷工作負(fù)載需要大量的預(yù)處理工作。 NVIDIA 開(kāi)源 DALI 庫(kù)旨在加速對(duì) GPU 的預(yù)處理并避免 CPU 瓶頸。在本文中,我們使用 DALI 實(shí)現(xiàn)了 RNN-T 基準(zhǔn)的 wav 到 mel 的轉(zhuǎn)換。

NLP 推斷對(duì)具有特定序列長(zhǎng)度(輸入中的單詞數(shù))的輸入文本進(jìn)行操作。對(duì)于批處理推理,一種方法是將所有輸入填充到相同的序列長(zhǎng)度。但是,這會(huì)增加計(jì)算開(kāi)銷。 TensorRT 7 。 2 增加了三個(gè)插件來(lái)支持 NLP 的可變序列長(zhǎng)度處理。我們提交的 BERT 使用這些插件獲得了超過(guò) 35% 的端到端性能。

加速稀疏矩陣處理是 A100 中引入的一種新功能。稀疏化網(wǎng)絡(luò)確實(shí)需要重新訓(xùn)練和重新校準(zhǔn)權(quán)值才能正常工作,因此稀疏性在封閉類別中不是可用的優(yōu)化,但在開(kāi)放類別中是允許的。我們的開(kāi)放類別 BERT 提交使用稀疏性實(shí)現(xiàn)了 21% 的吞吐量提高,同時(shí)保持了與封閉提交相同的準(zhǔn)確性。

了解 MLPerf 中的 MIG

MIG 內(nèi)存。 MIG 允許您選擇是將 A100 作為單個(gè)大的 GPU 操作,還是將多個(gè)較小的 GPU 作為一個(gè)單獨(dú)的大型 GPU 來(lái)運(yùn)行,每個(gè)小的 GPU 可以在它們之間隔離的情況下為不同的工作負(fù)載提供服務(wù)。圖 2 顯示了將此技術(shù)用于測(cè)試的 MLPerf 結(jié)果。

圖 2 。 MIG 與完整 T4 相比的推理性能。

圖 2 比較了單個(gè) MIG 實(shí)例與完整的 T4GPU 實(shí)例的邊緣脫機(jī)性能,因?yàn)?A100 最多可支持七個(gè) MIG 實(shí)例。您可以看到,超過(guò)四個(gè) MIG 測(cè)試結(jié)果得分高于完整的 T4GPU 。這對(duì)應(yīng)用程序意味著,您可以加載一個(gè)包含多個(gè)網(wǎng)絡(luò)和應(yīng)用程序的單個(gè) A100 ,并以與 T4 相同或更好的性能運(yùn)行每個(gè)網(wǎng)絡(luò)和應(yīng)用程序。這樣可以減少部署的服務(wù)器數(shù)量,釋放機(jī)架空間,并降低能耗。此外,在單個(gè) A100 上同時(shí)運(yùn)行多個(gè)網(wǎng)絡(luò)有助于保持 GPU 的高利用率,因此基礎(chǔ)設(shè)施管理人員可以優(yōu)化使用已部署的計(jì)算資源。

Triton 推斷服務(wù)器

在一個(gè)網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練和優(yōu)化之后,它就可以部署了,但這并不像打開(kāi)交換機(jī)那么簡(jiǎn)單。在一個(gè)以人工智能為動(dòng)力的服務(wù)上線之前,有幾個(gè)挑戰(zhàn)需要解決。這包括提供適當(dāng)數(shù)量的服務(wù)器來(lái)維護(hù) sla ,并確保在 AI 基礎(chǔ)設(shè)施上運(yùn)行的所有服務(wù)都有良好的用戶體驗(yàn)。然而,“正確的數(shù)字”可能會(huì)隨著時(shí)間的推移或由于工作量需求的突然變化而改變。理想的解決方案還可以實(shí)現(xiàn)負(fù)載平衡,從而使基礎(chǔ)設(shè)施得到最佳利用,但不會(huì)出現(xiàn)超額訂閱。此外,一些管理者希望在單個(gè) GPUs 上運(yùn)行多個(gè)網(wǎng)絡(luò)。 Triton 推斷服務(wù)器解決了這些挑戰(zhàn)和其他問(wèn)題,使基礎(chǔ)設(shè)施管理人員更容易部署和維護(hù)負(fù)責(zé)提供人工智能服務(wù)的服務(wù)器群。

在這一輪中,我們也使用 Triton 推理服務(wù)器提交了結(jié)果,這簡(jiǎn)化了人工智能模型在生產(chǎn)中的大規(guī)模部署。這個(gè)開(kāi)源推理服務(wù)軟件允許團(tuán)隊(duì)從任何框架( TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 運(yùn)行時(shí)或自定義框架)部署經(jīng)過(guò)訓(xùn)練的 AI 模型。它們還可以從本地存儲(chǔ)、 Google 云平臺(tái)或 Amazon S3 部署在任何基于 GPU – 或 CPU 的基礎(chǔ)設(shè)施(云、數(shù)據(jù)中心或邊緣)上。

圖 3 。 Triton 推斷服務(wù)器與 Kubernetes 完全集成。

Triton ?聲波風(fēng)廓線儀也可作為 Docker 容器提供,是為基于微服務(wù)的應(yīng)用而設(shè)計(jì)的。 Triton ?聲波風(fēng)廓線儀與 Kubernetes 緊密集成,實(shí)現(xiàn)動(dòng)態(tài)負(fù)載平衡,保證所有網(wǎng)絡(luò)推理操作順利進(jìn)行。 Triton ?聲波風(fēng)廓線儀的 GPU 指標(biāo)幫助 Kubernetes 將推斷工作轉(zhuǎn)移到可用的 GPU 上,并在需要時(shí)擴(kuò)展到數(shù)百個(gè) GPUs 。新的 Triton ?聲波風(fēng)廓線儀 2 。 3 支持使用 KFServing 的無(wú)服務(wù)器推斷、 Python 自定義后端、用于會(huì)話式人工智能的解耦推理、支持 A100MIG 以及 Azure ML 和 DeepStream 5 。 0 集成。

圖 4 顯示了 Triton ?聲波風(fēng)廓線儀與運(yùn)行 A100 定制推理服務(wù)解決方案相比的總體效率,這兩種配置都使用 TensorRT 運(yùn)行。

圖 4 。 Triton ?聲波風(fēng)廓線儀在 MLPerf 推理 0 。 7 結(jié)果中提供了與高度定制的推理服務(wù)實(shí)現(xiàn)幾乎相同的性能。

Triton ?聲波風(fēng)廓線儀的效率很高,在這五個(gè)網(wǎng)絡(luò)中提供同等或接近它的性能。為了提供這樣的性能,該團(tuán)隊(duì)對(duì) Triton ?聲波風(fēng)廓線儀進(jìn)行了許多優(yōu)化,例如用于與應(yīng)用程序進(jìn)行低延遲通信的新的輕量級(jí)數(shù)據(jù)結(jié)構(gòu)、用于改進(jìn)動(dòng)態(tài)批處理的批處理數(shù)據(jù)加載以及用于 TensorRT 后端的 CUDA 圖形以獲得更高的推理性能。這些增強(qiáng)功能可作為 20 。 09 Triton ?聲波風(fēng)廓線儀集裝箱 的一部分提供給每個(gè)應(yīng)用程序。除此之外, Triton ?聲波風(fēng)廓線儀還簡(jiǎn)化了部署,無(wú)論是在本地還是在云端。這使得所有網(wǎng)絡(luò)推斷都能順利進(jìn)行,即使在意外的需求高峰來(lái)襲時(shí)也是如此。

加速推理應(yīng)用程序

考慮到驅(qū)動(dòng)人工智能推理的持續(xù)趨勢(shì), NVIDIA 推理平臺(tái)和全棧方法提供了最佳性能、最高通用性和最佳可編程性, MLPerf 推理 0 。 7 測(cè)試性能證明了這一點(diǎn)。現(xiàn)在,您和開(kāi)發(fā)人員社區(qū)的其他成員都可以使用這些成果,主要是以開(kāi)源軟件的形式。此外, TensorRT 和 Triton 推理服務(wù)器可從 NVIDIA NGC 免費(fèi)獲得,以及預(yù)訓(xùn)練模型、深度學(xué)習(xí)框架、行業(yè)應(yīng)用框架和頭盔圖。 A100GPU 已經(jīng)證明了其充分的推理能力。隨著完整的 NVIDIA 推理平臺(tái), A100GPU 已經(jīng)準(zhǔn)備好迎接最嚴(yán)峻的人工智能挑戰(zhàn)。

關(guān)于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集團(tuán)的高級(jí)產(chǎn)品營(yíng)銷經(jīng)理,專注于超規(guī)模、深度學(xué)習(xí)和推理。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5308

    瀏覽量

    106340
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49007

    瀏覽量

    249274
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA加速代理式AI應(yīng)用落地

    在近期舉辦的 AWS 中國(guó)峰會(huì)上,NVIDIA 聚焦于“NVIDIA 加速代理式 AI 應(yīng)用落地”,深入探討了代理式 AI (Agentic AI) 技術(shù)的前沿發(fā)展以及在企業(yè)級(jí)應(yīng)用
    的頭像 發(fā)表于 07-14 11:41 ?378次閱讀

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    ,為實(shí)際應(yīng)用提供了有益的參考。 未來(lái),我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計(jì)算資源的需求,提高深度學(xué)習(xí)模型在實(shí)際應(yīng)用中的性能
    發(fā)表于 07-03 19:43

    NVIDIA技術(shù)助力歐洲廠商推出機(jī)器人系統(tǒng)與平臺(tái)

    基于 NVIDIA 安全的機(jī)器人開(kāi)發(fā)平臺(tái),Agile?Robots、Humanoid、Neura?Robotics、Universal Robots、Vorwerk?和?Wande
    的頭像 發(fā)表于 06-16 13:54 ?567次閱讀

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 開(kāi)源六軸機(jī)械臂產(chǎn)品

    全球80多個(gè)國(guó)家和地區(qū)。 近日,大象機(jī)器人聯(lián)合進(jìn)迭時(shí)空推出全球首款RISC-V開(kāi)源六軸機(jī)器臂“myCobot 280 RISC-V”,為開(kāi)發(fā)者打造全新的機(jī)器人開(kāi)源創(chuàng)新平臺(tái)。 “myCobot 280
    發(fā)表于 04-25 17:59

    英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Enterprise 軟件平臺(tái)之間的集成,將使 160 多個(gè) AI 工具和 100 多個(gè) NVIDIA NIM 微服務(wù)通過(guò) OCI 控制臺(tái)以原生方式提供。此外,Oracle 和 NVIDIA
    的頭像 發(fā)表于 03-21 12:01 ?696次閱讀
    英偉達(dá)GTC2025亮點(diǎn):Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業(yè)加速代理式AI<b class='flag-5'>推理</b>

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Blackwell Ultra 開(kāi)啟 AI 推理新時(shí)代

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Blackwell Ultra 開(kāi)啟 AI 推理新時(shí)代
    的頭像 發(fā)表于 03-20 15:35 ?722次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?641次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    Oracle Cloud Infrastructure (OCI) 與 NVIDIA AI Enterprise 軟件平臺(tái)之間的集成,將使 160 多個(gè) AI 工具和 100 多個(gè) NVIDIA NIM? 微服務(wù)通過(guò) OCI
    發(fā)表于 03-19 15:24 ?355次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)加速代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    NVIDIA 后訓(xùn)練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業(yè)務(wù)就緒型基礎(chǔ) 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發(fā)表于 03-19 09:31 ?232次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開(kāi)放<b class='flag-5'>推理</b> AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI <b class='flag-5'>平臺(tái)</b>

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?708次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b><b class='flag-5'>平臺(tái)</b>提高AI<b class='flag-5'>推理性能</b>

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?859次閱讀

    基于飛騰平臺(tái)的國(guó)內(nèi)首家信創(chuàng)安檢管理系統(tǒng)投入試運(yùn)行

    基于飛騰平臺(tái)的國(guó)內(nèi)首家信創(chuàng)安檢管理系統(tǒng)在哈爾濱太平國(guó)際機(jī)場(chǎng)初步建設(shè)完畢,進(jìn)入試運(yùn)行驗(yàn)證階段,測(cè)試通道已面向旅客開(kāi)放,期間運(yùn)行穩(wěn)定,標(biāo)志著全國(guó)首個(gè)
    的頭像 發(fā)表于 12-04 16:23 ?855次閱讀

    NVIDIA將亮相亞馬遜云科技re:Invent 2024

    12 月 2 日至 6 日,NVIDIA 將在于拉斯維加斯舉行的亞馬遜云科技 re:Invent 2024 上展示產(chǎn)品。與會(huì)者可以深入了解在亞馬遜云科技上所提供的各種
    的頭像 發(fā)表于 11-27 11:18 ?922次閱讀

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過(guò) Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise,為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無(wú)論是在復(fù)雜的 AI 開(kāi)發(fā)
    的頭像 發(fā)表于 10-27 10:03 ?815次閱讀
    <b class='flag-5'>NVIDIA</b>助力麗蟾科技打造AI訓(xùn)練與<b class='flag-5'>推理</b>加速解決方案

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù),與同樣剛推出的 Llama 3.1 系列開(kāi)源模型一起,為全球企業(yè)的生成式 AI
    的頭像 發(fā)表于 07-25 09:48 ?1055次閱讀