女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

游戲AI對自對弈推理速度提出新要求

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達 ? 2021-10-22 09:23 ? 次閱讀

騰訊一直積極地推動強化學習在游戲AI領域的發展,并在2019年推出了“開悟”AI開放研究平臺,提供不同游戲的訓練場景、支撐AI進行強化訓練的大規模算力、統一的強化學習框架以加速研發速度、通用的訓練與推理服務,加快AI訓練速度。

游戲AI對自對弈推理速度提出新要求

和圖像以及語音的訓練方式不同,目前在游戲AI訓練上表現最好的方式是強化學習。強化學習除了需要大量的算力來訓練深度學習網絡之外,還需要一個自對弈的模塊用來產生訓練數據。在自對弈模塊當中,會模擬游戲環境,并且選擇不同時期的模型來操控游戲內的角色,AI對游戲內角色的每一操控都需要對模型進行一次前向推理。由于更新模型的訓練數據來自于自對弈模塊,因此自對弈的推理速度會對整個模型的訓練速度和效果造成非常大的影響。

而自對弈推理每一次前向推理對延時的要求比實際的線上服務小,因此常見的方式是通過CPU來進行自對弈中的推理,但CPU成本太高。為了提高自對弈的速度與吞吐,減少推理成本,騰訊希望在“開悟”AI開放研究平臺里面充分利用GPU去進行自對弈中的模型前向推理。

TensorRT 助力“開悟”AI加速自對弈推理

為了解決在自對弈推理當中GPU利用率不高的問題, 騰訊“開悟”AI開放研究平臺選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來加速推理。

為了自動化地將模型從TensorFlow轉換到TensorRT, 騰訊“開悟”AI開放研究平臺一開始通過自行開發parser,將TensorFlow的算子映射到TensorRT的算子。同時,為了支持更廣泛的模型與算子,減少維護和開發的成本, 騰訊“開悟”AI開放研究平臺也積極地與NVIDIA合作,推動從TensorFlow轉換成ONNX模型,再通過TensorRT ONNX parser轉換到TensorRT的流程。

在自對弈的過程中,需要頻繁地更新模型的權重,讓自對弈模型始終能保持在較新的狀態。這個更新的頻率大概幾分鐘一次,每次必須限制在幾百個毫秒。如果通過重新build engine 的方式來更新模型的話,無法滿足上述要求。因此 騰訊“開悟”AI開放研究平臺采用 TensorRT refit engine的功能來更新權重。同時,為了對更新權重有更好的支持、以及支持更多的算子, 騰訊“開悟”AI開放研究平臺從原本的TensorRT 5 升級到TensorRT 7。

TensorRT 7雖然在部分算子上支持權重更新,但并不支持LSTM這個在游戲AI當中很重要的算子。為了解決這個問題, 騰訊“開悟”AI開放研究平臺通過開發TensorRT插件的方式封裝LSTM算子,并在插件當中更新權重。

為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開悟”AI開放研究平臺希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對FP16的支持非常成熟和簡便,整個推理流程很快被切換到FP16,并取得了2倍左右的加速。

尋找模型推理時的性能瓶頸,通過開發TensorRT插件進行算子融合,進一步地提升推理的速度。

在完成以上的工作之后,對比TensorFlow的基礎版本,TensorRT 7 能提供5倍以上的加速效果。

通過NVIDIA V100 GPU以及TensorRT推理引擎加速自對弈訓練的推理部分,騰訊“開悟”AI開放研究平臺極大地提升了自對弈推理的吞吐量與速度,進一步地提升了整個模型訓練的速度與降低訓練成本,加快模型迭代的周期。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5241

    瀏覽量

    105768
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4910

    瀏覽量

    130653
  • AI
    AI
    +關注

    關注

    87

    文章

    34198

    瀏覽量

    275358

原文標題:NVIDIA TensorRT助力騰訊加速“開悟”AI開放研究平臺

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    AI推理的存儲,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存儲HBM不再是唯一熱門,更多存儲芯片與AI推理芯片結合,擁有了市場機會。 ? 已經有不少AI
    的頭像 發表于 03-03 08:51 ?1515次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲,看好SRAM?

    燈具諧波新要求

    燈具諧波方面的新要求,適合燈具方面的設計
    發表于 05-28 14:11 ?0次下載

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    應用開發不用“等平臺”,徹底釋放開發效率和模型接入自由度。 DeepSeek橫空出世以來,這種更適合端側部署,回答效率更高效的訓練模式快速引爆了AI行業,主流大模型紛紛加強了推理能力。天璣A
    發表于 04-13 19:52

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發布了 Ironwood,這是其第七代張量處理單元 (TPU),專為推理而設計。這款功能強大的 AI
    的頭像 發表于 04-12 11:10 ?1557次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時代的硬件革命

    使用修改后的基準C++工具推斷灰度圖像時的推理速度慢怎么解決?

    修改了 基準測試 C++ 工具 ,以加載灰度圖像。 獲得的推理速度非常低。
    發表于 03-06 07:11

    AI變革正在推動終端側推理創新

    尖端AI推理模型DeepSeek R1一經問世,便在整個科技行業引起波瀾。因其性能能夠媲美甚至超越先進的同類模型,顛覆了關于AI發展的傳統認知。
    的頭像 發表于 02-20 10:54 ?455次閱讀

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?619次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技術、市場與未來

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發布,預示著生成式AI研究正從預訓練轉向推理(Inference),以提升AI邏輯推理
    的頭像 發表于 01-20 11:16 ?744次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術、市場與未來

    中國電提出大模型推理加速新范式Falcon

    的 Falcon 方法是一種 增強半回歸投機解碼框架 ,旨在增強 draft model 的并行性和輸出質量,以有效提升大模型的推理速度。Falcon 可以實現約 2.91-3.51 倍的加速比,在多種數據集上獲得了很好的結果
    的頭像 發表于 01-15 13:49 ?687次閱讀
    中國電<b class='flag-5'>提出</b>大模型<b class='flag-5'>推理</b>加速新范式Falcon

    高效大模型的推理綜述

    大模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型推理效率的技術。本文對現有的關于高效
    的頭像 發表于 11-15 11:45 ?1296次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    AI推理CPU當道,Arm驅動高效引擎

    AI的訓練和推理共同鑄就了其無與倫比的處理能力。在AI訓練方面,GPU因其出色的并行計算能力贏得了業界的青睞,成為了當前AI大模型最熱門的芯片;而在
    的頭像 發表于 11-13 14:34 ?3199次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當道,Arm驅動高效引擎

    李開復:中國擅長打造經濟實惠的AI推理引擎

    10月22日上午,零一萬物公司的創始人兼首席執行官李開復在與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)在推理成本上已實現了顯著優勢,比OpenAI的GPT-4o模型低了31倍。他強調,中國擅長打造經濟實惠的AI
    的頭像 發表于 10-22 16:54 ?661次閱讀

    蜂窩式移動通信設備CCC標準換版新要求

    蜂窩式移動通信設備的CCC標準(即中國強制性產品認證標準)換版確實提出新要求,主要涉及YD/T 2583.18-2024《蜂窩式移動通信設備電磁兼容性能要求和測量方法 第18部分:5G用戶設備和輔助設備》(以下簡稱“新版標準”
    的頭像 發表于 10-19 10:02 ?761次閱讀
    蜂窩式移動通信設備CCC標準換版<b class='flag-5'>新要求</b>

    當前主流的大模型對于底層推理芯片提出了哪些挑戰

    隨著大模型時代的到來,AI算力逐漸變成重要的戰略資源,對現有AI芯片也提出了前所未有的挑戰:大算力的需求、高吞吐量與低延時、高效內存管理、能耗等等。
    的頭像 發表于 09-24 16:57 ?1062次閱讀

    AMD助力HyperAccel開發全新AI推理服務器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創企業,致力于開發 AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲器帶寬使用,并通過將此解決方案應用于大型語言模型來
    的頭像 發表于 09-18 09:37 ?761次閱讀
    AMD助力HyperAccel開發全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務器