好想大鸡巴,亚洲第一黄色网站,性福利导航收录

案例簡(jiǎn)介

? 本案例中通過(guò)NVIDIA V100 GPU和TensorRT，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)將強(qiáng)化學(xué)習(xí)模型訓(xùn)練中的自對(duì)弈推理部分，從CPU遷移到GPU上，實(shí)現(xiàn)了10倍的加速，并使推理成本下降90%，整體訓(xùn)練成本下降 67%。

? 本案例主要應(yīng)用到 NVIDIA V100 GPU 和 TensorRT。

客戶簡(jiǎn)介及應(yīng)用背景

騰訊一直積極地推動(dòng)強(qiáng)化學(xué)習(xí)在游戲AI領(lǐng)域的發(fā)展，并在2019年推出了“開(kāi)悟”AI開(kāi)放研究平臺(tái)，提供不同游戲的訓(xùn)練場(chǎng)景、支撐AI進(jìn)行強(qiáng)化訓(xùn)練的大規(guī)模算力、統(tǒng)一的強(qiáng)化學(xué)習(xí)框架以加速研發(fā)速度、通用的訓(xùn)練與推理服務(wù)，加快AI訓(xùn)練速度。

客戶挑戰(zhàn)

和圖像以及語(yǔ)音的訓(xùn)練方式不同，目前在游戲AI訓(xùn)練上表現(xiàn)最好的方式是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)除了需要大量的算力來(lái)訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)之外，還需要一個(gè)自對(duì)弈的模塊用來(lái)產(chǎn)生訓(xùn)練數(shù)據(jù)。在自對(duì)弈模塊當(dāng)中，會(huì)模擬游戲環(huán)境，并且選擇不同時(shí)期的模型來(lái)操控游戲內(nèi)的角色，AI對(duì)游戲內(nèi)角色的每一操控都需要對(duì)模型進(jìn)行一次前向推理。由于更新模型的訓(xùn)練數(shù)據(jù)來(lái)自于自對(duì)弈模塊，因此自對(duì)弈的推理速度會(huì)對(duì)整個(gè)模型的訓(xùn)練速度和效果造成非常大的影響。

而自對(duì)弈推理每一次前向推理對(duì)延時(shí)的要求比實(shí)際的線上服務(wù)小，因此常見(jiàn)的方式是通過(guò)CPU來(lái)進(jìn)行自對(duì)弈中的推理，但CPU成本太高。為了提高自對(duì)弈的速度與吞吐，減少推理成本，騰訊希望在“開(kāi)悟”AI開(kāi)放研究平臺(tái)里面充分利用GPU去進(jìn)行自對(duì)弈中的模型前向推理。

應(yīng)用方案

為了解決上述在自對(duì)弈推理當(dāng)中GPU利用率不高的問(wèn)題，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來(lái)加速推理。

為了自動(dòng)化地將模型從TensorFlow轉(zhuǎn)換到TensorRT，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)一開(kāi)始通過(guò)自行開(kāi)發(fā)parser，將TensorFlow的算子映射到TensorRT的算子。同時(shí)，為了支持更廣泛的模型與算子，減少維護(hù)和開(kāi)發(fā)的成本，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)也積極地與NVIDIA合作，推動(dòng)從TensorFlow轉(zhuǎn)換成ONNX模型，再通過(guò)TensorRT ONNX parser轉(zhuǎn)換到TensorRT的流程。

在自對(duì)弈的過(guò)程中，需要頻繁地更新模型的權(quán)重，讓自對(duì)弈模型始終能保持在較新的狀態(tài)。這個(gè)更新的頻率大概幾分鐘一次，每次必須限制在幾百個(gè)毫秒。如果通過(guò)重新build engine 的方式來(lái)更新模型的話，無(wú)法滿足上述要求。因此騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)采用 TensorRT refit engine的功能來(lái)更新權(quán)重。同時(shí)，為了對(duì)更新權(quán)重有更好的支持、以及支持更多的算子，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)從原本的TensorRT 5 升級(jí)到TensorRT 7。

TensorRT 7雖然在部分算子上支持權(quán)重更新，但并不支持LSTM這個(gè)在游戲AI當(dāng)中很重要的算子。為了解決這個(gè)問(wèn)題，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)通過(guò)開(kāi)發(fā)TensorRT插件的方式封裝LSTM算子，并在插件當(dāng)中更新權(quán)重。

為了充分利用NVIDIA V100 GPU的Tensor core，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)希望能夠使用TensorRT FP16精度來(lái)加速推理。由于TensorRT對(duì)FP16的支持非常成熟和簡(jiǎn)便，整個(gè)推理流程很快被切換到FP16，并取得了2倍左右的加速。

尋找模型推理時(shí)的性能瓶頸，通過(guò)開(kāi)發(fā)TensorRT插件進(jìn)行算子融合，進(jìn)一步地提升推理的速度。

在完成以上的工作之后，對(duì)比TensorFlow的基礎(chǔ)版本，TensorRT 7 能提供5倍以上的加速效果。

使用效果及影響

通過(guò)NVIDIA V100 GPU以及TensorRT推理引擎加速自對(duì)弈訓(xùn)練的推理部分，騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)極大地提升了自對(duì)弈推理的吞吐量與速度，進(jìn)一步地提升了整個(gè)模型訓(xùn)練的速度與降低訓(xùn)練成本，加快模型迭代的周期。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5246

瀏覽量
105787
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4912

瀏覽量
130675
AI

AI

+關(guān)注

關(guān)注
87

文章
34280

瀏覽量
275465

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

NVIDIA助力騰訊助力“開(kāi)悟”AI開(kāi)放研究平臺(tái)

評(píng)論