NVIDIA 發(fā)布的TensorRT 8.0 ,通過(guò)新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識(shí)的訓(xùn)練,并通過(guò)支持稀疏性,這是引進(jìn)安培 GPU 的顯著更高的性能。
TensorRT 是一個(gè)用于高性能深度學(xué)習(xí)推理的 SDK ,包括推理優(yōu)化器和運(yùn)行時(shí),提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)、能源等行業(yè),下載量近 250 萬(wàn)次。
有幾種新的基于 transformer 模型被用于會(huì)話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時(shí)間減少到 TensorRT 7 的一半。
此版本的亮點(diǎn)包括:
BERT 在 1.2 毫秒內(nèi)進(jìn)行推斷,并進(jìn)行了新的 transformer 優(yōu)化
使用量化感知訓(xùn)練,以 INT8 精度實(shí)現(xiàn)與 FP32 相當(dāng)?shù)臏?zhǔn)確性
引入稀疏性支持對(duì)安培 GPU 的快速推理
關(guān)于作者
About Jay Rodge
Jay Rodge 是 NVIDIA 的產(chǎn)品營(yíng)銷經(jīng)理,負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品,推動(dòng)產(chǎn)品發(fā)布和產(chǎn)品營(yíng)銷計(jì)劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,主攻計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理。在 NVIDIA 之前,杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生,為寶馬最大的制造廠使用計(jì)算機(jī)視覺(jué)解決問(wèn)題。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5308瀏覽量
106341 -
gpu
+關(guān)注
關(guān)注
28文章
4943瀏覽量
131203
發(fā)布評(píng)論請(qǐng)先 登錄
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

"毫秒之間,萬(wàn)物同步:NTP時(shí)間服務(wù)器如何塑造現(xiàn)代數(shù)字世界"

使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

時(shí)間的國(guó)土防線:北斗時(shí)間同步系統(tǒng)構(gòu)筑數(shù)字基石

SDK如何控制DLP4500在一秒內(nèi)投影60張圖片?
在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能
NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

java小知識(shí)-納秒
TensorRT-LLM低精度推理優(yōu)化

評(píng)論