感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布!
TensorRT-LLM
持續助力用戶優化推理性能
TensorRT-LLM 可在 NVIDIA GPU 上加速和優化最新的大語言模型(Large Language Models)的推理性能。該開源程序庫在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。
近期,我們收到了許多用戶的積極反饋,并表示,TensorRT-LLM 不僅顯著提升了性能表現,還成功地將其應用集成到各自的業務中。TensorRT-LLM 強大的性能和與時俱進的新特性,為客戶帶來了更多可能性。
Roadmap 現已公開發布
過往,許多用戶在將 TensorRT-LLM 集成到自身軟件棧的過程中,總是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起,NVIDIA 正式對外公開 TensorRT-LLM 的 Roadmap ,旨在幫助用戶更好地規劃產品開發方向。
我們非常高興地能與用戶分享,TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布。您可以通過以下鏈接隨時查閱:
https://github.com/NVIDIA/TensorRT-LLM
圖 1. NVIDIA/TensorRT-LLM GitHub 網頁截屏
這份 Roadmap 將為您提供關于未來支持的功能、模型等重要信息,助力您提前部署和開發。
同時,在 Roadmap 頁面的底部,您可通過反饋鏈接提交問題。無論是問題報告還是新功能建議,我們都期待收到您的寶貴意見。
圖 2.Roadmap 整體框架介紹
利用 TensorRT-LLM
優化大語言模型推理
TensorRT-LLM 是一個用于優化大語言模型(LLM)推理的庫。它提供最先進的優化功能,包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術(FP8、INT4 AWQ、INT8 SmoothQuant 等)以及更多功能,以讓你手中的 NVIDIA GPU 能跑出極致推理性能。
TensorRT-LLM 已適配大量的流行模型。通過類似 PyTorch 的 Python API,可以輕松修改和擴展這些模型以滿足自定義需求。以下是已支持的模型列表。
我們鼓勵所有用戶定期查閱 TensorRT-LLM Roadmap。這不僅有助于您及時了解 TensorRT-LLM 的最新動態,還能讓您的產品開發與 NVIDIA 的技術創新保持同步。
-
NVIDIA
+關注
關注
14文章
5227瀏覽量
105681 -
GitHub
+關注
關注
3文章
481瀏覽量
17416 -
LLM
+關注
關注
1文章
318瀏覽量
671
原文標題:NVIDIA TensorRT-LLM Roadmap 現已在 GitHub 上公開發布!
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
小白學大模型:從零實現 LLM語言模型

使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發
無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?
京東廣告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速實踐
在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能
如何在 OrangePi 5 Pro?的?NPU?上運行?LLM

TensorRT-LLM低精度推理優化

Arm推出GitHub平臺AI工具,簡化開發者AI應用開發部署流程
NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率
新款Nvidia Titan GPU正在開發中?或將擊敗未發布的RTX 5090

Mistral Large 2現已在Amazon Bedrock中正式可用
NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業軟件支持
NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業軟件支持,實現邊緣實時醫療、工業和科學 AI 應用

評論