女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-07-04 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TensorRT-LLM作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。TensorRT-LLM 提供了一個全面的開源 SDK,用于加速和優化 LLM 推理,包含了最新極致優化的計算 Kernel、高性能 Attention 實現、多機多卡通信分布式支持、豐富的并行和量化策略等,從而在 NVIDIA GPU 上實現突破性的 LLM 推理性能。此外,TensorRT-LLM 采用了 PyTorch 的全新架構,提供了直觀簡潔的模型定義 API,便于定義和構建新模型,顯著減少了代碼量,同時大幅降低了 debugging 難度,進一步優化了模型部署流程,提升了開發者的使用體驗。

本文將介紹如何在魔搭社區使用 TensorRT-LLM 加速優化 Qwen3 系列模型推理部署。

Qwen3 模型

通義千問 Qwen3 是阿里巴巴開發并開源的混合推理大語言模型 (LLM),Qwen3 開源模型系列包含兩款混合專家模型 (MoE) 235B-A22B(總參數 2,350 億,激活參數 220 億)和 30B-A3B,以及六款稠密 (Dense) 模型 0.6B、1.7B、4B、8B、14B、32B。作為中國首個混合推理模型,Qwen3 在 AIME、LiveCodeBench、ArenaHard、BFCL 等權威評測集上均獲得出色的表現(信息來源于阿里巴巴官方微信公眾號),在推理、指令遵循、Agent 能力、多語言支持等方面均大幅增強,是全球領先的開源模型。

Qwen 系列開源模型因其突出的模型能力、豐富的模型尺寸和持續更新的生態,在開源社區直接使用、二次開發和落地應用上都有著極其深刻的影響力。

近期 Qwen3 還進一步補齊了開源序列中的 Embedding 和 Rerank 模型,強大的模型矩陣全面覆蓋從復雜推理、Agent 任務到輕量級部署的需求,進一步鞏固和加強了整個 Qwen 開源生態。

ModelScope 魔搭社區

ModelScope 魔搭作為中國最大最活躍的開源模型社區,旨在打造下一代開源的模型即服務共享平臺,為泛 AI 開發者提供靈活、易用、低成本的一站式模型服務產品,讓模型應用更簡單。

超過 1,600 萬開發者可以在 ModelScope 輕松下載和部署模型,快速體驗模型效果,并通過云端 AI 環境實現在線推理與訓練,無需復雜的本地配置。同時,ModelScope 支持多種靈活的部署方式,包括云端、本地及設備端部署,助力開發者以更低的成本和更高的效率推動 AI 技術的應用落地。

除了模型和數據集的托管和靈活調用部署,ModelScope 還提供特色功能社區。比如在ModelScope MCP 廣場中上線將近 4,000 多個 MCP server,能夠幫助廣大開發者更好的通過標準化工具接口,實現模型智能邊界的外拓,讓魔搭的開源模型生態能更好的與 MCP 生態產生更多的碰撞與化學效應(介紹來源于魔搭社區)。

利用 TensorRT-LLM 加速優化Qwen3 模型推理部署

在 Qwen3 開源發布的同時,TensorRT-LLM 便已實現支持相關系列模型的推理加速優化部署。針對 Qwen3 推理加速優化,TensorRT-LLM 支持的重要特性包括:

模型并行:支持 TP (Tensor Parallelism),EP (Expert Parallelism) 和 Attention DP (Data Parallelism) 等多機多卡并行方式,滿足大尺寸模型的并行切分以及高服務級別目標的需求。

量化:除了原生 BF16 數據類型之外,現已支持 per-tensor FP8 量化與 blockwise FP8 量化的支持。通過低精度量化顯著降低顯存和算力需求,在保證模型整體精度的同時進一步提升推理部署的延遲和整體吞吐。其中,BF16 模型和 FP8 blockwise 量化模型的 checkpoint 可直接通過 ModelScope 相關頁面進行訪問和下載(例如:Qwen3-235B-A22B-FP8),FP8 per-tensor 量化模型 checkpoint 可通過NVIDIA TensorRT-Model-Optimizer工具進行量化處理得到。

Prefill-Decode 分離式部署:通過將 LLM 的 prefill 和 decode 階段解耦在不同的 executors 執行,可以自由調整 PD 比例、并行方式乃至異構 GPU 型號,以進一步提升推理系統整體的靈活性和性價比,并綜合調整 TTFT 及 TPOT 等 SLO 級別。

下面將快速介紹如何通過 TensorRT-LLM 快速部署并拉起由 ModelScope 托管的 Qwen3 模型推理服務(以 Qwen3-235B-A22B 在單機 8 卡 GPU 上推理為例)。

1. 安裝 TensorRT-LLM

當前可通過多種方式來進行 TensorRT-LLM 的安裝。

pip 安裝

(Optional) pip3 install torch==2.7.0torchvision torchaudio--index-url https://download.pytorch.org/whl/cu128
sudo apt-get-y install libopenmpi-dev&&pip3 install--upgrade pip setuptools && pip3 install tensorrt_llm

使用預編譯好的 NGC 容器鏡像

源碼編譯容器鏡像:下載 TensorRT-LLM github 源代碼后,在代碼主目錄運行編譯命令

make-C docker release_build

2. 從 ModelScope 下載模型 checkpoint

# Using modelscope cmd tool to download
pipinstall modelscope
modelscopedownload --model Qwen/Qwen3-235B-A22B
# or using git clone
gitlfs install
gitclone https://www.modelscope.cn/Qwen/Qwen3-235B-A22B.git

3. 使用 trtllm-serve 命令進行推理服務部署

# Setup LLM API configuration file
cat>./extra-llm-api-config.yml<

4. 請求服務測試:部署完成后便可通過標準 OpenAI API 進行推理服務請求發送,例如如下 curl 命令

curl http://localhost:8000/v1/completions 
 -H "Content-Type: application/json" 
 -d '{
  "model":"Qwen3-235B-A22B/",
  "prompt":"Please describe what is Qwen.",
  "max_tokens":128,
  "temperature":0
 }'

在上述已實現的各項優化特性之外,針對 Qwen3 系列模型,TensorRT-LLM 還在不斷研發和探索新的優化方法,包括 kernel 層面的持續優化、算子融合、基于 sparse attention 的超長文本支持、基于 Eagle-3 的投機性采樣、MoE 模型的 expert 負載均衡、新的量化精度 (W4AFP8 / NVFP4) 等等,期待您緊密關注 TensorRT-LLM 最新進展。

總結

除了 Qwen3 系列模型,TensorRT-LLM 現已支持 ModelScope 社區主流的生成式 AI 大模型,模型列表請參考 TensorRT-LLM Support Matrix 和 ModelScope 社區 TensorRT-LLM 專題頁。

通過雙方在生成式 AI 模型軟件加速庫層面的技術合作,使用性能強大、敏捷靈活的軟件棧,能夠大大簡化開發者快速進行大模型的原型驗證與產品研發部署的工作流,并獲得極致推理部署性能,進一步加快大模型的廣泛落地和應用生態。

作者

金國強

NVIDIA 資深解決方案架構師,主要負責深度學習生成式 AI 領域模型訓練、推理優化以及大模型開發與應用云端落地等技術方向合作。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5308

    瀏覽量

    106342
  • 開源
    +關注

    關注

    3

    文章

    3678

    瀏覽量

    43813
  • 模型
    +關注

    關注

    1

    文章

    3517

    瀏覽量

    50401

原文標題:在魔搭社區使用 NVIDIA TensorRT-LLM PyTorch 新架構優化 Qwen3 系列模型推理

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發布新一代Qwen大語言模型系列Qwen3Qwen3-MoE),在模型規模
    的頭像 發表于 05-07 14:44 ?638次閱讀
    在openEuler上基于vLLM Ascend<b class='flag-5'>部署</b><b class='flag-5'>Qwen3</b>

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源
    的頭像 發表于 05-08 11:45 ?1224次閱讀
    NVIDIA使用<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b><b class='flag-5'>模型</b>的最佳實踐

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發表于 06-12 15:37 ?572次閱讀
    使用NVIDIA Triton和<b class='flag-5'>TensorRT-LLM</b><b class='flag-5'>部署</b>TTS應用的最佳實踐

    《電子發燒友電子設計周報》聚焦硬科技領域核心價值 第18期:2025.06.30--2025.07.4

    CherryUSB 驅動 RNDIS 模塊詳解 5、米爾TI AM62x開發板如何部署流媒體服務實現監控功能 6、如何在社區使用
    發表于 07-04 19:37

    現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ,可在 NVIDIA GPU 上加速優化最新的大語言模型(Large Language Mode
    的頭像 發表于 10-27 20:05 ?1507次閱讀
    現已公開發布!歡迎使用 NVIDIA <b class='flag-5'>TensorRT-LLM</b> <b class='flag-5'>優化</b>大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型TensorRT-LLM
    的頭像 發表于 04-28 10:36 ?1015次閱讀

    社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。
    的頭像 發表于 08-23 15:48 ?1133次閱讀

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發表于 11-19 14:29 ?1240次閱讀
    <b class='flag-5'>TensorRT-LLM</b>低精度<b class='flag-5'>推理</b><b class='flag-5'>優化</b>

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的
    的頭像 發表于 12-17 17:47 ?860次閱讀

    在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-L
    的頭像 發表于 12-25 17:31 ?747次閱讀
    在NVIDIA <b class='flag-5'>TensorRT-LLM</b>中啟用ReDrafter的一些變化

    壁仞科技完成阿里巴巴通義千問Qwen3系列模型支持

    4月29日,阿里巴巴通義千問發布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發布后數小時內,壁仞科技完成全
    的頭像 發表于 04-30 15:19 ?733次閱讀

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發布并全部開源8款混合推理模型。作為Qwen系列中的最新一代大型語言模型Qwen3
    的頭像 發表于 05-06 15:17 ?540次閱讀

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,后摩智能自研NPU迅速實現Qwen3 系列
    的頭像 發表于 05-07 16:46 ?544次閱讀

    壁仞科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型
    的頭像 發表于 05-16 16:23 ?400次閱讀

    廣和通加速通義千問Qwen3在端側全面落地

    6月,廣和通宣布:率先完成通義千問Qwen3系列混合推理模型在高通QCS8550平臺端側的適配部署。廣和通通過定制化混合精度量化方案與創新硬件加速
    的頭像 發表于 06-25 15:35 ?321次閱讀