女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LM Studio使用NVIDIA技術加速LLM性能

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2025-06-06 15:14 ? 次閱讀

隨著 AI 使用場景不斷擴展(從文檔摘要到定制化軟件代理),開發者和技術愛好者正在尋求以更 快、更靈活的方式來運行大語言模型(LLM)。

在配備 NVIDIA GeForce RTX GPU 的 PC 上本地運行模型,可實現高性能推理、增強型數據隱私保護,以及對 AI 部署與集成的完全控制。LM Studio 等工具(可免費試用)使這一切成為可能,為用戶提供了在自有硬件上探索和構建 LLM 的便捷途徑。

LM Studio 已成為最主流的本地 LLM 推理工具之一。該應用基于高性能 llama.cpp 運行時構建,支持完全離線運行模型,還可作為兼容 OpenAI 應用編程接口(API)的端點,無縫集成至定制化工作流程。

得益于 CUDA 12.8,LM Studio 0.3.15 的推出提升了 RTX GPU 的性能,模型加載和響應時間均有顯著改善。此次更新還推出數項面向開發者的全新功能,包括通過“tool_choice”參數增強工具調用能力和重新設計的系統提示詞編輯器。

LM Studio 的最新改進提高了它的性能和易用性——實現了 RTX AI PC 上迄今最高的吞吐量。這意味著更快的響應速度、更敏捷的交互體驗,以及更強大的本地 AI 構建與集成工具。

日常 App 與 AI 加速相遇

LM Studio 專為靈活性打造 —— 既適用于隨意的實驗,也可完全集成至定制化工作流。用戶可以通過桌面聊天界面與模型交互,或啟用開發者模式部署兼容 OpenAI API 的端點。這使得將本地大語言模型連接到 VS Code 等應用的工作流或定制化桌面智能體變得輕而易舉。

例如,LM Studio 可以與 Obsidian 集成,后者是一款廣受歡迎的 Markdown 知識管理應用。使用 Text Generator 和 Smart Connections 等社區開發的插件,用戶可以生成內容、對研究進行摘要并查詢自己的筆記 —— 所有功能均由基于 LM Studio 運行的本地大語言模型提供支持。這些插件直接連接到 LM Studio 的本地服務器,無需依賴云服務即可實現快速且私密的 AI 交互。

541639bc-4149-11f0-b715-92fbcf53809c.png

使用 LM Studio 生成由 RTX 加速的筆記的示例

0.3.15 更新新增多項開發者功能,包括通過“tool_choice”參數實現更細粒度的工具控制,以及經過升級、支持更長或更復雜提示詞的系統提示詞編輯器。

tool_choice 參數使開發者能夠控制模型與外部工具的交互方式 —— 無論是強制調用工具、完全禁用工具,還是允許模型動態決策。這種增強的靈活性對于構建結構化交互、檢索增強生成(RAG)工作流或智能體工作流尤為重要。這些更新共同增強了開發者基于大語言模型開展實驗和生產用途兩方面的能力。

LM Studio 支持廣泛的開源模型(包括 Gemma、Llama 3、Mistral 和 Orca),支持從 4 位到全精度的各種量化格式。

常見場景涵蓋 RAG、長上下文窗口多輪對話、基于文檔的問答和本地智能體工作流。而 NVIDIA RTX 加速的 llama.cpp 軟件庫可以作為本地推理服務器,讓 RTX AI PC 用戶輕松利用本地大語言模型。

無論是為緊湊型 RTX 設備實現能效優化,還是在高性能臺式機上更大限度地提高吞吐量,LM Studio 能夠在 RTX 平臺上提供從全面控制、速度到隱私保障的一切。

體驗 RTX GPU 的最大吞吐量

LM Studio 加速的核心在于 llama.cpp —— 這是一款專為基于消費級硬件進行高效推理而設計的開源運行時。NVIDIA 與 LM Studio 和 llama.cpp 社區展開合作,集成多項增強功能,以盡可能充分地發揮 RTX GPU 的性能。

關鍵優化包括:

CUDA 計算圖優化:將多個 GPU 操作聚合為單次 CPU 調用,從而降低 CPU 負載并可將模型吞吐量提高最多達 35%。

Flash Attention CUDA 內核:通過改進大語言模型的注意力處理機制(Transformer 模型的核心運算),實現吞吐量額外提升 15%。這可以在不增加顯存或算力需求的前提下,支持更長的上下文窗口。

支持最新 RTX 架構:LM Studio 升級至 CUDA 12.8 版本,確保全面兼容從 GeForce RTX 20 系列到 NVIDIA Blackwell 架構 GPU 的全部 RTX AI PC 設備,使用戶能夠靈活擴展其本地 AI 工作流 —— 從筆記本電腦到高端臺式機。

543e8a7a-4149-11f0-b715-92fbcf53809c.png

數據展示了不同版本的 LM Studio 和 CUDA 后端在 GeForce RTX 5080 上運行 DeepSeek-R1-Distill-Llama-8B 模型的性能數據。所有配置均使用 Q4_K_M GGUF(Int4)量化,在 BS=1、ISL=4000、OSL=200 并開啟 Flash Attention 的條件下測量。得益于 NVIDIA 對 llama.cpp 推理后端的貢獻,CUDA 計算圖在最新版本的 LM Studio 中實現了約 27% 的加速。

借助兼容的驅動,LM Studio 可自動升級到 CUDA 12.8 運行時,從而顯著縮短模型加載時間并提高整體性能。

這些增強功能顯著提升了所有 RTX AI PC 設備的推理流暢度與響應速度 —— 從輕薄筆記本到高性能臺式機與工作站。

LM Studio 使用入門

LM Studio 提供免費下載,支持 Windows、macOS 和 Linux 系統。借助最新的 0.3.15 版本以及持續優化,用戶將在性能、定制化與易用性方面得到持續提升 —— 讓本地 AI 更快、更靈活、更易用。

用戶既能通過桌面聊天界面加載模型,也可以啟用開發者模式,開放兼容 OpenAI API 的接口。

要快速入門,請下載最新版本的 LM Studio 并打開應用。

1、點擊左側面板上的放大鏡圖標以打開 Discover(發現)菜單。

548d7d24-4149-11f0-b715-92fbcf53809c.png

2、選擇左側面板中的運行時設置,然后在可用性列表中搜索 CUDA 12 llama.cpp(Windows)運行時。點擊按鈕進行下載與安裝。

54abbb54-4149-11f0-b715-92fbcf53809c.png

3、安裝完成后,通過在“默認選擇”下拉菜單中選擇 CUDA 12 llama.cpp(Windows),將 LM Studio 默認配置為此運行時環境。

54cb519e-4149-11f0-b715-92fbcf53809c.png

4、完成 CUDA 執行優化的最后步驟:在 LM Studio 中加載模型后,點擊已加載模型左側的齒輪圖標進入設置菜單。

54eddd0e-4149-11f0-b715-92fbcf53809c.png

5、在展開的下拉菜單中,將“Flash Attention”功能切換為開啟狀態,并通過向右拖動“GPU Offload”(GPU 卸載)滑塊將所有模型層轉移至 GPU。

55092c4e-4149-11f0-b715-92fbcf53809c.png

完成這些功能的啟用與配置后,即可在本地設備上運行 NVIDIA GPU 推理任務了。

LM Studio 支持模型預設、多種量化格式及開發者控制項比如 tool_choice,以實現調優的推理。對于希望參與貢獻的開發者,llama.cpp 的 GitHub 倉庫持續積極維護,并隨著社區與 NVIDIA 驅動的性能優化持續演進。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5246

    瀏覽量

    105793
  • Studio
    +關注

    關注

    2

    文章

    206

    瀏覽量

    29527
  • LLM
    LLM
    +關注

    關注

    1

    文章

    320

    瀏覽量

    687

原文標題:LM Studio 借助 NVIDIA GeForce RTX GPU 和 CUDA 12.8 加速 LLM 性能

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    低比特量化技術如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術一直是優化效果最佳的方案之一,本文將探討低比特量化技術如何幫助 LLM
    的頭像 發表于 12-08 15:26 ?1516次閱讀
    低比特量化<b class='flag-5'>技術</b>如何幫助<b class='flag-5'>LLM</b>提升<b class='flag-5'>性能</b>

    《CST Studio Suite 2024 GPU加速計算指南》

    問題,但會降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU計算需要啟用,可通過命令行工具nv
    發表于 12-16 14:25

    NVIDIA Jetson介紹

    首發極術社區如對Arm相關技術感興趣,歡迎私信 aijishu20加入技術微信群。分享內容NVIDIA Jetson是嵌入式計算平臺,具有低功耗、高性能和小體積等特點,可
    發表于 12-14 08:05

    NVIDIA Studio開創創意性能的新時代

    頂尖的游戲美術師、制作人、開發者和設計師在一年一度游戲開發者大會(GDC)齊聚一堂。在他們交流創意、相互學習和啟發的同時,由RTX加速應用、硬件和驅動程序組成的NVIDIA Studio生態系統也助
    的頭像 發表于 08-02 11:22 ?2285次閱讀

    NVIDIA Studio技術如何加速創意工作流

    編輯注:本文是 NVIDIA Studio 創意加速系列的一部分,該系列旨在介紹一些特邀藝術家、提供創意提示和技巧,并展示 NVIDIA Studi
    的頭像 發表于 08-12 11:21 ?1247次閱讀

    HPC China 2022 | 相聚云端,NVIDIA 加速性能計算分論壇邀請函

    NVIDIA 專家針對 DPU、HPC 軟件(Modulus、量子計算)帶來了演講。誠邀您于“云端”相見! 具體議程 12 月 14 日 周三 | 1400 NVIDIA 最新技術突破加速
    的頭像 發表于 12-12 19:10 ?1202次閱讀

    GTC 大會亮點 NVIDIA Studio AI 助力藝術加速

    GTC 大會亮點 NVIDIA Studio AI 助力藝術加速 NVIDIA Studio 技術
    的頭像 發表于 03-22 18:24 ?2611次閱讀

    GTC23 | NVIDIA性能加速網絡專場限時回放已開啟!

    歡迎收看 NVIDIA性能加速網絡專場回放! NVIDIA性能加速網絡專場涵蓋六大主題,
    的頭像 發表于 03-25 22:05 ?900次閱讀

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件
    的頭像 發表于 10-23 16:10 ?923次閱讀

    周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

    推理加速和部署的服務化實現管道、性能收益,以及金融行業加速計算解決方案,為您 LLM 和生成式 AI 開發的增效降本提供領先的技術路線參考
    的頭像 發表于 10-26 09:05 ?462次閱讀

    現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優化最新的大語言模型(Large Language Mode
    的頭像 發表于 10-27 20:05 ?1415次閱讀
    現已公開發布!歡迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b> 優化大語言模型推理

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM
    的頭像 發表于 04-28 10:36 ?899次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵
    的頭像 發表于 07-24 11:38 ?1644次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?718次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA Tensor
    的頭像 發表于 12-25 17:31 ?625次閱讀
    在<b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的一些變化