美女的黄色网站,福利导航365,在线V观看免费国岛国片

隨著 AI 使用場景不斷擴展（從文檔摘要到定制化軟件代理），開發者和技術愛好者正在尋求以更快、更靈活的方式來運行大語言模型（LLM）。

在配備 NVIDIA GeForce RTX GPU 的 PC 上本地運行模型，可實現高性能推理、增強型數據隱私保護，以及對 AI 部署與集成的完全控制。LM Studio 等工具（可免費試用）使這一切成為可能，為用戶提供了在自有硬件上探索和構建 LLM 的便捷途徑。

LM Studio 已成為最主流的本地 LLM 推理工具之一。該應用基于高性能 llama.cpp 運行時構建，支持完全離線運行模型，還可作為兼容 OpenAI 應用編程接口（API）的端點，無縫集成至定制化工作流程。

得益于 CUDA 12.8，LM Studio 0.3.15 的推出提升了 RTX GPU 的性能，模型加載和響應時間均有顯著改善。此次更新還推出數項面向開發者的全新功能，包括通過“tool_choice”參數增強工具調用能力和重新設計的系統提示詞編輯器。

LM Studio 的最新改進提高了它的性能和易用性——實現了 RTX AI PC 上迄今最高的吞吐量。這意味著更快的響應速度、更敏捷的交互體驗，以及更強大的本地 AI 構建與集成工具。

日常 App 與 AI 加速相遇

LM Studio 專為靈活性打造 —— 既適用于隨意的實驗，也可完全集成至定制化工作流。用戶可以通過桌面聊天界面與模型交互，或啟用開發者模式部署兼容 OpenAI API 的端點。這使得將本地大語言模型連接到 VS Code 等應用的工作流或定制化桌面智能體變得輕而易舉。

例如，LM Studio 可以與 Obsidian 集成，后者是一款廣受歡迎的 Markdown 知識管理應用。使用 Text Generator 和 Smart Connections 等社區開發的插件，用戶可以生成內容、對研究進行摘要并查詢自己的筆記 —— 所有功能均由基于 LM Studio 運行的本地大語言模型提供支持。這些插件直接連接到 LM Studio 的本地服務器，無需依賴云服務即可實現快速且私密的 AI 交互。

使用 LM Studio 生成由 RTX 加速的筆記的示例

0.3.15 更新新增多項開發者功能，包括通過“tool_choice”參數實現更細粒度的工具控制，以及經過升級、支持更長或更復雜提示詞的系統提示詞編輯器。

tool_choice 參數使開發者能夠控制模型與外部工具的交互方式 —— 無論是強制調用工具、完全禁用工具，還是允許模型動態決策。這種增強的靈活性對于構建結構化交互、檢索增強生成（RAG）工作流或智能體工作流尤為重要。這些更新共同增強了開發者基于大語言模型開展實驗和生產用途兩方面的能力。

LM Studio 支持廣泛的開源模型（包括 Gemma、Llama 3、Mistral 和 Orca），支持從 4 位到全精度的各種量化格式。

常見場景涵蓋 RAG、長上下文窗口多輪對話、基于文檔的問答和本地智能體工作流。而 NVIDIA RTX 加速的 llama.cpp 軟件庫可以作為本地推理服務器，讓 RTX AI PC 用戶輕松利用本地大語言模型。

無論是為緊湊型 RTX 設備實現能效優化，還是在高性能臺式機上更大限度地提高吞吐量，LM Studio 能夠在 RTX 平臺上提供從全面控制、速度到隱私保障的一切。

體驗 RTX GPU 的最大吞吐量

LM Studio 加速的核心在于 llama.cpp —— 這是一款專為基于消費級硬件進行高效推理而設計的開源運行時。NVIDIA 與 LM Studio 和 llama.cpp 社區展開合作，集成多項增強功能，以盡可能充分地發揮 RTX GPU 的性能。

關鍵優化包括：

CUDA 計算圖優化：將多個 GPU 操作聚合為單次 CPU 調用，從而降低 CPU 負載并可將模型吞吐量提高最多達 35%。

Flash Attention CUDA 內核：通過改進大語言模型的注意力處理機制（Transformer 模型的核心運算），實現吞吐量額外提升 15%。這可以在不增加顯存或算力需求的前提下，支持更長的上下文窗口。

支持最新 RTX 架構：LM Studio 升級至 CUDA 12.8 版本，確保全面兼容從 GeForce RTX 20 系列到 NVIDIA Blackwell 架構 GPU 的全部 RTX AI PC 設備，使用戶能夠靈活擴展其本地 AI 工作流 —— 從筆記本電腦到高端臺式機。

數據展示了不同版本的 LM Studio 和 CUDA 后端在 GeForce RTX 5080 上運行 DeepSeek-R1-Distill-Llama-8B 模型的性能數據。所有配置均使用 Q4_K_M GGUF（Int4）量化，在 BS=1、ISL=4000、OSL=200 并開啟 Flash Attention 的條件下測量。得益于 NVIDIA 對 llama.cpp 推理后端的貢獻，CUDA 計算圖在最新版本的 LM Studio 中實現了約 27% 的加速。

借助兼容的驅動，LM Studio 可自動升級到 CUDA 12.8 運行時，從而顯著縮短模型加載時間并提高整體性能。

這些增強功能顯著提升了所有 RTX AI PC 設備的推理流暢度與響應速度 —— 從輕薄筆記本到高性能臺式機與工作站。

LM Studio 使用入門

LM Studio 提供免費下載，支持 Windows、macOS 和 Linux 系統。借助最新的 0.3.15 版本以及持續優化，用戶將在性能、定制化與易用性方面得到持續提升 —— 讓本地 AI 更快、更靈活、更易用。

用戶既能通過桌面聊天界面加載模型，也可以啟用開發者模式，開放兼容 OpenAI API 的接口。

要快速入門，請下載最新版本的 LM Studio 并打開應用。

1、點擊左側面板上的放大鏡圖標以打開 Discover（發現）菜單。