女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA TensorRT提升Llama 3.2性能

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2024-11-20 09:59 ? 次閱讀

Llama 3.2 模型集擴展了 Meta Llama 開源模型集的模型陣容,包含視覺語言模型(VLM)、小語言模型(SLM)和支持視覺的更新版 Llama Guard 模型。與 NVIDIA 加速計算平臺搭配使用,Llama 3.2 可為開發者、研究者和企業提供極具價值的新功能和優化,幫助實現生成式 AI 用例。

1B 和 3B 規模的 SLM 基于 NVIDIA Tensor Core GPU 訓練而成,最適合用于在各種邊緣設備上部署基于 Llama 的 AI 助手。11B 和 90B 規模的 VLM 支持文本和圖像輸入以及文本輸出。憑借多模態支持,VLM 可以幫助開發者構建需要視覺基礎、推理和理解能力的強大應用。例如,他們可以構建用于圖像描述生成、圖像轉文本檢索、視覺問答和文檔問答等的 AI 智能體。除文本輸入外,Llama Guard 模型現在還支持圖像輸入護欄。

Llama 3.2 模型架構是一種自動回歸語言模型,使用了經過優化的 Transformer 架構。其指令調整版本使用了監督微調(SFT)和人類反饋強化學習(RLHF)技術,以符合人類對有用性和安全性的偏好。所有模型均支持 128K 詞元的長上下文長度,并通過支持分組查詢注意力(GQA)針對推理進行了優化。

NVIDIA 已對 Llama 3.2 模型集進行了優化,使其能夠在全球數百萬個 GPU 上實現高吞吐量和低延遲,其中包括數據中心、搭載NVIDIA RTX的本地工作站和搭載NVIDIA Jetson的邊緣應用。本文將介紹針對硬件和軟件的優化、定制和易于部署的功能。

使用 NVIDIA TensorRT

提升 Llama 3.2 的性能

為了提供空前吞吐量和最佳終端用戶體驗,同時降低成本和延遲,NVIDIA 正在加速 Llama 3.2 模型集。NVIDIA TensorRT包含了適用于高性能深度學習推理的 TensorRT 和 TensorRT-LLM 程序庫。

Llama 3.2 1B 和 Llama 3.2 3B 模型在 TensorRT-LLM 中使用按比例旋轉位置嵌入(RoPE)技術和其他幾項優化措施(包括 KV 緩存和飛行批處理)獲得加速,以支持長上下文。

Llama 3.2 11B 和 Llama 3.2 90B 模型均為多模態模型,并且包含一個視覺編碼器和一個文本解碼器。視覺編碼器通過將模型導出為 ONNX 圖并構建 TensorRT 引擎獲得加速。ONNX 導出創建了一個包含內置運算符和標準數據類型的標準模型定義,主要用于推理。TensorRT 利用 ONNX 圖,通過構建 TensorRT 引擎針對目標 GPU 優化模型。這種引擎能夠提供各種硬件級優化,通過層和張量融合以及內核自動調整最大程度地提高 NVIDIA GPU 的利用率。

借助 TensorRT-LLM 支持的交叉注意力機制,視覺編碼器的視覺信息被融合到 Llama 文本解碼器中。這樣一來,VLM 就能聯系輸入的文本進行視覺推理和理解,從而高效率地生成文本。

使用 NVIDIA NIM

輕松部署生成式 AI 解決方案

用戶可使用NVIDIA NIM微服務將 TensorRT 優化直接部署到生產中。NIM 微服務加速了生成式 AI 模型在所有 NVIDIA 加速基礎設施上的部署,包括云、數據中心和工作站等。

NIM 微服務支持 Llama 3.2 90B Vision Instruct,Llama 3.2 11B Vision Instruct,Llama 3.2 3B Instruct 和 Llama 3.2 1B Instruct 在生產中的部署。NIM 為生成式 AI 工作負載提供了經過簡化的管理和編排、標準應用編程接口(API)以及帶有生產就緒容器的企業級支持。世界各地的開發者、研究者和企業對整個生態系統提供了強大且日益增強的支持,目前已有超過 175 家合作伙伴將其解決方案與 NVIDIA NIM 微服務集成,他們可以從生成式 AI 應用投資中取得最大的回報。

使用 NVIDIA AI Foundry 和 NVIDIA NeMo

定制和評估 Llama 3.2 模型

NVIDIA AI Foundry提供了一個端到端的 Llama 3.2 模型定制平臺,使用戶能夠獲取先進的 AI 工具、計算資源和 AI 專業知識。定制模型在專有數據上進行微調,使企業能夠在特定領域的任務中實現更高的性能和準確性,從而獲得競爭優勢。

開發者可以借助NVIDIA NeMo整理他們的訓練數據,充分利用 LoRA、SFT、DPO、RLHF 等先進的調校技術定制 Llama 3.2 模型、評估準確性和添加護欄,以此保證模型提供適當的回答。AI Foundry 在 NVIDIA DGX Cloud 上提供專用容量并得到 NVIDIA AI 專家的支持。輸出被打包成 NVIDIA NIM 推理微服務的定制 Llama 3.2 模型,該模型可部署在任何地方。

使用 NVIDIA RTX 和

NVIDIA Jetson 擴展本地推理

如今,Llama 3.2 模型已在全球超過 1 億臺 NVIDIA RTX PC 和工作站上進行了優化。為了部署在 Windows 中,NVIDIA 已對這套模型進行了優化,使其能夠利用 ONNX-GenAI 運行時和 DirectML 后端實現高效運行。

全新的 VLM 和 SLM 為 NVIDIA RTX 系統解鎖了新的功能。為了進行演示,我們創建了一個多模態檢索增強生成(RAG)管線示例。該管線結合了文本和可視化數據處理(例如圖像、統計圖和圖表),具有更強大的信息檢索和生成功能。

請注意,您需要一個配備 NVIDIA RTX 專業 GPU且顯存在 30GB 以上的 Linux 工作站。

SLM 專為邊緣設備本地部署而定制,采用了蒸餾、剪枝和量化等技術降低顯存、延遲和計算要求,同時保持了重點應用領域的準確性。如要下載 Llama 3.2 1B 和 3B SLM 并將其部署到 GPU 推理能力經過優化且具有 INT4/FP8 量化功能的 Jetson 上,請參見NVIDIA Jetson AI Lab 上的 SLM 教程

多模態模型為視頻分析和機器人領域帶來了獨一無二的視覺功能,因此在邊緣應用中的作用越來越突出。

推動社區 AI 模型的發展

作為積極的開源貢獻者,NVIDIA 致力于優化社區軟件,幫助用戶應對最嚴峻的挑戰。開源 AI 模型還能促進公開透明,使用戶能夠大范圍地分享 AI 安全性和彈性方面的工作成果。

借助 Hugging Face 推理即服務功能,開發者能夠快速部署領先的大語言模型(LLM),例如在 NVIDIA DGX Cloud 上運行且通過 NVIDIA NIM 微服務優化的 Llama 3 模型集。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5238

    瀏覽量

    105746
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4909

    瀏覽量

    130632
  • AI
    AI
    +關注

    關注

    87

    文章

    34146

    瀏覽量

    275281
  • 模型
    +關注

    關注

    1

    文章

    3483

    瀏覽量

    49962

原文標題:從邊緣到云端部署經加速的 Llama 3.2

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA推出開放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務,開放式 Llama Nemotron 大語言模型和 Cosmos Nemotron 視覺語言模型可在任何加速系統上為 AI 智能體提供強效助力。
    的頭像 發表于 01-09 11:11 ?614次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發表于 12-25 17:31 ?616次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?695次閱讀

    NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布!
    的頭像 發表于 11-28 10:43 ?609次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現已在GitHub上公開發布

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 一,Llama3.2 Vision簡介 Llama 3.2 Vision是一個多模態大型語言模型(LLMs)的集合,它包括預訓練和指令調整的圖像推理生成模型,有兩種參數規模
    的頭像 發表于 11-23 17:22 ?3476次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> <b class='flag-5'>3.2</b> Vision模型本地部署

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT
    的頭像 發表于 11-19 14:29 ?1045次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優化

    Meta發布Llama 3.2量化版模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領域帶來了新進展。10月24日,Meta正式推出了這兩個模型的量化版本,旨在進一步優化模型性能,拓寬其應用場景。
    的頭像 發表于 10-29 11:05 ?756次閱讀

    Llama 3 的未來發展趨勢

    在科技迅猛發展的今天,人工智能和機器學習已經成為推動社會進步的重要力量。Llama 3,作為一個劃時代的產品,正以其獨特的設計理念和卓越的性能,預示著未來科技的新方向。 一、Llama 3的核心
    的頭像 發表于 10-27 14:44 ?703次閱讀

    Llama 3 性能評測與分析

    1. 設計與構建質量 Llama 3的設計延續了其前代產品的簡潔風格,同時在細節上進行了優化。機身采用了輕質材料,使得整體重量得到了有效控制,便于攜帶。此外,Llama 3的表面處理工藝也有所提升
    的頭像 發表于 10-27 14:30 ?759次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發布了Llama3.2:一個多語言大型語言模型(LLMs)的集合。
    的頭像 發表于 10-12 09:39 ?1301次閱讀
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama-3.2</b>-1B-Instruct模型

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態模型,現已在Amazon Bedrock和Amazon SageMaker中全面可用。
    的頭像 發表于 10-11 18:08 ?684次閱讀

    亞馬遜云科技正式上線Meta Llama 3.2模型

    亞馬遜云科技宣布,Meta的新一代模型Llama 3.2,包括其首款多模態模型,現已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的頭像 發表于 10-11 09:20 ?795次閱讀

    Meta發布多模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了多模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Meta在AI多模態處理領域邁出了堅實的一步。
    的頭像 發表于 09-27 11:44 ?617次閱讀

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的
    的頭像 發表于 08-23 15:48 ?957次閱讀

    NVIDIA AI Foundry 為全球企業打造自定義 Llama 3.1 生成式 AI 模型

    借助 NVIDIA AI Foundry,企業和各國現在能夠使用自有數據與 Llama 3.1 405B 和 NVIDIA Nemotron 模型配對,來構建“超級模型” NVIDIA
    發表于 07-24 09:39 ?854次閱讀
    <b class='flag-5'>NVIDIA</b> AI Foundry 為全球企業打造自定義 <b class='flag-5'>Llama</b> 3.1 生成式 AI 模型