女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenVINO?助力谷歌大語言模型Gemma實現高速智能推理

英特爾物聯網 ? 來源:OpenVINO 中文社區 ? 2024-03-17 17:17 ? 次閱讀

大型語言模型(LLM)正在迅速發展,變得更加強大和高效,使人們能夠在廣泛的應用程序中越來越復雜地理解和生成類人文本。谷歌的Gemma是一個輕量級、先進的開源模型新家族,站在LLM創新的前沿。然而,對更高推理速度和更智能推理能力的追求并不僅僅局限于復雜模型的開發,它擴展到模型優化和部署技術領域。

OpenVINO 工具套件因此成為一股引人注目的力量,在這些領域發揮著越來越重要的作用。這篇博客文章深入探討了優化谷歌的Gemma模型,并在不足千元的AI開發板上進行模型部署、使用OpenVINO 加速推理,將其轉化為能夠更快、更智能推理的AI引擎。

此文使用了研揚科技針對邊緣AI行業開發者推出的哪吒(Nezha)開發套件,以信用卡大小(85x56mm)的開發板-哪吒(Nezha)為核心,哪吒采用Intel N97處理器(Alder Lake-N),最大睿頻3.6GHz,Intel UHD Graphics內核GPU,可實現高分辨率顯示;板載LPDDR5內存、eMMC存儲及TPM 2.0,配備GPIO接口,支持Windows和Linux操作系統,這些功能和無風扇散熱方式相結合,為各種應用程序構建高效的解決方案,適用于如自動化、物聯網網關、數字標牌和機器人等應用。

什么是Gemma?

Gemma是谷歌的一個輕量級、先進的開源模型家族,采用了與創建Gemini模型相同的研究和技術。它們以拉丁語單詞 “Gemma” 命名,意思是“寶石”,是文本到文本的、僅解碼器架構的LLM,有英文版本,具有開放權重、預訓練變體和指令調整變體。Gemma模型非常適合各種文本生成任務,包括問答、摘要和推理。

Gemma模型系列,包括Gemma-2B和Gemma-7B模型,代表了深度學習模型可擴展性和性能的分層方法。在本次博客中,我們將展示OpenVINO 如何優化和加速Gemma-2B-it模型的推理,即Gemma-2B參數模型的指令微調后的版本。

利用OpenVINO 優化和加速推理

優化、推理加速和部署的過程包括以下具體步驟,使用的是我們常用的OpenVINO Notebooks GitHub倉庫 中的254-llm-chatbot代碼示例。

由安裝必要的依賴包開始

運行OpenVINO Notebooks倉庫的具體安裝指南在這里。運行這個254-llm-chatbot的代碼示例,需要安裝以下必要的依賴包。

6e202c3e-e2c5-11ee-a297-92fbcf53809c.png

選擇推理的模型

由于我們在Jupyter Notebook演示中提供了一組由OpenVINO 支持的LLM,您可以從下拉框中選擇 “Gemma-2B-it” 來運行該模型的其余優化和推理加速步驟。當然,很容易切換到 “Gemma-7B-it” 和其他列出的型號。

6e300758-e2c5-11ee-a297-92fbcf53809c.png

使用Optimum Intel實例化模型

Optimum Intel是Hugging Face Transformers和Diffuser庫與OpenVINO 之間的接口,用于加速Intel體系結構上的端到端流水線。接下來,我們將使用Optimum Intel從Hugging Face Hub加載優化模型,并創建流水線,使用Hugging Face API以及OpenVINO Runtime運行推理。在這種情況下,這意味著我們只需要將AutoModelForXxx類替換為相應的OVModelForXxx類。

6e503d2a-e2c5-11ee-a297-92fbcf53809c.png

權重壓縮

盡管像Gemma-2B這樣的LLM在理解和生成類人文本方面變得越來越強大和復雜,但管理和部署這些模型在計算資源、內存占用、推理速度等方面帶來了關鍵挑戰,尤其是對于這種不足千元級的AI開發板等客戶端設備。權重壓縮算法旨在壓縮模型的權重,可用于優化模型體積和性能。

我們的Jupyter筆記本電腦使用Optimum Intel和NNCF提供INT8和INT4壓縮功能。與INT8壓縮相比,INT4壓縮進一步提高了性能,但預測質量略有下降。因此,我們將在此處選擇INT4壓縮。

6e6c02f8-e2c5-11ee-a297-92fbcf53809c.png

我們還可以比較模型權重壓縮前后的模型體積變化情況。

6e7f55b0-e2c5-11ee-a297-92fbcf53809c.png

選擇推理設備和模型變體

由于OpenVINO 能夠在一系列硬件設備上輕松部署,因此還提供了一個下拉框供您選擇將在其上運行推理的設備。考慮到內存使用情況,我們將選擇CPU作為推理設備。

6e9496a0-e2c5-11ee-a297-92fbcf53809c.png

運行聊天機器人

現在萬事具備,在這個Notebook代碼示例中我們還提供了一個基于Gradio的用戶友好的界面。現在就讓我們把聊天機器人運行起來吧。

小結

整個的步驟就是這樣!現在就開始跟著我們提供的代碼和步驟,動手試試用OpenVINO 在哪吒開發板上運行基于大語言模型的聊天機器人吧。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19799

    瀏覽量

    233502
  • 機器人
    +關注

    關注

    213

    文章

    29467

    瀏覽量

    211521
  • 物聯網
    +關注

    關注

    2927

    文章

    45848

    瀏覽量

    387830
  • GPIO
    +關注

    關注

    16

    文章

    1270

    瀏覽量

    53550
  • OpenVINO
    +關注

    關注

    0

    文章

    113

    瀏覽量

    413

原文標題:千元開發板,百萬可能:OpenVINO? 助力谷歌大語言模型Gemma實現高速智能推理 | 開發者實戰

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    如何在Ollama中使用OpenVINO后端

    Ollama 和 OpenVINO 的結合為大型語言模型(LLM)的管理和推理提供了強大的雙引擎驅動。Ollama 提供了極簡的模型管理工具
    的頭像 發表于 04-14 10:22 ?317次閱讀

    Google發布最新AI模型Gemma 3

    Gemma 開放模型系列是 Google 推動實用 AI 技術普惠大眾的重要基石。上個月,Gemma 迎來了首個生日。回望過去一年,其成果斐然:全球下載量突破 1 億,社區欣欣向榮,衍生模型
    的頭像 發表于 03-18 09:51 ?667次閱讀

    使用OpenVINO?進行推理時的內存泄漏怎么解決?

    使用 OpenVINO? 進行推理時,內存會隨著時間的推移而增加,并導致程序崩潰。
    發表于 03-06 08:29

    如何使用多攝像頭作為OpenVINO?推理的輸入?

    無法確定如何使用多攝像頭作為OpenVINO?推理的輸入
    發表于 03-06 07:30

    為什么深度學習中的Frame per Second高于OpenVINO?演示推理腳本?

    在 DL Workbench 上使用 Microsoft 通用對象上下文 (MS COCO) 數據集運行 YOLOv4 對象檢測模型,并獲得 50 - 60 FPS。 OpenVINO?演示推理腳本運行,并獲得更高的 FP
    發表于 03-06 07:27

    為什么無法在運行時C++推理中讀取OpenVINO?模型

    使用模型優化器 2021.1 版OpenVINO?轉換模型 使用 Runtime 2022.3 版本在 C++ 推理實現 ( core.r
    發表于 03-05 06:17

    C#集成OpenVINO?:簡化AI模型部署

    什么是OpenVINO 工具套件? OpenVINO 工具套件是一個用于優化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不
    的頭像 發表于 02-17 10:03 ?1823次閱讀
    C#集成<b class='flag-5'>OpenVINO</b>?:簡化AI<b class='flag-5'>模型</b>部署

    在龍芯3a6000上部署DeepSeek 和 Gemma2大模型

    run deepseek-r1:1.5b 3.運行Gemma 2大模型 如果想體驗 Google Gemma 2 可以到下面的網站選擇不同參數的大模型https://ollama.
    發表于 02-07 19:35

    C#中使用OpenVINO?:輕松集成AI模型

    與分析三大領域中,如何快速將AI模型集成到應用程序中,實現AI賦能和應用增值?最容易的方式是:在C#中,使用OpenVINO?工具套件集成AI模型。 一,什么是
    的頭像 發表于 02-07 14:05 ?719次閱讀
    C#中使用<b class='flag-5'>OpenVINO</b>?:輕松集成AI<b class='flag-5'>模型</b>!

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰。
    的頭像 發表于 11-15 14:20 ?1223次閱讀
    使用vLLM+<b class='flag-5'>OpenVINO</b>加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    使用OpenVINO C++在哪吒開發板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習
    的頭像 發表于 10-12 09:55 ?805次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。 主要是基于深度學習和自然語言處理技術。 大
    發表于 08-02 11:03

    如何加速大語言模型推理

    隨著人工智能技術的飛速發展,大語言模型(LLM)已成為自然語言處理領域的核心工具,廣泛應用于智能客服、文本生成、機器翻譯等多個場景。然而,大
    的頭像 發表于 07-04 17:32 ?943次閱讀

    谷歌Gemma 2大語言模型升級發布,性能與安全性雙重飛躍

    近日,谷歌面向全球科研界與開發者群體隆重推出了全新升級的Gemma 2大語言模型,標志著人工智能技術在
    的頭像 發表于 07-02 10:20 ?683次閱讀

    谷歌發布新型大語言模型Gemma 2

    在人工智能領域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發人員,正式發布了其最新研發的大語言
    的頭像 發表于 06-29 09:48 ?667次閱讀