女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

簡單兩步使用OpenVINO?搞定Qwen2的量化與部署任務

英特爾物聯網 ? 來源:英特爾物聯網 ? 2024-04-26 09:39 ? 次閱讀

工具介紹

英特爾 OpenVINO 工具套件是一款開源 AI 推理優化部署的工具套件,可幫助開發人員和企業加速生成式人工智能 (AIGC)、大語言模型、計算機視覺和自然語言處理等 AI 工作負載,簡化深度學習推理的開發和部署,便于實現從邊緣到云的跨英特爾 平臺的異構執行。

模型介紹

近期通義千問團隊發布了其 Qwen 大模型的第二代架構 Qwen2,這是一個基于 Transformer 結構 decoder-only 模型,而 Qwen1.5 作為 Qwen2 架構的 Beta 版本,已經率先在 Hugging Face 及魔搭社區進行了發布

Qwen1.5 版本本次開源了包括 0.5B、1.8B、4B、7B、14B 和 72B 在內的六種大小的基礎和聊天模型,同時,也開源了量化模型。不僅提供了 Int4 和 Int8 的 GPTQ 模型,還有 AWQ 模型,以及 GGUF 量化模型。為了提升開發者體驗,Qwen1.5 的代碼合并到 Hugging Face Transformers 中,開發者現在可以直接使用 transformers>=4.37.0 而無需 trust_remote_code。此外,Qwen1.5 支持了例如 vLLM、SGLang、AutoGPTQ 等框架對Qwen1.5的支持。Qwen1.5 顯著提升了聊天模型與人類偏好的一致性,并且改善了它們的多語言能力。所有模型提供了統一的上下文長度支持,支持 32K 上下文, 基礎語言模型的質量也有所改進。

f533d052-030b-11ef-a297-92fbcf53809c.png

圖:基于Optimum-intel與OpenVINO部署生成式AI模型流程

英特爾為開發者提供了快速部署 Qwen2的方案支持。開發者只需要在 GitHub 上克隆示例倉庫[1],進行環境配置,并將 Hugging Face 模型轉換為 OpenVINO IR 模型,即可進行模型推理。由于大部分步驟都可以自動完成,因此開發者只需要簡單的工作便能完成部署,目前該倉庫也被收錄在 Qwen1.5 的官方倉庫[2]中,接下來讓我們一起看下具體的步驟和方法:

[1] 示例倉庫:

https://github.com/OpenVINO-dev-contest/Qwen2.openvino

[2] 官方倉庫:

https://github.com/QwenLM/Qwen1.5?tab=readme-ov-file#openvino

01

模型轉換與量化

當您按倉庫中的 README 文檔完成集成環境配置后,可以直接通過以下命令運行模型的轉化腳本,這里我們以 0.5B 版本的 Qwen1.5 為例:

python3 convert.py --model_id Qwen/Qwen1.5-0.5B-Chat --output {your_path}/Qwen1.5-0.5B-Chat-ov

這里首先會基于 Transformers 庫從 Hugging Face 的 model hub 中下載并加載原始模型的 PyTorch 對象,如果開發者在這個過程中無法訪問 Hugging Face 的 model hub,也可以通過配置環境變量的方式,將模型下載地址更換為鏡像網站或者通過魔搭社區下載,并將 convert.py 腳本的 model_id 參數配置為本地路徑,具體方法如下:

$env:HF_ENDPOINT = https://hf-mirror.com


huggingface-cli download --resume-download --local-dir-use-symlinks False Qwen/Qwen1.5-0.5B-Chat --local-dir {your_path}/Qwen1.5-0.5B-Chat


python3 convert.py --model_id {your_path}/Qwen1.5-0.5B-Chat --output {your_path}/ Qwen1.5-0.5B-Chat-ov

在完成模型下載后,該腳本會利用 Optimum-intel 庫中的 OVModelForCausalLM .from_pretrained 函數自動完成對模型格式的轉換,同時該函數也會根據用戶指定的模型精度和配置信息,調用 NNCF 工具完成模型的權重量化。執行完畢后,你將獲取一個由 .xml 和 .bin 文件所構成的 OpenVINO IR 模型文件,該模型默認以 int4+int8 的混合精度保存,此外你也可以通過配置 —precision,來選擇不同的模型精度,例如 —precision int8或者 —precision fp16。

f546e67e-030b-11ef-a297-92fbcf53809c.png

圖:量化前后模型大小比較

可以看到相較原始 PyTorch 模型,經過 INT4 量化后的模型大小減少將近3/4。此外在這個過程中, int4+int8 量化比例也會自動打印在終端界面上,如下圖所示。

f561621a-030b-11ef-a297-92fbcf53809c.png

圖:量化比例輸出

由于 OpenVINO NNCF 工具的權重壓縮策略只針對于大語言模型中的 Embedding 和 Linear 這兩種算子,所以該表格只會統計這兩類算子的量化比例。其中 ratio-defining parameter 是指我們提前通過接口預設的混合精度比例,也就是 20% 權重以 INT8 表示,80% 以 INT4 表示,這也是考慮到量化對 Qwen1.5 模型準確度的影響,事先評估得到的配置參數,開發者也可以通過修改 Python 腳本中的默認配置調整量化參數:

compression_configs = {
"sym": False,
"group_size": 128,
"ratio": 0.8,
}

其中:

sym 為選擇是否開啟對稱量化策略,對稱量化會進一步提升模型運行速度,但也會在一定程度上降低模型準確性。

group_size為共享量化參數的通道數量,該值越大,壓縮比也越高,反之,對模型準確性的影響越小。

ratio 則是 INT4 權重和 INT8 權重的混合精度比例。

更多可配置量化參數也可以參考 OpenVINO 官方文檔[3]。如果遇到新模型,同時不知道如何選擇量化參數以獲取性能和準確度的最大平衡,開發者也可以通過這個示例[4]搜索出適合其他模型的量化參數。此外鑒于 LLM 第一層 Embedding layer 和最后一層操作對于輸出準確度的影響, NNCF 默認會將他們以 INT8 表示,這也是為何在這個示例的 log 打印中,all parameters 顯示的混合精度比例會有所不同。當然開發者也可以通過在量化參數中設置 “all_layers”: True,開關閉該默認策略。

[3] OpenVINO 官方文檔

https://docs.openvino.ai/2024/openvino-workflow/model-optimization-guide/weight-compression.html

[4] 示例:

https://github.com/openvinotoolkit/nncf/tree/develop/examples/llm_compression/openvino/tiny_llama_find_hyperparams

02

模型部署

最后一步就是模型部署了,這里展示的是一個 Chatbot 聊天機器人的示例,這也是 LLM 應用中最普遍,也是最基礎的 pipeline,而 OpenVINO 可以通過 Optimum-intel 工具為橋梁,復用 Transformers 庫中預置的 pipeline,基于 OVModelForCausalLM 類中的 generate 方法,進行文本生成任務部署,以下為該腳本的運行方式:

python3 chat.py --model_path {your_path}/Qwen1.5-0.5B-Chat-ov --max_sequence_length 4096 --device CPU

如果開發者的設備中包含 Intel 的GPU產品,例如 Intel ARC 系列集成顯卡或是獨立顯卡,可以在這個命令中將 device 參數改為 GPU,以激活更強大的模型推理能力。

在終端里運行該腳本后,會生成一個簡易聊天對話界面,接下來你就可以驗證它的效果和性能了。

Starting conversation

用戶

你好

Qwen2-OpenVINO

你好!有什么我可以幫助你的嗎?

用戶

你是誰?

Qwen2-OpenVINO

我是來自阿里云的超大規模語言模型,我叫通義千問。

用戶

請給我講一個故事

Qwen2-OpenVINO

好的,這是一個關于一只小兔子和它的朋友的故事。

有一天,小兔子和他的朋友們決定去森林里探險。他們帶上食物、水和一些工具,開始了他們的旅程。在旅途中,他們遇到了各種各樣的動物,包括松鼠、狐貍、小鳥等等。他們一起玩耍、分享食物,還互相幫助解決問題。最后,他們在森林的深處找到了一個神秘的洞穴,里面藏著許多寶藏。他們帶著所有的寶藏回到了家,慶祝這次愉快的冒險。

用戶

請為這個故事起個標題

Qwen2-OpenVINO

"小兔子與朋友們的冒險之旅"

總結

通過模型轉換量化+部署這兩個步驟,我們可以輕松實現 在本地 PC 上部署 Qwen2 大語言模型,經測試該模型可以流暢運行在最新的 Intel Core Ultra 異構平臺及至強 CPU 平臺上,作為眾多 AI agent RAG 等創新應用的核心基石,大語言模型的本地部署能力將充分幫助開發者們打造更安全,更高效的 AI 解決方案。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10169

    瀏覽量

    173975
  • 人工智能
    +關注

    關注

    1804

    文章

    48737

    瀏覽量

    246669
  • 計算機視覺
    +關注

    關注

    9

    文章

    1706

    瀏覽量

    46580
  • 大模型
    +關注

    關注

    2

    文章

    3033

    瀏覽量

    3838
  • OpenVINO
    +關注

    關注

    0

    文章

    113

    瀏覽量

    417

原文標題:簡單兩步使用 OpenVINO? 搞定 Qwen2 的量化與部署任務 | 開發者實戰

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    Intel OpenVINO? Day0 實現阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 在英特爾平臺(GPU, NPU)Qwen3 系列模型。
    的頭像 發表于 05-11 11:36 ?656次閱讀
    Intel <b class='flag-5'>OpenVINO</b>? Day0 實現阿里通義 <b class='flag-5'>Qwen</b>3 快速<b class='flag-5'>部署</b>

    如何使用OpenVINO C++ API部署FastSAM模型

    象的位置和邊界。本文將介紹如何使用 OpenVINO C++ API 部署 FastSAM 模型,以實現快速高效的語義分割。在前文中我們發表了《基于 OpenVINO Python API
    的頭像 發表于 11-17 09:53 ?1286次閱讀
    如何使用<b class='flag-5'>OpenVINO</b> C++ API<b class='flag-5'>部署</b>FastSAM模型

    如何部署OpenVINO?工具套件應用程序?

    編寫代碼并測試 OpenVINO? 工具套件應用程序后,必須將應用程序安裝或部署到生產環境中的目標設備。 OpenVINO?部署管理器指南包含有關如何輕松使用
    發表于 03-06 08:23

    基于keras利用cv2自帶兩步檢測法進行實時臉部表情檢測

    CV:基于keras利用cv2自帶兩步檢測法對《跑男第六季第五期》之如花片段(或調用攝像頭)進行實時性別&臉部表情檢測
    發表于 12-26 10:54

    基于兩步映射的輪胎花紋曲面造型方法張勝男

    基于兩步映射的輪胎花紋曲面造型方法_張勝男
    發表于 03-16 08:00 ?0次下載

    三菱FX2N通過PLC網關兩步即可接入MQTT平臺

    三菱FX2N通過PLC網關兩步即可接入MQTT平臺
    發表于 11-11 16:13 ?956次閱讀
    三菱FX<b class='flag-5'>2</b>N通過PLC網關<b class='flag-5'>兩步</b>即可接入MQTT平臺

    兩步走 解決開關電源輸入過壓的煩惱!

    兩步走 解決開關電源輸入過壓的煩惱!
    的頭像 發表于 09-27 16:00 ?1306次閱讀
    <b class='flag-5'>兩步</b>走 解決開關電源輸入過壓的煩惱!

    NNCF壓縮與量化YOLOv8模型與OpenVINO部署測試

    OpenVINO2023版本衍生出了一個新支持工具包NNCF(Neural Network Compression Framework – 神經網絡壓縮框架),通過對OpenVINO IR格式模型的壓縮與量化更好的提升模型在
    的頭像 發表于 11-20 10:46 ?1922次閱讀
    NNCF壓縮與<b class='flag-5'>量化</b>YOLOv8模型與<b class='flag-5'>OpenVINO</b><b class='flag-5'>部署</b>測試

    簡單使用OpenVINO?搞定ChatGLM3的本地部署

    英特爾 OpenVINO? 工具套件是一款開源 AI 推理優化部署的工具套件,可幫助開發人員和企業加速生成式人工智能 (AIGC)、大語言模型、計算機視覺和自然語言處理等 AI 工作負載,簡化深度學習推理的開發和部署,便于實現從
    的頭像 發表于 04-03 18:18 ?2551次閱讀
    <b class='flag-5'>簡單</b>三<b class='flag-5'>步</b>使用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>搞定</b>ChatGLM3的本地<b class='flag-5'>部署</b>

    阿里通義千問Qwen2大模型發布

    阿里巴巴最近發布了其通義千問系列的新成員——Qwen2大模型,并在Hugging Face和ModelScope大平臺上實現了同步開源。這一舉措無疑為人工智能領域的研究者和開發者們提供了更多選擇和可能。
    的頭像 發表于 06-07 15:59 ?1050次閱讀

    阿里通義千問Qwen2大模型發布并同步開源

    阿里巴巴集團旗下的通義千問團隊宣布,全新的Qwen2大模型正式發布,并在全球知名的開源平臺Hugging Face和ModelScope上同步開源。這一里程碑式的事件標志著中國在人工智能領域的又一次重要突破。
    的頭像 發表于 06-11 15:33 ?1402次閱讀

    Qwen2強勢來襲,AIBOX支持本地化部署

    Qwen2是阿里通義推出的新一代多語言預訓練模型,經過更深入的預訓練和指令調整,在多個基準評測結果中表現出色,尤其在代碼和數學方面有顯著提升,同時拓展了上下文長度支持,最高可達128K。目前
    的頭像 發表于 06-27 08:02 ?1376次閱讀
    <b class='flag-5'>Qwen2</b>強勢來襲,AIBOX支持本地化<b class='flag-5'>部署</b>

    基于Qwen-Agent與OpenVINO構建本地AI智能體

    Qwen2 是阿里巴巴集團 Qwen 團隊研發的大語言模型和大型多模態模型系列。Qwen2 具備自然語言理解、文本生成、視覺理解、音頻理解、工具使用、角色扮演、作為 AI Agent 進行互動等多種能力。
    的頭像 發表于 07-26 09:54 ?1193次閱讀
    基于<b class='flag-5'>Qwen</b>-Agent與<b class='flag-5'>OpenVINO</b>構建本地AI智能體

    阿里Qwen2-Math系列震撼發布,數學推理能力領跑全球

    阿里巴巴近期震撼發布了Qwen2-Math系列模型,這一系列模型基于其強大的Qwen2 LLM構建,專為數學解題而生,展現了前所未有的數學推理能力。Qwen2-Math家族包括1.5B、7B及72B三種規模,旨在滿足不同場景下的
    的頭像 發表于 08-12 15:19 ?1102次閱讀

    利用OpenVINO部署Qwen2多模態模型

    多模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,多模態大模型可以可以理解多種不同模態的輸入數據,并輸出相應反饋結果,例如圖像理解,語音識別,視覺問題等。
    的頭像 發表于 10-18 09:39 ?1081次閱讀