黄色小说网站大全,特级毛片全部免费看,AV黄色电影在线观看

大型語言模型（LLM）正在迅速發展，變得更加強大和高效，使人們能夠在廣泛的應用程序中越來越復雜地理解和生成類人文本。谷歌的Gemma是一個輕量級、先進的開源模型新家族，站在LLM創新的前沿。然而，對更高推理速度和更智能推理能力的追求并不僅僅局限于復雜模型的開發，它擴展到模型優化和部署技術領域。

OpenVINO 工具套件因此成為一股引人注目的力量，在這些領域發揮著越來越重要的作用。這篇博客文章深入探討了優化谷歌的Gemma模型，并在不足千元的AI開發板上進行模型部署、使用OpenVINO 加速推理，將其轉化為能夠更快、更智能推理的AI引擎。

此文使用了研揚科技針對邊緣AI行業開發者推出的哪吒（Nezha）開發套件，以信用卡大小（85x56mm）的開發板-哪吒（Nezha）為核心，哪吒采用Intel N97處理器（Alder Lake-N），最大睿頻3.6GHz，Intel UHD Graphics內核GPU，可實現高分辨率顯示；板載LPDDR5內存、eMMC存儲及TPM 2.0，配備GPIO接口，支持Windows和Linux 操作系統，這些功能和無風扇散熱方式相結合，為各種應用程序構建高效的解決方案，適用于如自動化、物聯網網關、數字標牌和機器人等應用。

什么是Gemma？

Gemma是谷歌的一個輕量級、先進的開源模型家族，采用了與創建Gemini模型相同的研究和技術。它們以拉丁語單詞 “Gemma” 命名，意思是“寶石”，是文本到文本的、僅解碼器架構的LLM，有英文版本，具有開放權重、預訓練變體和指令調整變體。Gemma模型非常適合各種文本生成任務，包括問答、摘要和推理。

Gemma模型系列，包括Gemma-2B和Gemma-7B模型，代表了深度學習模型可擴展性和性能的分層方法。在本次博客中，我們將展示OpenVINO 如何優化和加速Gemma-2B-it模型的推理，即Gemma-2B參數模型的指令微調后的版本。

利用OpenVINO 優化和加速推理

優化、推理加速和部署的過程包括以下具體步驟，使用的是我們常用的OpenVINO Notebooks GitHub倉庫 中的254-llm-chatbot代碼示例。

由安裝必要的依賴包開始

運行OpenVINO Notebooks倉庫的具體安裝指南在這里。運行這個254-llm-chatbot的代碼示例，需要安裝以下必要的依賴包。

選擇推理的模型

由于我們在Jupyter Notebook演示中提供了一組由OpenVINO 支持的LLM，您可以從下拉框中選擇 “Gemma-2B-it” 來運行該模型的其余優化和推理加速步驟。當然，很容易切換到 “Gemma-7B-it” 和其他列出的型號。

使用Optimum Intel實例化模型

Optimum Intel是Hugging Face Transformers和Diffuser庫與OpenVINO 之間的接口，用于加速Intel體系結構上的端到端流水線。接下來，我們將使用Optimum Intel從Hugging Face Hub加載優化模型，并創建流水線，使用Hugging Face API以及OpenVINO Runtime運行推理。在這種情況下，這意味著我們只需要將AutoModelForXxx類替換為相應的OVModelForXxx類。