Orca-2-13B[1] 是微軟最新發(fā)布的 Orca 2 系列中的一款模型,Orca 2 另外還提供 7B 版本。Orca 2系列模型是由 LLAMA 2 基礎(chǔ)模型中微調(diào)而來。Orca 2系列模型擅長推理、文本總結(jié)、數(shù)學(xué)問題解決和理解任務(wù),是在原始 13B Orca 模型的基礎(chǔ)上進(jìn)一步發(fā)展而來,模仿更強(qiáng)大的 AI 系統(tǒng)推理過程從而提高小型模型在復(fù)雜任務(wù)中的能力。
本文將以 Orca-2-13B 為例,將介紹:
如何在你自己的設(shè)備上運(yùn)行 Orca-2-13B
如何為 Orca-2-13B 創(chuàng)建一個(gè)與 OpenAI 兼容的 API 服務(wù)
你也可以使用同樣的方式運(yùn)行 Orca-2-7B 模型,只需要替換 Orca-2-7B模型的 GGUF 格式的下載鏈接。
我們將用 Rust + Wasm 技術(shù)棧來開發(fā)和部署這個(gè)模型的應(yīng)用程序。無需安裝復(fù)雜的 Python 包或 C++ 工具鏈!了解我們?yōu)槭裁催x擇 Rust+Wasm 技術(shù)棧[2]。
在自己的設(shè)備上運(yùn)行 Orca-2-13B
步驟 1:通過以下命令行安裝 WasmEdge[3]。
curl-sSfhttps://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh|bash-s----pluginwasi_nn-ggml
步驟 2:下載模型 GGUF 文件[4]。由于模型文件有幾 GB,所以可能需要很長時(shí)間。
curl-LOhttps://huggingface.co/second-state/Orca-2-13B-GGUF/resolve/main/Orca-2-13b-ggml-model-q4_0.gguf
步驟 3:下載一個(gè)跨平臺的可移植 Wasm 文件,用于聊天應(yīng)用。該應(yīng)用能讓你用命令行與模型進(jìn)行交流。戳這里[5]查看該應(yīng)用的 Rust 源代碼。
curl-LOhttps://github.com/second-state/llama-utils/raw/main/chat/llama-chat.wasm
就這樣。接下來,可以通過輸入以下命令在終端與模型進(jìn)行聊天。
wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13b-ggml-model-q4_0.ggufllama-chat.wasm-pchatml-s'YouareOrca,anAIlanguagemodelcreatedbyMicrosoft.Youareacautiousassistant.Youcarefullyfollowinstructions.Youarehelpfulandharmlessandyoufollowethicalguidelinesandpromotepositivebehavior.'--stream-stdout
這個(gè)可移植的 Wasm 應(yīng)用會自動利用你設(shè)備上的硬件加速器(如 GPU)。
在我的 Mac M1 32G 內(nèi)存設(shè)備上,它的速度約為每秒 9.15 個(gè)token。
[USER]:What isanOrca? [ASSISTANT]: Anorca,orkillerwhale,isalargetoothedpredatorbelongingtotheoceanicdolphinfamily.Theyarehighlyintelligentandsocialanimals,knownfortheircuriosityandplayfulness. [USER]:
為 Orca-2-13B 創(chuàng)建一個(gè)與 OpenAI 兼容的 API 服務(wù)
一個(gè)與 OpenAI 兼容的網(wǎng)絡(luò) API 能讓 Orca-2-13B 與大量的 LLM 工具和代理框架(如 flows.network、LangChain 和 LlamaIndex)一起工作。
首先,先下載一個(gè) API 服務(wù)器應(yīng)用。它也是一個(gè)可以在許多 CPU 和 GPU 設(shè)備上運(yùn)行的跨平臺可移植 Wasm 應(yīng)用。
curl-LOhttps://github.com/second-state/llama-utils/raw/main/api-server/llama-api-server.wasm
然后,使用以下命令行啟動模型的 API 服務(wù)器。
wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13B.Q5_K_M.ggufllama-api-server.wasm-pchatml
從另一個(gè)終端,你可以使用 curl 與 API 服務(wù)器進(jìn)行交互。
curl-XPOSThttp://0.0.0.0:8080/v1/chat/completions-H'accept:application/json'-H'Content-Type:application/json'-d'{"messages":[{"role":"system","content":"YouareahelpfulAIassistant"},{"role":"user","content":"WhatisthecapitalofFrance?"}],"model":"Orca-2-13B"}'
就這樣。WasmEdge 是運(yùn)行 Orca-2-13B 大模型應(yīng)用程序最簡單、最快、最安全的方式[6]。試試看吧!
審核編輯:劉清
-
C++語言
+關(guān)注
關(guān)注
0文章
147瀏覽量
7300 -
python
+關(guān)注
關(guān)注
56文章
4827瀏覽量
86741 -
硬件加速器
+關(guān)注
關(guān)注
0文章
43瀏覽量
13066 -
Rust
+關(guān)注
關(guān)注
1文章
234瀏覽量
7097 -
OpenAI
+關(guān)注
關(guān)注
9文章
1208瀏覽量
8919
原文標(biāo)題:跨設(shè)備運(yùn)行微軟最新大語言模型 Orca-2-13B,只需4個(gè)命令行
文章出處:【微信號:Rust語言中文社區(qū),微信公眾號:Rust語言中文社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
安卓原生兼容服務(wù)器
如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

HarmonyOS NEXT開發(fā)實(shí)戰(zhàn):DevEco Studio中DeepSeek的使用
openai api key獲取的三種方案(有一種可以白嫖到 api key)

OpenAI API Key 獲取全攻略:入門、精通與詳解教程(國內(nèi)開發(fā)者優(yōu)化版)

DeepSeek上調(diào)API服務(wù)價(jià)格
OpenAI攻克Sora視頻創(chuàng)建錯(cuò)誤率高難題
OpenAI宣布API恢復(fù)運(yùn)行,ChatGPT正在逐步回歸
OpenAI 發(fā)了一個(gè)支持 ESP32 的 Realtime API SDK

OpenAI暫不推出Sora視頻生成模型API
api驅(qū)動的云服務(wù)是什么意思?
微軟終止中國大陸個(gè)人Azure OpenAI服務(wù),為國內(nèi)大模型帶來機(jī)遇
華納云:使用 WireMock 在開發(fā)和測試中模擬 API 服務(wù)
esp32上使用chatGPT做一些有意思的事情
OpenAI api key獲取并可調(diào)用GPT-4.0、GPT-4o、GPT-4omini

評論