手机看电影,柠檬91导航,大香焦影院免费看

Orca-2-13B[1] 是微軟最新發(fā)布的 Orca 2 系列中的一款模型，Orca 2 另外還提供 7B 版本。Orca 2系列模型是由 LLAMA 2 基礎(chǔ)模型中微調(diào)而來。Orca 2系列模型擅長推理、文本總結(jié)、數(shù)學(xué)問題解決和理解任務(wù)，是在原始 13B Orca 模型的基礎(chǔ)上進(jìn)一步發(fā)展而來，模仿更強(qiáng)大的 AI 系統(tǒng)推理過程從而提高小型模型在復(fù)雜任務(wù)中的能力。

本文將以 Orca-2-13B 為例，將介紹：

如何在你自己的設(shè)備上運(yùn)行 Orca-2-13B

如何為 Orca-2-13B 創(chuàng)建一個(gè)與 OpenAI 兼容的 API 服務(wù)

你也可以使用同樣的方式運(yùn)行 Orca-2-7B 模型，只需要替換 Orca-2-7B模型的 GGUF 格式的下載鏈接。

我們將用 Rust + Wasm 技術(shù)棧來開發(fā)和部署這個(gè)模型的應(yīng)用程序。無需安裝復(fù)雜的 Python 包或 C++ 工具鏈！了解我們?yōu)槭裁催x擇 Rust+Wasm 技術(shù)棧[2]。

在自己的設(shè)備上運(yùn)行 Orca-2-13B

步驟 1：通過以下命令行安裝 WasmEdge[3]。

curl-sSfhttps://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh|bash-s----pluginwasi_nn-ggml

步驟 2：下載模型 GGUF 文件[4]。由于模型文件有幾 GB，所以可能需要很長時(shí)間。

curl-LOhttps://huggingface.co/second-state/Orca-2-13B-GGUF/resolve/main/Orca-2-13b-ggml-model-q4_0.gguf

步驟 3：下載一個(gè)跨平臺的可移植 Wasm 文件，用于聊天應(yīng)用。該應(yīng)用能讓你用命令行與模型進(jìn)行交流。戳這里[5]查看該應(yīng)用的 Rust 源代碼。

curl-LOhttps://github.com/second-state/llama-utils/raw/main/chat/llama-chat.wasm

就這樣。接下來，可以通過輸入以下命令在終端與模型進(jìn)行聊天。

wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13b-ggml-model-q4_0.ggufllama-chat.wasm-pchatml-s'YouareOrca,anAIlanguagemodelcreatedbyMicrosoft.Youareacautiousassistant.Youcarefullyfollowinstructions.Youarehelpfulandharmlessandyoufollowethicalguidelinesandpromotepositivebehavior.'--stream-stdout

這個(gè)可移植的 Wasm 應(yīng)用會自動利用你設(shè)備上的硬件加速器（如 GPU）。

在我的 Mac M1 32G 內(nèi)存設(shè)備上，它的速度約為每秒 9.15 個(gè)token。

[USER]:What isanOrca?

[ASSISTANT]:
Anorca,orkillerwhale,isalargetoothedpredatorbelongingtotheoceanicdolphinfamily.Theyarehighlyintelligentandsocialanimals,knownfortheircuriosityandplayfulness.

[USER]:

為 Orca-2-13B 創(chuàng)建一個(gè)與 OpenAI 兼容的 API 服務(wù)

一個(gè)與 OpenAI 兼容的網(wǎng)絡(luò) API 能讓 Orca-2-13B 與大量的 LLM 工具和代理框架（如 flows.network、LangChain 和 LlamaIndex）一起工作。

首先，先下載一個(gè) API 服務(wù)器應(yīng)用。它也是一個(gè)可以在許多 CPU 和 GPU 設(shè)備上運(yùn)行的跨平臺可移植 Wasm 應(yīng)用。

curl-LOhttps://github.com/second-state/llama-utils/raw/main/api-server/llama-api-server.wasm

然后，使用以下命令行啟動模型的 API 服務(wù)器。

wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13B.Q5_K_M.ggufllama-api-server.wasm-pchatml

從另一個(gè)終端，你可以使用 curl 與 API 服務(wù)器進(jìn)行交互。

curl-XPOSThttp://0.0.0.0:8080/v1/chat/completions-H'accept:application/json'-H'Content-Type:application/json'-d'{"messages":[{"role":"system","content":"YouareahelpfulAIassistant"},{"role":"user","content":"WhatisthecapitalofFrance?"}],"model":"Orca-2-13B"}'

就這樣。WasmEdge 是運(yùn)行 Orca-2-13B 大模型應(yīng)用程序最簡單、最快、最安全的方式[6]。試試看吧！

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

C++語言

C++語言

+關(guān)注

關(guān)注
0

文章
147

瀏覽量
7300
python

python

+關(guān)注

關(guān)注
56

文章
4827

瀏覽量
86741
硬件加速器

硬件加速器

+關(guān)注

關(guān)注
0

文章
43

瀏覽量
13066
Rust

Rust

+關(guān)注

關(guān)注
1

文章
234

瀏覽量
7097
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1208

瀏覽量
8919

原文標(biāo)題：跨設(shè)備運(yùn)行微軟最新大語言模型 Orca-2-13B，只需4個(gè)命令行

文章出處：【微信號：Rust語言中文社區(qū)，微信公眾號：Rust語言中文社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

如何為Orca-2-13B創(chuàng)建一個(gè)與OpenAI兼容的API服務(wù)呢？

評論