近日,NVIDIA 發布了 Jetson 生成式 AI 實驗室(Jetson Generative AI Lab),使開發者能夠通過 NVIDIA Jetson 邊緣設備在現實世界中探索生成式 AI 的無限可能性。不同于其他嵌入式平臺,Jetson 能夠在本地運行大語言模型(LLM)、視覺 Transformer 和 stable diffusion,包括在 Jetson AGX Orin 上以交互速率運行的 Llama-2-70B 模型。

圖 1. 領先的生成式 AI 模型在
Jetson AGX Orin 上的推理性能
如要在 Jetson 上快速測試最新的模型和應用,請使用 Jetson 生成式 AI 實驗室提供的教程和資源?,F在,您可以專注于發掘生成式 AI 在物理世界中尚未被開發的潛力。
本文將探討可以在 Jetson 設備上運行和體驗到的振奮人心的生成式 AI 應用,所有這些也都在實驗室的教程中予以了說明。
邊緣生成式 AI
在快速發展的 AI 領域,生成式模型和以下模型備受關注:
-
能夠參與仿照人類對話的 LLM。
-
使 LLM 能夠通過攝像機感知和理解現實世界的視覺語言模型(VLM)。
-
可將簡單的文字指令轉換成驚艷圖像的擴散模型。
這些在 AI 領域的巨大進步激發了許多人的想象力。但是,如果您去深入了解支持這種前沿模型推理的基礎架構,就會發現它們往往被“拴”在云端,依賴其數據中心的處理能力。這種以云為中心的方法使得某些需要高帶寬、低延遲的數據處理的邊緣應用在很大程度上得不到開發。
視頻 1. NVIDIA Jetson Orin 為邊緣帶來強大的生成式 AI 模型
在本地環境中運行 LLM 和其他生成式模型這一新趨勢正在開發者社群中日益盛行。蓬勃發展的在線社區為愛好者提供了一個討論生成式 AI 技術最新進展及其實際應用的平臺,如 Reddit 上的 r/LocalLlama。在 Medium 等平臺上發表的大量技術文章深入探討了在本地設置中運行開源 LLM 的復雜性,其中一些文章提到了利用 NVIDIA Jetson。
Jetson 生成式 AI 實驗室是發現最新生成式 AI 模型和應用,以及學習如何在 Jetson 設備上運行它們的中心。隨著該領域快速發展,幾乎每天都有新的 LLM 出現,并且量化程序庫的發展也在一夜之間重塑了基準,NVIDIA 認識到了提供最新信息和有效工具的重要性。因此我們提供簡單易學的教程和預構建容器。
而實現這一切的是 jetson-containers,一個精心設計和維護的開源項目,旨為 Jetson 設備構建容器。該項目使用 GitHub Actions,以 CI/CD 的方式構建了 100 個容器。這些容器使您能夠在 Jetson 上快速測試最新的 AI 模型、程序庫和應用,無需繁瑣地配置底層工具和程序庫。
通過 Jetson 生成式 AI 實驗室和 jetson-containers,您可以集中精力使用 Jetson 探索生成式 AI 在現實世界中的無限可能性。
演示
以下是一些振奮人心的生成式 AI 應用,它們在 Jetson 生成式 AI 實驗室所提供的 NVIDIA Jetson 設備上運行。
stable-diffusion-webui

圖 2. Stable Diffusion 界面
A1111 的 stable-diffusion-webui 為 Stability AI 發布的 Stable Diffusion 提供了一個用戶友好界面。您可以使用它執行許多任務,包括:
-
文本-圖像轉換:根據文本指令生成圖像。
-
圖像-圖像轉換:根據輸入圖像和相應的文本指令生成圖像。
-
圖像修復:對輸入圖像中缺失或被遮擋的部分進行填充。
-
圖像擴展:擴展輸入圖像的原有邊界。
網絡應用會在首次啟動時自動下載 Stable Diffusion v1.5 模型,因此您可以立即開始生成圖像。如果您有一臺 Jetson Orin 設備,就可以按照教程說明執行以下命令,非常簡單。
git clone https://github.com/dusty-nv/jetson-containers
cd jetson-containers
./run.sh$(./autotagstable-diffusion-webui)
有關運行 stable-diffusion-webui 的更多信息,參見 Jetson 生成式 AI 實驗室教程。Jetson AGX Orin 還能運行較新的 Stable Diffusion XL(SDXL)模型,本文開頭的主題圖片就是使用該模型生成的。
text-generation-webui
圖 3. 在 Jetson AGX Orin上與 Llama-2-13B 互動聊天
Oobabooga 的 text-generation-webui 也是一個基于 Gradio、可在本地環境中運行 LLM 的常用網絡接口。雖然官方資源庫提供了各平臺的一鍵安裝程序,但 jetson-containers 提供了一種更簡單的方法。
通過該界面,您可以輕松地從 Hugging Face 模型資源庫下載模型。根據經驗,在 4 位量化情況下,Jetson Orin Nano 一般可容納 70 億參數模型,Jetson Orin NX 16GB 可運行 130 億參數模型,而 Jetson AGX Orin 64GB 可運行驚人的 700 億參數模型。
現在很多人都在研究 Llama-2。這個 Meta 的開源大語言模型可免費用于研究和商業用途。在訓練基于 Llama-2 的模型時,還使用了監督微調(SFT)和人類反饋強化學習(RLHF)等技術。有些人甚至聲稱它在某些基準測試中超過了 GPT-4。
Text-generation-webui 不但提供擴展程序,還能幫助您自主開發擴展程序。在以下 llamaspeak 示例中可以看到,該界面可以用于集成您的應用,還支持多模態 VLM,如 Llava 和圖像聊天。

圖 4. 量化的 Llava-13B VLM 對圖像查詢的響應
有關運行 text-generation-webui 的更多信息,參見 Jetson 生成式 AI 實驗室教程:https://www.jetson-ai-lab.com/tutorial_text-generation.html
llamaspeak

圖 5. 使用 Riva ASR/TTS 與
LLM 進行 Llamaspeak 語音對話
Llamaspeak 是一款交互式聊天應用,通過實時 NVIDIA Riva ASR/TTS 與本地運行的 LLM 進行語音對話。Llamaspeak 目前已經成為 jetson-containers 的組成部分。
如果要進行流暢無縫的語音對話,就必須盡可能地縮短 LLM 第一個輸出標記的時間。Llamaspeak 不僅可以縮短這一時間,還能在此基礎上處理對話中斷的情況,這樣當 llamaspeak 在對生成的回復進行 TTS 處理時,您就可以開始說話了。容器微服務適用于 Riva、LLM 和聊天服務器。

圖 6. 流式 ASR/LLM/TTS 管道
到網絡客戶端的實時對話控制流
Llamaspeak 具備響應式界面,可從瀏覽器麥克風或連接到 Jetson 設備的麥克風傳輸低延遲音頻流。有關自行運行的更多信息,參見 jetson-containers 文檔:https://github.com/dusty-nv/jetson-containers/tree/master/packages/llm/llamaspeak
NanoOWL
Open World Localization with Vision Transformers(OWL-ViT)是一種由 Google Research 開發的開放詞匯檢測方法。該模型使您能夠通過提供目標對象的文本提示進行對象檢測。
比如在檢測人和車時,使用描述該類別的文本提示系統:
prompt = “a person, a car”
這種監測方法很有使用價值,無需訓練新的模型,就能實現快速開發新的應用。為了解鎖邊緣應用,我們團隊開發了一個名為 NanoOWL 的項目,使用 NVIDIA TensorRT 對該模型進行優化,從而在 NVIDIA Jetson Orin 平臺上獲得實時性能(在 Jetson AGX Orin 上的編碼速度約為 95FPS)。該性能意味著您可以運行遠高于普通攝像機幀率的 OWL-ViT。
該項目還包含一個新的樹形檢測管道,能夠加速 OWL-ViT 模型與 CLIP 相結合,從而實現任何級別的零樣本檢測和分類。比如,在檢測人臉時對快樂或悲傷進行區分,請使用以下提示:
prompt = “[a face (happy, sad)]”
如果要先檢測人臉,再檢測每個目標區域的面部特征,請使用以下提示:
prompt = “[a face [an eye, a nose, a mouth]]”
將兩者組合:
prompt = “[a face (happy, sad)[an eye, a nose, a mouth]]”
這樣的例子數不勝數。這個模型在某些對象或類的可能更加精準,而且由于開發簡單,您可以快速嘗試不同的組合并確定是否適用。我們期待著看到您所開發的神奇應用!
Segment Anything 模型

圖 8. Segment Anything 模型(SAM)的 Jupyter 筆記本
Meta 發布了 Segment Anything 模型(SAM),這個先進的圖像分割模型能夠精確識別并分割圖像中的對象,無論其復雜程度或上下文如何。
其官方資源庫中也設有 Jupyter 筆記本,以實現輕松檢查模型的影響,同時 jetson-containers 也提供了一個內置 Jupyter Lab 的便捷容器。
NanoSAM
圖 9. 實時追蹤和分割電腦鼠標的 NanoSAM
Segment Anything(SAM)是能將點轉化成分割掩碼的神奇模型。遺憾的是,它不支持實時運行,這限制了其在邊緣應用中發揮作用。
為了克服這一局限性,我們最近發布了一個新的項目 NanoSAM,能夠將 SAM 圖像編碼器提煉成一個輕量級模型,我們也使用 NVIDIA TensorRT 對該模型進行優化,從而在 NVIDIA Jetson Orin 平臺上實現了實時性能的應用?,F在,您無需接受任何額外的培訓,就可以輕松地將現有的邊界框或關鍵點檢測器轉化成實例分割模型。
Track Anything 模型
正如該團隊的論文:https://arxiv.org/abs/2304.11968所述,Track Anything 模型(TAM)是“Segment Anything 與視頻的結合”。在其基于 Gradio 的開源界面上,您可以點擊輸入視頻的某一個幀,來指定待追蹤和分割的任何內容。TAM 模型甚至還具備通過圖像修補去除追蹤對象的附加功能。

圖 10. Track Anything 界面
NanoDB
視頻 2. Hello AI World -
NVIDIA Jetson 上的實時多模態 VectorDB
除了在邊緣對數據進行有效的索引和搜索外,這些矢量數據庫還經常與 LLM 配合使用,在超出其內置上下文長度(Llama-2 模型為 4096 個標記)的長期記憶上實現檢索增強生成(RAG)。視覺語言模型也使用相同的嵌入作為輸入。

圖 11. 以 LLM/VLM 為核心的架構圖
有了來自邊緣的所有實時數據以及對這些數據的理解能力,AI 應用就成為了能夠與真實世界互動的智能體。想要在您自己的圖像和數據集上嘗試使用 NanoDB ,了解更多信息,請參見實驗室教程:https://www.jetson-ai-lab.com/tutorial_nanodb.html
總結
正如您所見,激動人心的生成式 AI 應用正在涌現。您可以按照這些教程,在 Jetson Orin 上輕松運行體驗。如要見證在本地運行的生成式 AI 的驚人能力,請訪問 Jetson 生成式 AI 實驗室:https://www.jetson-ai-lab.com/
如果您在 Jetson 上創建了自己的生成式 AI 應用并想要分享您的想法,請務必在 Jetson Projects 論壇:https://forums.developer.nvidia.com/c/agx-autonomous-machines/jetson-embedded-systems/jetson-projects/78上展示您的創作。
歡迎參加我們于北京時間 2023 年 11 月 8 日周三凌晨 1-2 點舉行的網絡研討會,深入了解本文中討論的多項主題并進行現場提問!
在本次研討會中,您將了解到:
-
開源 LLM API 的性能特點和量化方法
-
加速 CLIP、OWL-ViT 和 SAM 等開放詞匯視覺轉換器
-
多模態視覺代理,向量數據庫和檢索增強生成
-
通過 NVIDIA Riva ASR/NMT/TTS 實現多語言實時對話和會話
掃描下方二維碼,馬上報名參會!

原文標題:利用 NVIDIA Jetson 實現生成式 AI
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3948瀏覽量
93698
原文標題:利用 NVIDIA Jetson 實現生成式 AI
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
研華NVIDIA Jetson Orin Nano系統支持Super Mode

NVIDIA Omniverse擴展至生成式物理AI領域
NVIDIA推出多個生成式AI模型和藍圖
NVIDIA發布高性價比生成式AI超級計算機
NVIDIA發布小巧高性價比的Jetson Orin Nano Super開發者套件
NVIDIA 推出高性價比的生成式 AI 超級計算機

NVIDIA推出全新生成式AI模型Fugatto
NVIDIA助力Amdocs打造生成式AI智能體
初創公司借助NVIDIA Metropolis和Jetson提高生產線效率
使用NVIDIA Jetson打造機器人導盲犬
NVIDIA AI助力SAP生成式AI助手Joule加速發展
NVIDIA在加速計算和生成式AI領域的創新
全新NVIDIA NIM微服務將生成式AI引入數字環境
NVIDIA攜手Meta推出AI服務,為企業提供生成式AI服務
NVIDIA AI Foundry 為全球企業打造自定義 Llama 3.1 生成式 AI 模型

評論