NVIDIA 近期發(fā)布了Cosmos Reason-1的 7B 和 56B 兩款多模態(tài)大語言模型 (MLLM),它們經(jīng)過了“物理 AI 監(jiān)督微調(diào)”和“物理 AI 強(qiáng)化學(xué)習(xí)”兩個(gè)階段的訓(xùn)練。其中,Cosmos Reason-1-7B 已經(jīng)開源,其基于 Qwen2.5-VL 使用物理常識(shí)和具身推理數(shù)據(jù)進(jìn)行了后訓(xùn)練。
阿里云 PAI-Model Gallery 現(xiàn)已集成 Cosmos Reason-1-7B 模型并提供企業(yè)級(jí)部署方案,本文介紹如何在阿里云人工智能平臺(tái) PAI (Platform of AI) 上快速部署和使用該模型。
NVIDIA Cosmos 平臺(tái)
NVIDIA Cosmos是一個(gè)世界基礎(chǔ)模型 (WFM) 的開發(fā)平臺(tái),整合了先進(jìn)的分詞器、護(hù)欄以及用于加速數(shù)據(jù)處理和管理的工作流,它為世界模型的訓(xùn)練提供支持,并加速智能駕駛汽車 (AV) 和機(jī)器人的物理 AI 開發(fā)。
Cosmos 提供了一系列預(yù)訓(xùn)練多模態(tài)模型,開發(fā)者可以開箱即用,包括用于世界生成和后訓(xùn)練的 Cosmos Predict、生成大規(guī)模可控且高保真合成數(shù)據(jù)的 Cosmos Transfer、物理 AI 推理的 Cosmos Reason 以及過濾不安全輸入并確保輸出一致性和安全性的 Cosmos Guardrail 等。
其中,NVIDIA Cosmos Reason-1 是一款可完全定制的多模態(tài) AI 推理模型,它專門為理解運(yùn)動(dòng)、物體交互以及時(shí)空關(guān)系而構(gòu)建。基于思維鏈 (Chain-of-thought, CoT) 推理,Cosmos Reason-1 模型可以解讀視覺輸入、根據(jù)給定的提示詞預(yù)測(cè)結(jié)果、并基于推理給出優(yōu)化分析和決策。
該模型基于真實(shí)世界的物理規(guī)律實(shí)現(xiàn)推理,從而生成清晰且能夠感知上下文環(huán)境的自然語言回復(fù)。Cosmos Reason-1 既可以作為其他物理 AI 模型的數(shù)據(jù)清洗和質(zhì)量過濾工具,也可以作為規(guī)劃模型用于推理具身智能體下一步的行為。
阿里云 PAI-Model Gallery 集成的Cosmos Reason-1-7B
PAI-Model Gallery 是阿里云人工智能平臺(tái) PAI 產(chǎn)品組件,集成了眾多 AI 開源社區(qū)中優(yōu)質(zhì)的預(yù)訓(xùn)練模型,并且基于開源模型支持零代碼實(shí)現(xiàn)模型訓(xùn)練(微調(diào))、壓縮、評(píng)測(cè)、部署和推理的全部過程,提供更快、更高效、更便捷的 AI 應(yīng)用體驗(yàn)。此外,它還提供開箱即用的 API,并且支持企業(yè)級(jí)數(shù)據(jù)安全。
Cosmos Reason-1-7B 集成到阿里云 PAI-Model Gallery,標(biāo)志著用戶能夠在“AI + 云”的范式下,通過預(yù)訓(xùn)練模型的即用性與模塊化設(shè)計(jì),顯著降低多模態(tài)技術(shù)棧選型的復(fù)雜度及模型適配成本。
企業(yè)和開發(fā)者現(xiàn)在可以基于領(lǐng)先的云原生平臺(tái),實(shí)現(xiàn)從原始視覺數(shù)據(jù)輸入到物理約束驅(qū)動(dòng)的高級(jí)推理輸出的端到端開發(fā),從而加速物理 AI 從原型到生產(chǎn)級(jí)部署的全生命周期。
在阿里云 PAI 上一鍵部署Cosmos Reason-1-7B
本節(jié)介紹 Cosmos Reason-1-7B 模型在阿里云人工智能平臺(tái) PAI 上進(jìn)行一鍵部署,以及模型驗(yàn)證的實(shí)踐。
1. 在 PAI-Model Gallery 模型廣場(chǎng)找到 Cosmos Reason-1-7B 模型。以阿里云新加坡和中國大陸的節(jié)點(diǎn)為例。
2. 在模型詳情頁右上角點(diǎn)擊「部署」,在選擇計(jì)算資源后,即可一鍵完成模型的云上部署。
3. 部署成功后,在服務(wù)頁面可以點(diǎn)擊“查看調(diào)用信息”獲取調(diào)用的 Endpoint 和 Token,想了解服務(wù)調(diào)用方式可以點(diǎn)擊“預(yù)訓(xùn)練模型”鏈接,返回模型介紹頁查看調(diào)用方式說明。
4. 使用推理服務(wù):您可以使用 API 調(diào)用模型服務(wù),也可以使用 PAI 提供的 WebUI 界面與模型交互。
模型實(shí)測(cè)
實(shí)測(cè)使用NVIDIA Research官網(wǎng)上的視頻案例作為模型輸入。視頻中一個(gè)人正在往杯子中倒牛奶,我們給模型的問題是:“視頻中的人將牛奶倒入杯子以后,下一步最合理的動(dòng)作是什么?”模型的回答展示出模型考慮到了人物下一步動(dòng)作的各種可能性,甚至考慮到了倒完牛奶放好奶瓶后,用勺子攪拌牛奶和咖啡,最后模型在進(jìn)行了一番深入思考后得出了結(jié)論,下一步是“將奶瓶放回到臺(tái)面上”。
從這個(gè)例子可以看出,模型準(zhǔn)確地“理解”了視頻中人的動(dòng)作并給出了正確的預(yù)測(cè),這種對(duì)運(yùn)動(dòng)、物體交互以及時(shí)空關(guān)系的理解及預(yù)測(cè)能力一般難以做到,而且模型輸出了完整的思維鏈,讓我們能清楚地知道模型的整個(gè)思考過程。
下面附上完整的視頻、輸入問題、模型輸出結(jié)果,供大家參考。
Question:The overall goal is "The agent pours milk into the cup". The agent in the video is currently performing one subtask out of many to complete this instruction. For the agent in the video, what is the most plausible next immediate subtask?
Model outputs:The agent is currently pouring milk into the cup. The next immediate subtask after pouring would logically be to stop pouring once the desired amount is achieved. Then, the agent would need to place the milk bottle back on the countertop. After that, they might close the bottle's cap to prevent spills. Finally, they could stir the mixture with the spoon to mix the milk and coffee thoroughly. However, since the current action is pouring, the very next step after pouring would be to stop pouring and set the bottle down. But the question asks for the most plausible next immediate subtask. Since the pouring is ongoing, the next step after completing the pour would be to place the milk bottle back on the countertop. Alternatively, if the pouring is still in progress, maybe adjusting the angle to ensure all milk is poured. But given the context, the agent is actively pouring, so once that's done, placing the bottle down makes sense. However, the answer might be to stop pouring and set the bottle aside. But the exact next step after pouring would be to place the bottle back. Alternatively, maybe the agent needs to check if the cup is full enough. But the most logical next step after pouring is to stop and place the bottle down. So the answer is likely "Place the milk bottle back on the countertop."
即將到來:基于 NVIDIA Cosmos Reason-1 tools的模型后訓(xùn)練最佳實(shí)踐
NVIDIA 也開源了 Cosmos Reason-1 tools,它是用于在 Cosmos Reason-1 基準(zhǔn)測(cè)試上訓(xùn)練和評(píng)估模型的腳本。它提供的模型后訓(xùn)練腳本 (SFT + RL) 將加速企業(yè)和開發(fā)者基于自有數(shù)據(jù)定制 Cosmos Reason-1 模型,從而創(chuàng)建專屬的 physical AI 模型。
阿里云 PAI 團(tuán)隊(duì)測(cè)試的 Cosmos Reason-1 tools 的性能表現(xiàn)如下:在 Qwen2.5-32B-Instruct 模型和 gsm8k 數(shù)據(jù)集 (Batch size = 2,048) 組合上進(jìn)行后訓(xùn)練測(cè)試,相比其他開源框架,Cosmos Reason-1 tools 在小規(guī)模集群上實(shí)測(cè)有 1-2 倍的性能加速。PAI 將在近期集成 Cosmos Reason-1 tools 的模型后訓(xùn)練能力。
通過阿里云 PAI 上手實(shí)踐NVIDIA Cosmos Reason-1-7B 模型
您可以根據(jù)所在區(qū)域,在阿里云國際站的新加坡或中國大陸節(jié)點(diǎn),通過阿里云 PAI 使用 Cosmos Reason-1-7B 模型。
作者
黃博遠(yuǎn)
黃博遠(yuǎn)是阿里云大數(shù)據(jù)及人工智能平臺(tái)的產(chǎn)品總監(jiān)。他于 2014 年加入阿里巴巴集團(tuán),負(fù)責(zé)阿里媽媽(在線廣告)和商業(yè)搜索團(tuán)隊(duì)的工程工作。自 2018 年起,他擔(dān)任阿里云人工智能平臺(tái) PAI、DataWorks 和搜索平臺(tái)的產(chǎn)品負(fù)責(zé)人。加入阿里巴巴之前,自 2007 年起,他曾在微軟搜索技術(shù)中心擔(dān)任搜索廣告與展示廣告團(tuán)隊(duì)的資深開發(fā)負(fù)責(zé)人。
高慧怡
高慧怡是 NVIDIA 深度學(xué)習(xí)解決方案架構(gòu)師,2020 年加入 NVIDIA 解決方案架構(gòu)團(tuán)隊(duì),從事深度學(xué)習(xí)應(yīng)用在異構(gòu)系統(tǒng)的加速工作,目前主要支持國內(nèi) CSP 客戶在大語言模型的訓(xùn)練加速工作。
金國強(qiáng)
金國強(qiáng)是 NVIDIA 資深解決方案架構(gòu)師,主要負(fù)責(zé)深度學(xué)習(xí)生成式 AI 領(lǐng)域模型訓(xùn)練、推理優(yōu)化以及大模型開發(fā)與應(yīng)用云端落地等技術(shù)方向合作。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5242瀏覽量
105771 -
模型
+關(guān)注
關(guān)注
1文章
3487瀏覽量
49992 -
阿里云
+關(guān)注
關(guān)注
3文章
1005瀏覽量
43864
原文標(biāo)題:在阿里云 PAI 上一鍵部署和使用 NVIDIA Cosmos Reason-1 模型
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論