隨著互聯網自然語言數據逐漸耗盡,AI想要獲得進一步的突破性成長,需要走出數字世界,邁向物理世界。
如同人類的進化軌跡——當機器能夠在現實物理世界中自主探索,便能完成自我迭代與持續進化。
近日,由全國工商聯人工智能委員會傾力主辦,商湯科技承辦的“大愛無疆·模塑未來” WAIC 2025大模型論壇上,商湯科技正式發布「悟能」具身智能平臺,從開悟世界模型到明晰智能、開悟智能,旨在為具身智能打造一個能夠在現實世界中自由探索成長的強大“訓練場”。
基于方舟視覺感知、大裝置、日日新大模型等多種技術的長期積累,商湯「悟能」具身智能平臺以商湯“開悟”世界模型為核心引擎,依托商湯大裝置提供強大的端側和云側算力支持,能夠為機器人、智能設備賦予強大的感知、視覺導航及多模態交互能力,推動智能終端向更高層次的自主化與智能化演進。
商湯科技董事長兼首席執行官徐立表示,“世界模型和具身AI的結合,將開啟AI發展的下一個階段,完成由‘工具’向‘人’的躍遷,加速邁向AGI時代。商湯希望「悟能」具身智能平臺能夠幫助各類具身智能企業,幫助他們完成和現實世界交互的夢想。”
感知全能、導航精準、交互靈活
為具身智能打造“三大核心引擎”
感知、導航和交互,是具身智能的三大核心能力。
商湯科技在這三大方面均擁有深厚的技術積淀,如今這些積累轉化成了「悟能」具身智能的能力。
首先,感知是機器探索現實世界的基礎。
憑借商湯方舟在視覺AI領域十余年的深耕積累,從機器狗到機器人,「悟能」具身智能平臺能為各類終端硬件賦予對萬物的識別與理解能力,同時具有強大的場景適配性,可完全嵌入端側芯片實現端側推理,讓感知更高效、響應更敏捷。
無論是機器狗的視角(上方視頻)還是機器人的視角(下方視頻),都能對外界有整體的天然感知識別,對物體形成自然劃分切割。
導航是機器在現實世界中行動的“骨架”。
商湯絕影在純視覺端到端智能輔助駕駛方案上的技術積累,可泛化適配至機器人、機器狗等硬件設備,讓機器人在更多樣的環境中實現精準路徑規劃與導航。
同樣,無論是在綠化小路中四足奔走的、體型較小的機器狗(上方視頻)還是行駛在城區正常車道的自動駕駛車輛(下方視頻)都在實現精準路徑規劃與導航的同時,準確地進行了自動避障。
交互是機器與現實世界連接的橋梁。
基于“日日新”大模型的技術積累與不斷迭代,“悟能”具身智能平臺可以賦能機器人具備和現實世界的交互能力,具備有溫度、有深度、長記憶、超穩定等能力亮點。
以AI生成的《長安的荔枝》電影介紹PPT為例,由“悟能”具身智能平臺賦能的人形機器人,能夠以各種風趣幽默、嚴謹務實等各種語言風格進行生動講解。
同時,它還可以自動翻頁,實時響應用戶提問,敏銳捕捉用戶意圖,期間用戶打斷提問,它完成提問后還能回歸繼續講解。
它還能結合長記憶能力進行階段性回顧歷史用戶提問,作出小結,即便遇到嘈雜環境也能輕松應對。
商湯“悟能”具身智能平臺可廣泛適配包括汽車、機器人在內的各類終端,實現空間層面的現實世界互動。
構建4D真實世界
為機器進化提供高質量現實世界數據
基于強大的多模態深度理解能力,商湯“開悟”世界模型具備合理的空間一致性和時間一致性,可生成高質量數據,有效提升具身智能等終端設備的智能水平。
“開悟”世界模型能夠僅憑自然語言描述,即可生成逼真的七路攝像頭視角模擬數據,且不同視角下的幾何位置高度對應,完全符合物理世界的規律。
“開悟”世界模型還能夠編輯真實世界,可對現實世界中的車輛等場景元素進行替換、刪除、增補,創造更加多樣的現實場景。
基于強大的生成和編輯能力,“開悟”世界模型可以精準模擬方向盤、剎車和油門控制,帶來如同在真實的街道場景中玩“極品飛車”的效果,讓機器在現實世界中自由探索。
“極品飛車”啥效果,來這里看看:商湯董事長兼CEO徐立:人工智能的十年演進 | WAIC 2025主論壇
到了具身世界,發揮空間則更大。
相較于智能汽車,機器人適用和覆蓋的場景更加廣泛,能夠通過主動探索生成更多高質量的現實世界數據,在具身智能數據匱乏的當前環境下,可通過構建面向人、物、場的4D真實世界,突破模型泛化能力的邊界。
具身世界模型讓用戶僅需要輸入簡單的提示詞,就能自主進行位姿、動作骨架和指令的生成,讓機器人動作更合理。
給出“在廚房區域的架子上找東西”指令,具身世界模型可以準確生成相應的場景視頻和機器人的連續位姿,從上圖變成下面連續的動態視頻
再來一組,還是只給出初始視角。
給出“進入娛樂室、向右轉,然后打開通往院子的門”指令,具身世界模型不僅可以進行連續位姿生成,還支持多角度查看,并保持高度的時空一致性
給出“生成一段切黃瓜的機器人視頻”指令,具身世界模型可準確生成動作骨架,隨后輸出具身第一視角、第三視角4D世界視角等多種視角的視頻。
給出“生成一段白天公園里機器人跳躍的視頻”指令,具身世界模型同樣可以模擬生成符合3D關系的4D世界的真實視頻。
即便是不同相機位姿視角的視頻生成,具身世界模型也能輕松拿捏,來看下具身世界模型生成的多視角視頻
商湯“悟能”具身智能平臺正在實質性打破虛實界限,構建AI與物理世界交互的高效通路。
未來,商湯科技希望助力賦能具身智能企業實現感知、理解與生成能力的躍遷,將具身交互的不確定性挑戰轉化為產業升級的確定性路徑,推動AI向下一個十年加速進化。
-
AI
+關注
關注
88文章
35476瀏覽量
281163 -
商湯科技
+關注
關注
8文章
570瀏覽量
36845 -
具身智能
+關注
關注
0文章
153瀏覽量
504
原文標題:商湯發布“悟能”具身智能平臺,AI在物理世界中實現自我進化
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄

評論