AgiBot World Colosseo:構建通用機器人智能的規模化數據平臺隨著人工智能在語言處理和計算機視覺領域取得突破,機器人技術仍面臨現實場景泛化能力的挑戰。這一困境的核心在于高質量機器人數據的匱乏,制約了通用操縱能力的突破。上海人工智能實驗室與AgiBot公司聯合研發的AgiBot World Colosseo平臺,通過構建大規模、多模態的真實世界數據集與通用政策模型,為機器人學習領域開辟了新的范式。
論文下載:*附件:論文 AgiBot World Colosseo Large-scale Manipulation Platform.pdf
一、規模化數據平臺:從實驗室到真實世界的跨越
傳統機器人數據集(如RoboNet、BridgeData)受限于場景單一性和硬件異構性,難以支撐復雜任務的泛化學習。AgiBot World Colosseo以4000平方米的實體設施模擬家庭、工業、餐飲等五大真實場景,部署100臺AgiBot G1雙臂人形機器人,累計采集超100萬條軌跡數據(時長2976小時),涵蓋217項任務和87種技能。這一規模較現有數據集(如Open X-Embodiment的240萬條軌跡)雖在數量上相近,但AgiBot World通過標準化采集流程與“人在回路”驗證機制,保證了數據的高質量與場景的真實性。例如,工業場景中機器人需協作完成零件裝配,餐飲場景則涉及餐具精細化操作,這些任務均需結合視覺、觸覺與語言指令的多模態交互。
二、數據質量與多樣性:構建通用智能的基石
AgiBot World的數據優勢體現在三個維度:
**1. ** 硬件標準化 :統一采用配備全身控制、靈巧手與視觸覺傳感器的AgiBot G1機器人,消除硬件差異對政策泛化的影響。
**2. ** 任務設計多樣性 :涵蓋從工具使用到多機器人協同的復雜長時序任務,例如“整理零售貨架”需機器人識別商品類別、規劃路徑并避免碰撞。
**3. ** 人類反饋閉環 :由專業操作員通過遠程操控生成示范數據,并通過實時驗證修正錯誤,確保每條軌跡的有效性。此外,平臺特意保留失敗恢復數據(標注錯誤狀態),為政策魯棒性訓練提供素材。
這一體系使得AgiBot World在數據質量上顯著超越同類項目。例如,DROID雖通過眾包擴展場景多樣性,但因缺乏質量把控,政策性能在真實場景中表現不佳;而AgiBot World通過標準化流程與人工審核,將成功率提升至60%以上。
三、Genie Operator-1:基于潛在動作的通用政策框架
為解決現有機器人模型依賴特定數據集的問題,AgiBot World團隊開發了Genie Operator-1(GO-1)政策。該框架創新點在于:
**● ** 潛在動作規劃 :通過將人類視頻與機器人數據統一映射至潛在動作空間,實現跨模態知識遷移。
**● ** 分層學習架構 :底層采用預訓練的視覺語言模型(VLM)處理環境感知,上層通過強化學習優化序列決策。
**● ** 可擴展訓練 :利用AgiBot World數據集的規模優勢,政策性能隨數據量增加呈線性提升,較基準方法(RDT)提升32%。
實驗表明,在復雜長時序任務(如“制作咖啡”)中,GO-1成功率達63%,遠超傳統方法。同時,僅使用AgiBot World 10%數據預訓練的模型,在泛化性能上仍比Open X-Embodiment提升18%,驗證了數據集的高效性。
四、開放生態與未來展望
AgiBot World通過開源數據集、工具鏈與預訓練模型,推動機器人研究向“通用智能”邁進。其貢獻不僅在于構建目前最大規模的雙臂機器人學習平臺,更通過標準化流程為行業樹立了數據質量標桿。當前局限在于評估仍依賴真實場景,團隊正開發仿真環境以加速政策迭代。未來,該平臺有望在家庭服務、工業自動化等領域催生更魯棒的機器人應用。
AgiBot World Colosseo的突破揭示了規模化數據與標準化方法在機器人技術中的核心價值。通過構建真實世界的“數據羅馬斗獸場”,這一平臺正將機器人從單一任務執行者轉變為具備泛化能力的智能體,為通用機器人智能的落地奠定關鍵基石。
參考
AGIBOT 世界
GitHub - OpenDriveLab/AgiBot-World: The Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems
OpenDriveLab | Robotics and Autonomous Driving at HKU, AI Lab, and beyond
-
機器人
+關注
關注
213文章
29482瀏覽量
211542
發布評論請先 登錄
評論