一、前言
我是一名京東具身智能算法團隊的研究人員,目前,主要專注在真實場景真實機器人下打造一套快速落地新場景的具身智能技術架構,聚集機器人操作泛化能力提升,涉及模仿/強化學習、“視覺-語言-動作”大模型等方法研究。本文主要以第一階段咖啡機器人任務場景為切入點,來闡述所取得的技術突破,以及后續技術優化方向。如下是機器人全程自主完成打咖啡的視頻。
二、問題定義和路徑選擇
具身智能,指的是配備實體身軀、支持物理交互的智能體所展現出的智能形態。憑借這一智能形式,機器人及其他智能設備得以在復雜多變的現實世界中執行各類任務。然而,鑒于任務的復雜性以及操作所呈現出的高難度與多樣性,具身智能技術遭遇諸多挑戰,當前仍處于持續發展階段。現階段,多數具身智能研究僅在實驗室或結構化場景中開展,很難將成果遷移至真實場景加以應用。究其根源,理想環境屏蔽了諸多在真實場景中才會暴露的問題。有鑒于此,我將研究重心聚焦于真實場景下的具身智能技術突破,同時,為推動具身智能技術廣泛賦能多元業務,著力打造一套能夠快速適配新場景的具身智能技術架構。
目前,具身操作是具身智能核心技術卡點,其技術路線粗分為預測機器人操作動作與預測物體抓取位姿。前者泛化性弱且依賴大量專家數據,后者難適用于復雜長序列任務,靈巧手位姿也難獲取。鑒于此,創建了技術上乘上啟下“末端模仿” 新路徑,融合兩者優勢,包括預測預抓取位姿(易實現、泛化性強)與統一操作軌跡學習(減少專家數據依賴、操作靈巧),且該路徑可靈活擴展為 “視覺 - 語言 - 動作” 大模型方法。
三、快速落地新場景技術架構打造
在當今快速變化的技術環境中,集團會面臨著不斷適應新業務場景的挑戰。只能適應單一場景的具身智能技術不具備長期價值,而能夠快速落地新場景的具身智能技術則至關重要。因此,針對于真實場景下機器人打咖啡任務,打造了一套快速落地新場景的技術架構原型,并取得了關鍵技術突破。
1、關鍵技術突破及價值
1)真實場景下從0到1打造具身智能系統技術架構
面臨挑戰:具身智能系統往往涉及內容模塊較多,耦合關系較為復雜,可擴展性較差,難以快速適應新任務場景。與此同時,真實場景下,往往面臨著通信時延、模型推理速度和系統穩定性等挑戰。
技術突破:如下圖所示,打造了一套具備高擴展性的具身智能系統技術架構,只需定義合適的子任務序列就可落地新場景。其中,該系統以ROS系統為基礎構建,整個流程通過主調度模塊進行協調,確保各模塊之間的協同工作,通過不同控制模式決定系統不同階段的工作方式,包括導航、感知、基于Agent的任務規劃、遙操、具身操作等。此外,設計了模型異步推理、GRPC協議數據傳輸和子母路由通信等機制來攻克通信時延、推理速度慢等問題。
核心價值:在真實場景下,從0到1打造了整套具身智能系統技術架構,并且成功落地咖啡機器人任務場景中,而不是在簡單的實驗室或者結構化場景下。與此同時,為后續真實場景下具身智能技術的研發提供了堅實的基礎。
2)面向雙臂靈巧手構建高頻率一體式遙操技術
面臨挑戰:目前,大多數遙操采用了同構方式。這種方式需要額外配置相應的機械臂,并且不同結構機器人是無法共享,可擴展性及便捷性低。其次,雙臂和靈巧手的一體式遙操技術對其同步性及延遲率要求高,實現難度大。
技術突破:如以下視頻所示,構建了面向雙臂靈巧手的一體式高頻率遙操技術。通過結合慣性動捕和視覺動捕技術,對遙操設備進行了創新設計,使機器人能夠精準復刻人類動作。同時,借助手和臂數據透傳技術,優化了從動作捕捉到控制執行的高頻率跟隨鏈路,極大提升了系統響應速度與操作精度。
核心價值:相比于行業其他遙操技術,該技術具備輕量化、價格低廉和擴展性強特點。此外,通過該遙操技術,雙臂靈巧手的整體控制頻率達50hz以上,并且系統延時在50ms以內。
3)少量數據下實現物體位置的泛化操作
面臨挑戰:具身操作的泛化性一直是一個挑戰性問題。目前,大多數方法都依賴于大量數據使其涌現出泛化性能。然而,大量的示教數據需要消耗大量人力物力。訓練模型也需較多計算資源的支撐,且效果也難以達到較佳的泛化性能。
技術突破:如下圖所示,提出了基于末端模仿的泛化操作方法,聚集于統一的操作軌跡學習,能在較少的數據下實現較強的位置泛化能力,涉及核心模塊包括:操作物體感知與位姿估計、預操作位姿到達和聚集物體的策略學習。此外,設計了聚集于物體的視覺特征提取模塊,增強對核心操作區域的感知。
核心價值:相比與行業已有方法,首次提出聚集于核心操作軌跡的學習方法,能在較少數據量情況下實現物體位置的泛化操作,在打咖啡任務中,成功率達90%以上。此外,在大量抓取任務中(拿掃碼槍、抓娃娃、搬箱子等等),該方法表現出的性能相比于baseline成功率提升了50%以上。
2、咖啡機器人任務場景實踐
基于所打造的具身智能技術架構,首先落地了咖啡機器人任務場景。機器人打咖啡任務主要包含以下幾個步驟:導航到咖啡機、拿起空杯子、放好杯子、點擊屏幕(選擇咖啡、確認按鈕和已放好按鈕)、拿起咖啡杯、導航到用戶位置、將咖啡杯遞給人。打咖啡任務是一個真實場景下的長序列任務,包含多個子任務。子任務都是按序列銜接好的,完成當前子任務才會執行下一個子任務。與此同時,設計了子任務是否成功完成的檢測機制,提升整個系統的魯棒性,比如:點擊屏幕過程中,如果沒有點擊觸發,會反復點擊直到成功。即便面對打咖啡這樣復雜的場景,憑借該具身智能技術架構打造的系統,仍能以極高的成功率完成任務。以下是機器人打咖啡的精彩瞬間。
拿空杯子 |
放杯子 |
選咖啡 |
點擊按鈕 |
拿咖啡杯 |
遞送給人 |
在咖啡機器人任務場景實踐中,遇到諸多新問題。起初為機器人在胸部和頭部各配備 RealSense D435 相機,卻發現胸部相機易被機械臂遮擋,且兩款相機FOV 過小,常無法捕捉操作物體和靈巧手,而這類問題在實驗室桌面操作場景中難以察覺。于是,將頭部相機換成 FOV 更大的 ZED 相機,可新相機又導致模型視覺特征不聚集,遂通過聚焦手部局部視角解決。點擊屏幕時,按鈕需快速抽離動作才能觸發,給靈巧手控制帶來極大困難。為此設計檢測機制,讓靈巧手能反復嘗試,有效提升了點擊成功率。
四、下一步技術優化及進展
后續,將進一步完善和優化整個具身智能系統架構,使其能快速落地新場景。核心聚集于具身操作方向,提升機器人的泛化操作能力,擴充其技能庫的上限。結合具身技術發展趨勢以及現有架構的不足,主要圍繞以下兩個方面開展工作。
“視覺-語言-動作”大模型促進快速落地新場景:“視覺-語言-動作”大模型會利用“視覺-語言”預訓練模型知識來促進對機器人動作的學習。在大量的數據訓練基礎上,“視覺-語言-動作”大模型將會涌現出令人意想不到的能力:基于語言指令的新技能泛化、新物體泛化、甚至多機協作能力。這些潛能在Figure AI公司最新發布的Helix模型實驗結果中已展現出來。
真機強化學習優化整個具身智能系統:在目前的具身操作技術中,大多數采用了模仿學習方法。然而,模仿學習存在其局限性,較為依賴于專家數據,并且存在性能上限。強化學習方法則能使機器人探索更多數據,突破其性能上限,對專家數據依賴程度較低。另外,真機強化學習是基于機器人實時與環境交互所得數據來優化模型,這種優化不僅僅是提升模型性能,而且能夠對整個具身系統進行優化。
五、我對具身智能的思考和堅持
在具身智能技術的實際落地進程中,真實場景的復雜程度往往遠遠超出了在實驗室或結構化場景中預先設定的界限。在真實任務場景中進行技術探索,不但有助于我們對算法的實際性能進行驗證和優化,還能夠發掘出在實驗室或結構化場景中未曾預想到的問題與挑戰。通過在真實場景中對技術進行測試和應用,我們能夠獲取更為豐富的數據和反饋,進而推動技術不斷迭代和創新。
隨著 Figure AI 公司發布的 Helix 模型并在物流倉庫中的成功應用,這使我愈發堅信具身智能的時代已然降臨。對其實現的技術邏輯進行剖析:重點圍繞一個機器人本體,在一個特定的垂類領域中積累充足的數據量,在 “視覺 - 語言 - 動作” 大模型的有力支持下,機器人能夠學會多種類人的技能,并且具有較強的泛化性能。其能夠出圈的核心在于圍繞一本體在真實場景下打磨技術。我認為這是實現快速落地的較佳方案,值得借鑒。此外,當前技術都圍繞提升機器人任務成功率開展,若要真正將其在新場景中落地,還必須考慮機器人完成任務的效率問題。
展望未來,機器人會逐步融入人類社會。我們須傾熱血與干勁,全力投身具身智能技術攻堅,力求讓技術快速落地新場景,為企業技術增長添磚加瓦。
審核編輯 黃宇
-
機器人
+關注
關注
213文章
29533瀏覽量
211706 -
具身智能
+關注
關注
0文章
120瀏覽量
402
發布評論請先 登錄
評論