來源:佛山智能裝備技術研究院
近日,佛山智能裝備技術研究院(簡稱“佛山智能裝備院”)與佛山華數機器人有限公司(簡稱“華數機器人”)在具身智能工業機器人領域的研究成果“Advancing general robotic manipulation with Multimodal Foundation Models: an embodied Al paradigm”刊登在中科院一區TOP級SCI期刊SCIENCE CHINA Technological Sciences。該研究成果由佛山智能裝備院關鍵技術實驗室創新團隊牽頭,實驗室主任黃石峰博士為第一完成人,中國工程院外籍院士張建偉教授為通訊作者,北京大學前沿計算研究中心、銀河通用機器人有限公司創始人兼CTO王鶴教授,華數機器人楊海濱總經理,佛山智能裝備院周星常務副院長,德國漢堡大學陳文凱博士后研究員為共同完成人。
智能工業機器人勢在必行
當前的機器人技術能否全面勝任人類生產生活中的所有勞動呢?實際上,機器人的應用仍然受到限制,尤其是在日常場景中常見的開放、非結構化環境中,比如服務、醫療、農業、建筑以及眾多其他領域,如圖2 所示。從通用機器人操作的角度來看,挑戰源于以下方面:
操作門檻高:需要人類操作員掌握專門的機器人編程語言,并深入理解手頭的任務。這些任務需要被分解為機器人能夠執行的一系列連續動作,即動作層面的機器人程序開發。這種方式導致了高昂的勞動力成本,尤其是在諸如船舶制造這類多品種、小批量的應用場景中。
自主任務執行能力有限:機器人缺乏面向高層級抽象任務的自主動作生成能力(自主決策、自主規劃、自主執行能力弱)。這一限制使得傳統機器人不適合部署在那些需要與人類進行復雜交互和無縫協作的開放、非結構化環境中。
操作技能欠佳:機器人在許多任務上表現不佳,尤其是那些需要靈巧操作技能的任務。例如,在鞋廠中,仍然需要工人手動穿鞋帶。一方面,機器人在獲取特定操作所需的專業且復雜的技能方面面臨重大挑戰。另一方面,它們執行這些技能時往往較為僵硬且效率低下,缺乏人類操作時的流暢性。
圖2 機器人低滲透率的應用場景:(a) 造船業;(b) 家庭服務;(c) 服裝廠的疊衣應用;(d) 鞋廠的穿鞋帶應用;(e) 建筑工地;(f) 新能源汽車電池的極耳組裝
具身智能與生成式人工智能
近年來,具身智能(指擁有物理實體的人工智能系統)的興起,似乎為通用機器人操作技術的發展提供了一條充滿希望的路徑。在這種背景下,機器人仿佛擁有了一顆智能的“大腦”,展現出了適應多樣環境的潛力以及執行各類任務的靈活性。這些特質對于通用機器人操作而言至關重要。然而,早期將人工智能與機器人技術相結合的嘗試并未實現如此高水平的智能。一個有趣的現象是:具身智能的出現,幾乎與生成式人工智能的重大突破同步發生,其中的典型代表就是2022年末發布的ChatGPT,它是大語言模型(LLMs)發展歷程中的一項里程碑式成果。這些創新的交匯引發了一些發人深省的思考:
為什么大語言模型能夠推動具身智能的發展?
僅憑大“語言”模型,是否足以實現我們所期望的通用機器人操作愿景?
因此,這促使我們深入思考具身智能的本質,并評估在通用機器人操作方面大語言模型的能力和局限性。我們對上述問題的看法如下。
大語言模型(LLMs)基于在大規模互聯網數據上進行預訓練,通過無監督學習的方式在語言建模中預測下一個詞元,它們在上下文理解以及通過思維鏈提示進行連續對話方面表現了出色的能力。此外,借助由縮放定律(scaling laws)所支撐的超大型模型,大語言模型在常識知識和推理方面展現出了卓越的性能。傳統意義的工業機器人在人們心目中的主流形象更像是單純的“自動化設備”,而非“智能體”。幾十年來,機器人一直受困于缺乏一個類似智能大腦的系統。近期的研究進展表明,大語言模型可以為機器人配備一個類似大腦的系統。大語言模型促進了操作員與機器人之間的自然語言交互,使機器人能夠有效地理解人類意圖并做出決策。因此,大語言模型有潛力克服“操作門檻高”這一瓶頸,并緩解在開放、非結構化環境中“自主任務執行能力有限”所帶來的挑戰。
然而,具身智能的內涵強調的是智能源于智能體的實體(物理身體)與其現實世界環境之間的動態交互,并且在其整個生命周期中持續學習與發展。因此,具身智能與傳統人工智能(即離身智能)的根本區別在于具身智能中存在物理實體。機器人操作是具身智能的一個基礎研究課題,它超越了基于語言的反饋模式,涵蓋了機器人本體感受、觸覺感知、力/扭矩反饋、視覺等多個方面。這些豐富的感知模式對于識別物體的可供性以及智能的形成至關重要。例如,當我們抓取一個物體時,我們會利用觸覺反饋來評估物體的質地和重量,而視覺輸入則有助于確定物體的形狀和方位。這些綜合的感知模式使我們能夠了解如何操作該物體。顯然,僅靠大語言模型(僅基于語言)無法滿足具身智能的要求,因為它們缺乏機器人操作所需的面向動作的能力。因此,我們需要更強大的基礎模型,這些模型能夠整合機器人所感知到的各種模態信息,比如視覺語言模型(VLMs)和視覺語言動作模型(VLAs),它們統稱為多模態基礎模型(MFMs)。
圖3 典型的端到端架構
智能工業機器人的體系架構
在具身智能范式下,多模態基礎模型(MFMs)能夠推動通用機器人操作技術的發展。如今,適用于具身智能的技術框架仍然是一個開放話題,大致可分為兩類:1)端到端(E2E)架構和2)模塊化(或分層式)架構。下面,我們將對這兩類架構分別進行討論。
端到端架構直接將原始傳感器數據映射為動作,無需中間的手工設計模塊,如圖3所示。這種方法避免了模塊間信息傳輸過程中的失真,減少了累積誤差和延遲,并實現了更無縫的集成。此外,端到端流程能夠更有效地捕捉人類技能,因為抽象的動作往往難以用分析方法精確建模。特斯拉的完全自動駕駛第12版(FSD V12)就是端到端實現的一個突出例子。
盡管端到端架構具有很大的潛力,但其局限性也不容忽視。一個完全的端到端架構就像一個黑箱模型,缺乏可解釋性和安全保障。其性能在很大程度上依賴于訓練階段大規模高質量數據集的可用性,并且要實現高泛化能力需要大規模的神經網絡架構。這種對大量數據和復雜模型的依賴,會在數據標注成本、計算資源以及過擬合風險等方面帶來重大挑戰。此外,由于缺乏可解釋性,很難驗證模型的決策,這對安全關鍵型應用是不利的。為了緩解這些問題,需要進行廣泛的驗證和測試,并且可以采用增強模型可解釋性的技術,以便更好地理解決策過程。總的來說,我們認為端到端架構可以作為一個長期的發展目標。
圖4模塊化框架:“小腦 - 大腦” 耦合、復雜任務拆解、元技能組合、融合建模學習
對于大多數機器人制造商而言,一種更具可部署性且更具成本效益的解決方案是采用模塊化架構。在這種架構中,諸如感知、規劃和控制等模塊是獨立設計的。我們提出了一種模塊化架構解決方案,其特點是“大腦-小腦” 耦合、復雜任務拆解、元技能組合、融合模型學習,如圖4所示。多模態基礎模型(MFMs)的功能類似于大腦,支持多模態感知、推理和決策,同時也滿足自然的人機交互(nHRI)要求。在這種情況下,人類用戶可以通過各種形式傳達任務,包括語音、文本和圖像,并且機器人能夠理解所接收信息背后的潛在意圖。此外,多模態基礎模型以自上而下的方式(任務規劃)將任務,尤其是復雜且長程任務,拆解為更簡單的子任務。然后,每個子任務都可以映射為多種技能的組合。當前層面的技能顆粒度仍然相對較粗,可以進一步拆解為元技能。在機器人領域,對于元技能(primitive skills)的嚴格定義尚未標準化。我們將元技能視為構成更復雜技能的動作單元。元技能的關鍵特征如下:
原子性:元技能是基本動作,是構建復雜技能的基礎。這些動作通常簡單直接,例如移動、扭轉、抓取、放置、按壓等。
可復用性:由于其原子性,元技能可以在各種任務中重復使用和組合。例如,抓取技能不僅可以應用于拾取物體,還可以用于操作工具。
可組合性:通過組合不同的元技能,可以創建更復雜的技能和任務序列。例如,將抓取、移動和放置技能相結合,就可以實現搬運和重新放置物體的能力。
對于元技能的描述可以表述為:[動作] + [工具] + [被操作物體] + [目標位置] + [條件]。需要注意的是,即使是相同的動作,當它與不同的工具、物體或其他組成部分相結合時,仍然被視為相同的元技能。
現實生活中的任務幾乎是無窮無盡的,并且常常需要掌握一些意想不到的技能,同時環境也會隨著時間而變化。因此,對于元技能的策略學習,比如利用強化學習(RL)或模仿學習(IL)來掌握這些技能,應該設計成一種持續學習的范式,以避免對先前學到的技能產生災難性遺忘。我們建議使用輕量級模型進行策略學習,以便于訓練并確保能夠實時響應。此外,所提出的策略學習架構(即“小腦”部分)是融合建模方式。基于機理的方法可以作為數據驅動策略學習的輔助組成部分。例如,在以插入操作為元技能的精密裝配任務中,將接觸力/扭矩轉化為機器人關節動作的策略模型可以分解為兩個部分:1)從末端執行器感知的六維力/扭矩向量到工具的六維位姿調整的映射,利用數據驅動的學習策略來封裝人類的專業知識;2)從工具的末端執行器位姿到機器人關節構型的映射,這可以利用基于機器人原理的解析逆運動學方法有效地計算。此外,一些涉及幾何元素的元技能,如直線運動、圓周運動或擺線運動,可以直接使用解析方法來構建。這些都是傳統機器人很容易掌握的經典技能,但當通過數據驅動的方法學習時,往往會得到不盡如人意的結果(例如,精度低)。這種融合建模架構降低了策略學習的復雜性,同時提供了更好的物理可解釋性。
所提出的模塊化架構強調了復雜任務的拆解以及元技能的組合,同時還探討了生成式人工智能如何與機器人的經典控制系統相集成。事實上,任務拆解和元技能組合背后的原理是受到人類認知的啟發。當面對一項長期任務時,人類會自然而然地將其拆解為較小的子任務。人類智慧的一個關鍵方面在于能夠從一個示例推廣到另一個示例,這使我們能夠在各種不同的情境中靈活運用所學知識。例如,掌握了“插入”這樣的元技能后,我們就能執行一系列廣泛的相關任務,比如插入三腳電源插頭、USB接口,或者將機械軸裝配到孔中,而無需針對每個單獨的任務重新學習基本技能。這種卓越的泛化能力源于對這些操作所需的底層元技能的深入掌握。
具身智能在通用機器人操作領域的重點發展方向
最后,為了推動具身智能在通用機器人操作領域的發展,應著重關注以下幾個方面:1)開發高性能的人工智能芯片以及面向具身智能的網絡體系架構,以便在終端平臺上部署大型模型并實現實時計算。2)探索多具身智能的認知演化與協作,構建安全、具有因果關系且值得信賴的世界模型。3)實現基于詞元化的多模態集成優化,開發用于透明決策的可解釋人工智能理論,并致力于減少多模態基礎模型產生幻覺的情況。4)利用真實世界的數據和合成數據,為各個領域創建高質量的數據集。5)構建具有可擴展功能和長期記憶的特定領域模型,以支持垂直應用。6)通過零樣本模擬到真實的遷移,提高學習復雜技能的效率,并應對在現實世界環境中實現終身技能發展所面臨的挑戰。
-
工業機器人
+關注
關注
91文章
3442瀏覽量
93712 -
華數機器人
+關注
關注
0文章
39瀏覽量
1049 -
具身智能
+關注
關注
0文章
112瀏覽量
378
原文標題:佛山智能裝備院在《中國科學》發表關于智能工業機器人底座技術的最新研究成果
文章出處:【微信號:HSR華數機器人,微信公眾號:HSR華數機器人】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論