這篇文章是“NVIDIA 機器人研究與開發(fā)摘要 (R2D2) ”的一部分,旨在讓開發(fā)者更深入地了解 NVIDIA 研究中心在物理 AI 和機器人應(yīng)用方面的最新突破。
如今,機械臂被廣泛應(yīng)用于裝配、包裝、檢測等眾多領(lǐng)域。然而,它們?nèi)孕桀A(yù)先編程才能執(zhí)行特定且往往是重復(fù)性的任務(wù)。為了滿足在大多數(shù)環(huán)境中對適應(yīng)性日益增長的需求,需要具備感知能力的機械臂,以便根據(jù)實時數(shù)據(jù)做出決策并調(diào)整行為。這不僅能讓機械臂在協(xié)作環(huán)境中執(zhí)行各類任務(wù)時更加靈活,還能通過對危險的感知來提升安全性。
本期的“NVIDIA 機器人研究與開發(fā)摘要 (R2D2) ”探討了 NVIDIA 研究中心和機器人靈巧操作、物體操控和抓取有關(guān)的工作流以及 AI 模型(相關(guān)成果如下文),以及它們?nèi)绾螒?yīng)對機器人面臨的關(guān)鍵挑戰(zhàn),如適應(yīng)性和數(shù)據(jù)稀缺問題:
DextrAH-RGB:一種基于立體 RGB 輸入實現(xiàn)靈巧抓取的工作流。
DexMimicGen:一種利用模仿學(xué)習(xí) (IL) 進(jìn)行雙手靈巧操控的數(shù)據(jù)生成流程,在 2025 年 IEEE 國際機器人與自動化會議 (ICRA) 上展示。
GraspGen:一個包含超過 5700 萬個針對不同機器人和夾具的抓取數(shù)據(jù)的合成數(shù)據(jù)集。
什么是靈巧機器人?
靈巧機器人能夠精確、靈活且高效地操控物體。機器人的靈巧性涉及精細(xì)的運動控制、協(xié)調(diào)能力,以及在非結(jié)構(gòu)化環(huán)境中處理各種任務(wù)的能力。機器人靈巧性的關(guān)鍵方面包括抓握、操控、觸覺敏感度、敏捷性和協(xié)調(diào)性。
機器人的靈巧性在制造業(yè)、醫(yī)療健康和物流等行業(yè)中至關(guān)重要,它使那些傳統(tǒng)上需要人類精準(zhǔn)操作的任務(wù)實現(xiàn)自動化成為可能。
NVIDIA 的機器人靈巧操作
工作流及模型
靈巧抓取是機器人技術(shù)中的一項具有挑戰(zhàn)性的任務(wù),要求機器人能夠精確且快速地操控各種各樣的物體。傳統(tǒng)方法在處理反光物體時往往存在困難,并且難以很好地推廣應(yīng)用到新的物體或動態(tài)環(huán)境中。
NVIDIA 研究中心通過開發(fā)端到端的基礎(chǔ)模型和工作流來應(yīng)對這些挑戰(zhàn),這些模型和工作流能夠讓機器人在不同物體和環(huán)境中實現(xiàn)穩(wěn)定可靠的操控。
用于靈巧抓取的 DextrAH-RGB
DextrAH-RGB 是一種基于立體 RGB 輸入,實現(xiàn)機械臂手部靈巧抓取的工作流。利用這一工作流,相關(guān)策略完全在仿真環(huán)境中進(jìn)行訓(xùn)練,并且在實際部署時能夠應(yīng)用于各種新的物體。DextrAH-RGB 借助NVIDIA Isaac Lab,在仿真環(huán)境中針對不同物體進(jìn)行了大規(guī)模訓(xùn)練。
訓(xùn)練過程分為兩個階段。首先,運用強化學(xué)習(xí) (RL) 在仿真環(huán)境中訓(xùn)練一個教師策略。教師策略是一種特殊的織物引導(dǎo)策略 (FGP),它在幾何織物動作空間內(nèi)發(fā)揮作用。幾何織物是一種矢量化的底層控制方式,將運動轉(zhuǎn)化為關(guān)節(jié)位置、速度和加速度信號,并以命令的形式傳輸給機器人的控制器。通過嵌入避障和目標(biāo)達(dá)成行為,這種方式在部署時確保了安全性和響應(yīng)速度,從而實現(xiàn)快速迭代。
教師策略有一個長短期記憶 (LSTM) 層,能夠?qū)ΜF(xiàn)實世界的物理特性進(jìn)行推理和適應(yīng)。這有助于融入諸如重新抓取和理解抓取成功與否等糾正行為,以應(yīng)對當(dāng)前的動態(tài)情況。訓(xùn)練的第一階段通過利用領(lǐng)域隨機化來確保策略穩(wěn)定健性和適應(yīng)性。在訓(xùn)練教師策略時,會改變物理、視覺和干擾參數(shù),逐步增加環(huán)境的難度。
在訓(xùn)練的第二階段,使用逼真的平鋪渲染技術(shù),將教師策略提煉為仿真環(huán)境中基于 RGB 的學(xué)生策略。這一步使用了一個名為 DAgger 的模仿學(xué)習(xí)框架。學(xué)生策略通過立體相機接收 RGB 圖像,從而能夠間接地推斷出物體的深度和位置。
圖 1. DextrAH-RGB 訓(xùn)練流程
波士頓動力 Atlas MTS 機器人
實現(xiàn)從仿真到現(xiàn)實的應(yīng)用
NVIDIA 與波士頓動力合作,對 DextrAH-RGB 進(jìn)行訓(xùn)練和部署。圖 2 和視頻 2 展示了一個由通用策略驅(qū)動的機器人系統(tǒng),該系統(tǒng)在 Atlas 機器人的上半身成功部署了強大的、具備零樣本從仿真到現(xiàn)實抓取能力的策略。
圖 2. 使用 Isaac Lab 大規(guī)模訓(xùn)練 Atlas 機器人的教師策略
該系統(tǒng)展示了由 Atlas 機器人的三指夾具驅(qū)動的多種抓取方式,這些夾具能夠抓取輕物和重物,并顯示出逐漸形成的故障檢測和重試行為。
視頻 2. 波士頓動力 Atlas MTS 機器人
使用 DextrAH-RGB 成功抓取工業(yè)物體
用于雙手操控數(shù)據(jù)生成的
DexMimicGen
DexMimicGen 是一種用于雙手操控數(shù)據(jù)生成的工作流,它使用少量的人類演示來生成大規(guī)模的軌跡數(shù)據(jù)集。其目的是通過讓機器人在仿真環(huán)境中學(xué)習(xí)動作(這些動作可以遷移到現(xiàn)實世界中),來減少手動數(shù)據(jù)收集這一繁瑣的任務(wù)。這個工作流解決了人形機器人在雙手靈巧操作的模仿學(xué)習(xí)中數(shù)據(jù)稀缺的挑戰(zhàn)。
DexMimicGen 使用基于仿真的增強技術(shù)來生成數(shù)據(jù)集。首先,人類演示者使用遠(yuǎn)程操作設(shè)備收集少量演示數(shù)據(jù)。然后,DexMimicGen 在仿真環(huán)境中生成大量的演示軌跡數(shù)據(jù)集。例如,在最初發(fā)布時,借助 DexMimicGen,研究人員僅從 60 個人類演示中就生成了 21000 個演示數(shù)據(jù)。最后,使用模仿學(xué)習(xí)在生成的數(shù)據(jù)集上訓(xùn)練一個策略,以執(zhí)行操控任務(wù),并將其部署到真實的機器人上。
圖 3. DexMimicGen 工作流
雙手操控具有挑戰(zhàn)性,因為在不同任務(wù)中需要兩只手臂之間進(jìn)行精確的協(xié)調(diào)。比如兩只手分別抓取不同物體這樣的并行任務(wù),需要獨立的控制策略。再比如抬起一個大物體這樣的協(xié)調(diào)任務(wù),需要兩只手臂同步動作和時間。順序任務(wù)則要求子任務(wù)按照一定的順序完成,比如用一只手移動一個盒子,然后用另一只手把一個物體放進(jìn)去。
DexMimicGen 在數(shù)據(jù)生成過程中考慮到了這些不同的要求,采用了一種 “并行、協(xié)調(diào)和順序” 的子任務(wù)分類法。對于獨立的手臂子任務(wù),使用異步執(zhí)行策略;對于協(xié)調(diào)任務(wù),使用同步機制;對于順序子任務(wù),使用順序約束。這種方法確保了在數(shù)據(jù)生成過程中精確的對齊和邏輯的任務(wù)執(zhí)行。
圖 4. 使用基于 DexMimicGen 生成的
數(shù)據(jù)訓(xùn)練的模型成功對罐頭進(jìn)行分類
當(dāng)在真實世界中部署時,借助 DexMimicGen 的“現(xiàn)實—仿真—現(xiàn)實”數(shù)據(jù)生成流程生成的數(shù)據(jù),人形機器人在進(jìn)行罐頭分類任務(wù)時,實現(xiàn)了 90% 的成功率。相比之下,僅使用人類演示數(shù)據(jù)進(jìn)行訓(xùn)練時,模型的成功率為 0%。這些結(jié)果充分表明,DexMimicGen 在減少人力投入的同時,能夠讓機器人更有效地學(xué)習(xí)復(fù)雜的操控任務(wù)。
適用于多種機器人和夾具的
GraspGen 數(shù)據(jù)集
為了支持相關(guān)研究,GraspGen 在 Hugging Face 平臺上提供了一個全新的仿真數(shù)據(jù)集,其中包含針對三種不同夾具的 5700 萬個抓取數(shù)據(jù)。該數(shù)據(jù)集涵蓋了不同物體網(wǎng)格的 6D 夾具變換數(shù)據(jù)以及抓取成功的標(biāo)簽。
圖 5. 數(shù)據(jù)集中一系列不同物體的建議抓取方式
這三種夾具分別是 Franka Panda 夾具、Robotiq 2F-140 工業(yè)夾具和單觸點吸盤夾具。GraspGen 數(shù)據(jù)集完全是在仿真環(huán)境中生成的,展示了自動數(shù)據(jù)生成在擴大數(shù)據(jù)集規(guī)模和多樣性方面的優(yōu)勢。
圖 6. GraspGen 仿真數(shù)據(jù)集中三種夾具的坐標(biāo)系約定:Robotiq 2F-140 夾具(左)、單觸點吸盤夾具(中)和 Franka Panda 夾具(右)
總結(jié)
為了滿足在大多數(shù)環(huán)境中對適應(yīng)性日益增長的需求,需要機械臂能夠根據(jù)實時數(shù)據(jù)做出決策并調(diào)整行為。本文探討了幾種機器人靈巧操作、操控和抓取工作流以及 AI 模型,以及它們?nèi)绾螒?yīng)對機器人面臨的關(guān)鍵挑戰(zhàn),如適應(yīng)性和數(shù)據(jù)稀缺問題。
-
機器人
+關(guān)注
關(guān)注
213文章
29475瀏覽量
211530 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5238瀏覽量
105764 -
AI
+關(guān)注
關(guān)注
87文章
34173瀏覽量
275339 -
機械臂
+關(guān)注
關(guān)注
13文章
543瀏覽量
25216
原文標(biāo)題:R2D2:借助 NVIDIA 研究中心的工作流和模型,讓靈巧機器人更加適應(yīng)環(huán)境
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論