對于一只自然界的動物來說,在各種陌生環境下靈活切換相應的運動技能,似乎是一種條件反射和先天本領,但如何讓機器人掌握這種能力,卻非常具有挑戰性,這也是全球機器人專家們長期探索的課題。
2020 年 12 月,一項由華人科學家團隊合作完成的機器人創新成果,當選為 Science Robotics 雜志的月度封面論文,研究人員來自英國愛丁堡大學先進智能機器人實驗室與浙江大學朱秋國教授帶領的機器人團隊。
基于四足機器人,科研人員提出了一種多專家學習框架,讓機器人具備了應對各種意外情況的自主能力,并在運動響應敏捷度和靈活度方面表現優異。
本項研究中使用的四足機器人,即是被稱為中國版波士頓動力的 “絕影” 機器人,DeepTech 此前曾對該機器人進行過專訪報道:《浙大機器狗 “絕影” 的逆襲,從技術上 “被虐” 到應用上追趕|獨家專訪》。
關于本期封面論文的算法特點和貢獻,DeepTech 聯系到論文的通訊作者李智彬進行了一番交流。
讓機器狗“集各家之長于一身”
李智彬目前是愛丁堡大學信息學院的助理教授,領銜先進智能機器人實驗室(主頁見文末)。他的研究方向包括機器人動態運動控制、實現(超)人類級別的機器人自主移動、多臂協調和抓取操作等,同時在機器人硬件平臺、力和柔順控制等領域也有豐富經驗。
據他介紹,機器人在實際應用中通常會面臨兩種挑戰:一是在任務層,二是在算法方面。
首先,傳統方法中,機器人要去執行某種任務,需要算法工程師、程序員們對其進行編程,一般而言都是針對某一個具體任務來編程。這種方法無疑存在短板,比如說野外救災或是地震現場搜救工作中,機器人所處的環境將會非常復雜,地面可能有障礙物阻攔、崎嶇不平、打滑問題,機器人也會出現各種摔倒和其他意外情況。
如果出現 100 種或者 1000 種不同的情況,還要去執行多項任務,用傳統方法去編程是非常難涵蓋的,其量級也不可擴展,開發人員不可能 “先知先覺” 預先編程出所有的特定解決方案。因此,這就需要機器人在一個全新的環境下,自主決定應該怎么去做才能完成任務。
其次,機器人遇到新的情況需要隨機應變,靈活應付。此前的很多研究中,幾乎都是把機器人的單項技能訓練做得很好,比如走路、奔跑、故障恢復等,但在演示中,有時候還需要操作員拿著遙控器根據機器人當時所處的情況去切換模式和操作,這讓實用性大打折扣。
而本次研究中提出的多專家系統,相當于每個 “專家” 都訓練了一種基本技能,比如說走路、故障恢復、摔倒爬起等,單項技能學會之后,然后讓不同 “專家” 組隊一起訓練,通過一個門控神經網絡,在不同事件、不同情況下去激活調度每個專家,讓他們綜合形成不同的協調組合,進而克服不同問題。
通過這樣的技能加持,四足機器人 “絕影” 在沒有導航的情況下,能自動執行在樓梯、礫石堆、崎嶇路面上進行連貫的小跑、轉向,乃至在被人踹倒、被推翻的情況下也能迅速恢復正常姿態。
“最后形成的那個綜合‘專家’,相當于是集各家之長于一身,懂得融會貫通,這就讓機器人具備了在當時那種特定情況下所需要的技能組合,而且能夠根據不同情況千變萬化、舉一反三,去自主恢復繼續執行任務。”李智彬說道。
機器人摸爬滾打的能力有了怎樣的提升?請看以下效果:
8 項“專家技能”融會貫通,關鍵恢復能力控制在 1 秒內
詳細來講,論文中提到的多專家學習體系結構被命名為MELA(multi-expert learning architecture),這是一個由深度神經網絡(DNN)和門控神經網絡(GNN)組成的分層強化學習(HRL)結構。
為了幫助解釋,研究人員定義了幾個關鍵術語:運動技能、專家和運動模式。
運動技能:即一種反饋策略,可以產生協調的動作來完成特定類型的任務,這是構建更復雜動作的基礎;專家:具有專業運動技能的 DNN;運動模式:四肢協調運動的一種模式,如站立、原地轉動、向前 / 向后小跑、左右轉向、跌倒恢復等。
圖|不同的技能種類(來源:Science Robotics)
研究人員為機器人訓練了 8 項運動技能,包括:(1)從背部翻身;(2)側滾;(3)身體姿勢控制;(4)站立平衡;(5)左轉;(6)右轉;(7)小步小跑;(8)大步小跑。
不同的技能需要不同的觸發方式,而把 “八技” 融會貫通是 MELA 合成可變技能和產生適應性行為的基礎。
面對不同情況下,GNN 生成可變權重(α)來融合所有八個專家網絡的參數,這樣新合成的運動技能可以通過混合各個專家的有效技能,快速生成不同的運動技能,來適應各種未知場景。
圖|多專家學習框架 MELA 的原理(來源:Science Robotics)
實驗結果表明,依靠 MELA 輸出的融合技能加持,“絕影” 機器人的關鍵恢復能力控制在 1 秒內(恢復身體姿態平均 0.5s,恢復小跑模式平均 0.4s),也顯示出了在非結構化環境下更強的可靠性和通障性能。
還有一個值得關注訣竅是,研究人員從生物運動控制中汲取了靈感,這讓運動控制和學習框架更加貼近真實的四足動物。
例如,動物的運動行為都是受中樞神經系統控制的,中樞神經系統會重新設置身體關節的參考位置,根據參考位置與實際位置之間的差異,激發肌肉活動以產生適當的力進行姿態調整。
由于阻抗控制提供的彈簧阻尼特性類似于生物肌肉的彈性,因此研究團隊應用了平衡點(EP)控制假設,通過調控平衡點來生成關節扭矩。
受肌肉系統的生物力學控制和 EP 假設的啟發,研究人員其實將機器人控制分為了兩層:在底層,團隊使用扭矩控制為機器人配置關節阻抗模式;在頂層,指定深度神經網絡(DNN)為所有關節產生設定平衡點,以調節姿勢和關節扭矩,建立與環境的力相互作用,在這樣的基礎上,MELA 可輸出更加貼近真實四足動物的運動策略。
下一步,仍需更多跨界合作
“這樣的多專家系統、多技能融合框架,讓機器人可以自主切換運動策略、自己去適應環境,在足式機器人上算是第一次應用,這也是為什么這項成果能被 Science Robotics 評為封面,至少它實現了一種質的突破,較此前研究形成了一個代差。” 李智彬表示。
據了解,這種多專家融合技能的思路,也能夠延伸到其他機器人平臺上。包括各類四足、雙足機器人,以及輪式的、履帶式的機器人,乃至在機器人進行抓取操作上也可以應用。機器抓取不同的東西的策略是不一樣的,本質也就是不同專家的技能延展,無論是抓紙張、書本、杯子,還是光溜溜的肥皂、球體、軟硬不同的物體等,其實都需要不同的專家技能策略。
關于進一步改進和提升的空間,他表示,仍需要和圈內更多優秀團隊一起合作探索,才能不斷突破,未來的研究可以集成視覺、觸覺傳感等,以開發多感知型運動技能。
例如,對于機器人本身而言,現在普遍還缺少一種 “電子皮膚”。
目前機器人機載的傳感器對各種情況判斷,很大程度上都要通過大量的訓練經驗積攢起來,由于機載傳感器有限,很多經驗只是統計學上來講是對的,但它針對某個特殊情況卻不一定是最好的,只能說有較高的成功率。
但在自然界的生物中,小到毛毛蟲、蠕蟲,大到各類動物、人類全都是有皮膚的,如果機器人在廢墟現場要鉆進去一個洞,進去之后身邊的環境是怎樣的,怎么通過,障礙物與機身表面是怎么接觸的,如此復雜的環境下現有的傳統傳感器就不夠用了,需要 “電子皮膚” 更加精細化地感知區分。
另一方面,機器人對外部的感知理解能力仍然有待提高。
比如一個霧蒙蒙的環境,是因為有霧,還是因為燃燒引起的煙,單純用計算機視覺來看,不一定能區分清楚;再比如機器人從室內走到室外,外面是一個零下的無雪環境,在機器視覺看來地面可能與平常無異,雷達也探測不到障礙物,但這種情況下人類走路、開車會下意識地注意路面可能會打滑,機器人卻還不能意識到這點調整策略,這些 “非接觸式” 的外部傳感包括輻射、溫度、氣體檢測等也都非常關鍵。
“目前這項研究背后只有兩個專家團隊,但機器人研究不能閉門造車。就像機器人現在都具備了多專家能力一樣,我們非常歡迎和更多跨學科、跨領域的團隊一起合作,碰撞出更多創新想法和可能性。” 李智彬最后說道。
原文標題:被踹翻后秒速爬起!浙大機器狗“絕影”展現新絕技,在陌生環境下八技合一、隨機應變 | 專訪
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
機器人
+關注
關注
213文章
29730瀏覽量
212837 -
機器狗
+關注
關注
3文章
177瀏覽量
10520
原文標題:被踹翻后秒速爬起!浙大機器狗“絕影”展現新絕技,在陌生環境下八技合一、隨機應變 | 專訪
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
機器人看點:越疆機器人正式發布六足仿生機器狗 智元公布機器人運動控制模型專利
從 “將就” 到 “優選”:消費降級時代,海翔科技二手半導體配件的逆襲之路

樹莓派遇上機器狗:科技界的“春晚明星”是怎樣煉成的?

國產逆襲!這款紅外溫度傳感器吊打國際大廠:精度翻倍 開發周期縮水90%

使用獨立ADC和使用MCU的內部ADC來實現模數轉換,有什么性能、技術上的區別嗎?
AMD數據中心業務逆襲,營收首超Intel
特朗普啟用帶激光雷達機器狗巡邏
浙大與海康威視合作再添新成果
霍爾開關在電子智能玩具狗上的應用

蘋果最新消息 韋德布什上調蘋果目標價 庫克:將繼續在AI技術上投資
三星HBM技術逆襲:NVIDIA認證助力業績飆升
一個射頻芯片公司的逆襲

評論