約翰霍普金斯大學的計算機科學家采用一種通常用于教狗坐下和坐下的訓練技術,向機器人展示了一種如何自學幾種新技巧的機器人,包括堆砌塊。通過這種方法,名為Spot的機器人可以在幾天內學習通常需要一個月的時間。
通過使用積極強化,這是任何使用過的對待改變狗的行為的人都熟悉的方法,團隊極大地提高了機器人的技能,并且很快地完成了訓練,使訓練現實世界中的機器人成為更可行的企業。這些發現新發表在名為“ Good Robot!”的論文中。
“這里的問題是我們如何讓機器人學習技能?”約翰霍普金斯大學計算交互與機器人實驗室的博士生安德魯·洪特說。“我有狗,所以我知道獎勵的工作,這就是我設計學習算法的靈感。”
與天生具有高度直覺的大腦的人和動物不同,計算機是空白板,必須從頭開始學習一切。但是,真正的學習通常是通過反復試驗來完成的,機器人專家仍在研究如何從錯誤中有效學習。
該團隊在這里通過設計一種獎勵系統來實現這一目標,該獎勵系統可以像對待狗一樣對待機器人,為機器人工作。狗可能會因為做得好的工作而得到餅干,而機器人則獲得了數字積分。
洪特回憶說,他曾經教過他的小混混小狗叫利亞(Leah)命令“離開它”,這樣她就可以無視步行中的松鼠。他使用兩種類型的零食,普通的教練零食和更好的東西,例如奶酪。當莉亞興奮而無所事事時,她一無所有。但是當她冷靜下來并移開視線時,她得到了好東西。“那時候我給了她奶酪,然后說,‘離開!好呀!’”
同樣,要堆積塊,發現機器人需要學習如何專注于建設性行動。當機器人探索積木時,它很快了解到正確的堆疊行為可以賺取高分,而錯誤的堆疊則不能賺到高分。伸出手,但不理解障礙?沒有分數敲一堆?絕對沒有分。通過將最后一個區塊放在四個區塊的堆棧之上,Spot獲得了最大的收益。
訓練策略不僅有效,而且花了幾天的時間來告訴機器人過去需要數周的時間。通過首先訓練類似于視頻游戲的模擬機器人,然后使用Spot運行測試,該團隊能夠減少練習時間。
亨特說:“機器人想要更高的分數。”“它可以迅速學習正確的行為以獲得最佳回報。實際上,機器人過去通常要花一個月的時間才能達到100%的精度。我們能夠在兩天內做到這一點。”
積極的強化不僅可以幫助機器人自學積木,而且通過點系統,機器人也可以很快地學會其他幾項任務,甚至包括如何玩模擬的導航游戲。在所有情況下都可以從錯誤中學習,這對于設計一種可以適應新環境的機器人至關重要。
洪特說:“起初,機器人不知道自己在做什么,但是每次練習都會越來越好。它永遠不會放棄,并且會不斷嘗試堆疊,并且能夠100%地完成任務。”
該團隊認為,這些發現可以幫助訓練家用機器人去洗衣服和洗碗-這些任務在公開市場上很流行,并且可以幫助老年人獨立生活。它還可以幫助設計改進的自動駕駛汽車。
哈格說:“我們的目標是最終開發出可以在現實世界中完成復雜任務的機器人,例如產品組裝,照顧老人和手術。”“我們目前不知道如何編程這樣的任務-世界太復雜了。但是像這樣的工作向我們表明,機器人可以學習如何以安全且安全的方式完成此類現實任務的想法是有希望的有效的方式。”
責任編輯:lq
-
機器人
+關注
關注
213文章
29607瀏覽量
212136 -
自動駕駛
+關注
關注
788文章
14261瀏覽量
170126
發布評論請先 登錄
評論