這在真實環(huán)境中成功讓機械臂從頭開始學習拾放物體。SAC-X 是基于從頭開始學習復雜的任務這種想法,即一個智能體首先應該學習并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協(xié)調能力和平衡能力,為智能體提供與簡單技能相對應的內(nèi)在目標(具有輔助作用),這會增加它理解和執(zhí)行更復雜任務的可能性。
研究者認為,SAC-X是一種通用的強化學習方法,未來可以應用于機器人以外的更廣泛領域。
不管你讓小孩還是大人整理物品,他們很大可能都不會乖乖聽你的話,如果想要讓 AI 智能體進行整理收拾,那就更難了。如果想成功,需要掌握如下幾個核心視覺運動技能:接近物體,抓住并舉起它,打開盒子,把物體放進去。而更復雜的是,執(zhí)行這些技能時,必須按照正確的順序。
對于一些控制類的任務,比如整理桌面或堆疊物體,智能體需要在協(xié)調它的模擬手臂和手指的九個關節(jié)時,做到三個 W,即如何(how),何時(when)以及在哪里(where),以便正確地移動,最終完成任務。
在任何給定的時間內(nèi),需要明確各種可能的運動組合的數(shù)量,以及執(zhí)行一長串正確動作,這些需求引申出一個嚴肅的問題,這成為強化學習中一個特別有趣的研究領域。
諸如獎賞塑形(reward shaping)、學徒學習(Apprenticeship learning)或從演示中學習(Learning from Demonstration)等技術可以幫助解決這個問題。然而,這些方法依賴于大量與任務相關的知識,而從零開始,通過最少的預先知識學習復雜的控制問題仍然是一個眾所周知的挑戰(zhàn)。
我們最近的論文提出了一種新的學習范式,叫做「調度輔助控制」(Scheduled Auxiliary Control (SAC-X)),我們試圖通過這種學習范式來克服這個問題。
SAC-X 是基于從頭開始學習復雜的任務這種想法,即一個智能體首先應該學習并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協(xié)調能力和平衡能力,為智能體提供與簡單技能相對應的內(nèi)在目標(具有輔助作用),這會增加它理解和執(zhí)行更復雜任務的可能性。
我們在幾個模擬和真實的機器人任務中演示了 SAC-X 法,包括不同物體的堆疊,將物體放到盒子里。我們定義的輔助任務遵循一般原則:鼓勵智能體探索其感應空間。
例如,激活手指上的觸覺傳感器,感知手腕的力度,利用本體感應器將關節(jié)角度調到最大,在視覺傳感器范圍內(nèi)強制性移動物體。對于每個任務,如果實現(xiàn)目標,會提供相應的簡單獎勵。沒實現(xiàn)目標的話,獎勵為零。
智能體首先學習激活手指上的觸覺傳感器,然后移動物體
模擬智能體最終掌握復雜的堆疊任務
智能體接下來可以自行決定其當前的「意圖」,例如下一步做什么。可能會是一個輔助任務或者是外部定義的目標任務。至關重要的是,對于目前還沒有使用基于回放的離策略學習方法的任務,該代理可以從獎勵信號中發(fā)現(xiàn)和學習。例如,當拾取或移動一個物體時,智能體可能會偶然地將物體堆疊起來,觀察到「堆疊獎勵」。一系列簡單的任務會讓智能體觀察到罕見的外部獎勵,所以讓智能體具有安排意圖的能力至關重要。
基于收集到的所有的間接知識,智能體會建立一個個性化的學習課程。在如此大的領域中,通過這種方法來利用知識非常高效,在只有很少的外部獎勵信號的情況下尤其有用。
通過調度模塊,智能體會決定接下來的意圖。利用元學習算法,調度器會在訓練過程中得到改進,該算法試圖最大限度地提高主任務的進程,進而顯著提高數(shù)據(jù)效率。
在探索完許多內(nèi)部輔助任務之后,智能體學會了如何堆疊和整理物品
評估表明,SAC-X 能夠從零開始完成我們設置的所有任務,這些任務都是在相同的輔助任務集下完成的。令人興奮的是,利用 SAC-X,我們實驗室的機器人手臂能夠成功地從零開始學習拾取和擺放。在過去這極具挑戰(zhàn)性,因為在現(xiàn)實世界中讓機器人學習需要高效的數(shù)據(jù),所以流行的方法是預訓練模擬智能體,然后再將這種能力轉移到真正的機器人手臂中。
針對真實的機器人手臂, SAC-X 能學習如何舉起和移動綠色的立方體,在此之前它從來沒有接觸過這類任務
我們認為 SAC-X 是通向從零學習控制任務的重要一步,只需定義好整體目標。SAC-X 允許任意定義輔助任務,這些任務可以基于一般的看法(如有意激活傳感器),最終會涵蓋研究人員認為重要的任務。從這方面來說,SAC-X 是一種通用的強化學習方法,可以廣泛應用于控制和機器人領域之外的一般稀疏強化學習環(huán)境。
未來智能實驗室是人工智能學家與科學院相關機構聯(lián)合成立的人工智能,互聯(lián)網(wǎng)和腦科學交叉研究機構。
未來智能實驗室的主要工作包括:建立AI智能系統(tǒng)智商評測體系,開展世界人工智能智商評測;開展互聯(lián)網(wǎng)(城市)云腦研究計劃,構建互聯(lián)網(wǎng)(城市)云腦技術和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務。
-
算法
+關注
關注
23文章
4697瀏覽量
94710 -
人工智能
+關注
關注
1804文章
48677瀏覽量
246364
原文標題:DeepMind提出強化學習新算法,教智能體從零學控制
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
什么是深度強化學習?深度強化學習算法應用分析

未來的AI 深挖谷歌 DeepMind 和它背后的技術
將深度學習和強化學習相結合的深度強化學習DRL
強化學習新方法,機器人究竟是怎么學習新動作的呢?
人工智能機器學習之強化學習
基于強化學習的MADDPG算法原理及實現(xiàn)
如何測試強化學習智能體適應性
谷歌、DeepMind重磅推出PlaNet 強化學習新突破

DeepMind發(fā)布強化學習庫RLax
基于深度強化學習的路口單交叉信號控制

基于強化學習的目標檢測算法案例
語言模型做先驗,統(tǒng)一強化學習智能體,DeepMind選擇走這條通用AI之路

評論