強化學(xué)習(xí)作為一種常用的訓(xùn)練智能體的方法,能夠完成很多復(fù)雜的任務(wù)。在強化學(xué)習(xí)中,智能體的策略是通過將獎勵函數(shù)最大化訓(xùn)練的。獎勵在智能體之外,各個環(huán)境中的獎勵各不相同。深度學(xué)習(xí)的成功大多是有密集并且有效的獎勵函數(shù),例如電子游戲中不斷增加的“分數(shù)”。然而,設(shè)計一個良好的獎勵函數(shù)需要付出大量精力。另一種方法是生成內(nèi)部獎勵,即由智能體自身生成的獎勵。內(nèi)部獎勵包括“好奇心”(把預(yù)測錯誤當(dāng)做獎勵信號)和“訪問數(shù)目”(不鼓勵智能體訪問同樣的狀態(tài))。這些內(nèi)部獎勵正是為了填補稀疏的外部獎勵之間的空白。
但是,如果某個場景沒有任何外部獎勵怎么辦?這并不奇怪。發(fā)展心理學(xué)認為,內(nèi)部獎勵(例如好奇心)是發(fā)展早期的重要驅(qū)動力:嬰兒在探索世界時并不會帶有過多的目的。的確,有證據(jù)表明,在某一環(huán)境中只用內(nèi)部獎勵對智能體進行預(yù)訓(xùn)練可以讓它們在新環(huán)境、新任務(wù)中調(diào)整得更快。但目前為止,目前還沒有系統(tǒng)的針對完全內(nèi)部獎勵學(xué)習(xí)的研究。
在這篇論文中,我們對各類模擬環(huán)境中智能體的內(nèi)部獎勵進行了大規(guī)模實證研究。特別是我們選擇了Pathak等人提出的動態(tài)好奇心模型中的內(nèi)部獎勵,因為它可擴展,并且可并行計算,可以說是大型試驗的理想工具。研究的核心是給定智能體當(dāng)前的狀態(tài),觀察內(nèi)部獎勵會在預(yù)測下一個動作時出現(xiàn)哪些錯誤。在研究中我們一共調(diào)查了54種環(huán)境:包括電子游戲,物理引擎模擬和虛擬3D導(dǎo)航任務(wù)。如圖1:
圖1
為了更好地理解好奇心驅(qū)動的學(xué)習(xí),我們接著研究了決定其表現(xiàn)的關(guān)鍵因素。在高維原始觀察空間中(例如圖像)對未來狀態(tài)做預(yù)測是非常有挑戰(zhàn)性的工作,而且最近的研究表明,在輔助特征空間中的動態(tài)學(xué)習(xí)有助于提升結(jié)果。不過,如何選擇這樣的嵌入空間非常重要,目前還沒有確切的結(jié)論。經(jīng)過系統(tǒng)的研究,我們檢查了對智能體觀察的不同編碼方法有何作用。為了保證訓(xùn)練的穩(wěn)定性,我們需要選擇好的特征空間,一個好的特征空間可以讓預(yù)測更容易,并且過濾掉與觀察環(huán)境無關(guān)的因素。但是對好奇心驅(qū)動的特征空間來說,都需要有哪些特征呢?
緊湊:在較低維度并且過濾掉與觀察空間不相關(guān)的部分之后,特征會更容易建模。
高效:特征應(yīng)該包含所有重要的信息。否則,智能體在探索到相關(guān)信息后不會得到獎勵。
穩(wěn)定:非靜態(tài)獎勵讓強化智能體學(xué)習(xí)起來有了難度。在基于動態(tài)的好奇心驅(qū)動環(huán)境中,非靜態(tài)的來源有兩個:前動態(tài)模型隨著時間不短發(fā)展,因為它在訓(xùn)練時特征也在發(fā)生變化。前者是內(nèi)部的,而后者應(yīng)該盡量減小。
我們發(fā)現(xiàn),在很多流行的強化學(xué)習(xí)中,用隨機網(wǎng)絡(luò)對觀察內(nèi)容編碼是非常簡單且高效的技術(shù)。有趣的是,我們發(fā)現(xiàn)雖然隨機特征可以在訓(xùn)練中表現(xiàn)良好,但是學(xué)習(xí)過的特征似乎比它更好。
除此之外,我們發(fā)現(xiàn)重要的一點是,游戲會將“done”作為結(jié)束的信號。如果沒有這一結(jié)束信號,很多雅達利游戲就變得很容易。例如,如果智能體活著,那么每一步的獎勵就是+1,如果死了就是0。比方在“打磚塊”游戲里,智能體要盡可能“活”得長一點,保持較高分數(shù)。如果得到了負獎勵,智能體會盡可能快速結(jié)束游戲。
知道了這一點,我們在研究時就不應(yīng)該對智能體抱有偏見。在有限的設(shè)置中,避免死亡只是智能體的另一種應(yīng)對方式,它只是為了不那么無聊。所以我們刪除了“done”,將智能體的得分與死亡信號分離開。實際上,我們的確發(fā)現(xiàn),智能體在游戲中避免死亡是因為從游戲開頭總能遇到很多重復(fù)場景,它們已經(jīng)能很好地預(yù)測下一步動作了,所以智能體會盡可能保持“生存”。這一發(fā)現(xiàn)在此前是被忽略的。
實驗
對48種雅達利環(huán)境進行分析的主要目的有三:
在沒有外部獎勵的游戲中,運行一個完全靠好奇心驅(qū)動的智能體時究竟發(fā)生了什么?
你能讓智能體做出哪些行為?
這些行為中,不同的特征學(xué)習(xí)變量有哪些影響?
為了回答這些問題,我們從一系列雅達利游戲開始。一種檢驗完全使用好奇心的智能體表現(xiàn)得如何的方法是看它能獲得多少外部獎勵。我們最終得到了8種游戲的平均外部獎勵分數(shù)(除去最右的馬里奧):
可以看出,大多數(shù)曲線都呈上升趨勢,這說明一個完全靠好奇心驅(qū)動的智能體可以通過學(xué)習(xí)獲得外部獎勵,即使沒有在訓(xùn)練時運用外部獎勵。
除此之外,我們還在上圖中比較了馬里奧兄弟不同的特征學(xué)習(xí)表現(xiàn)。更多實驗結(jié)果請查看原論文的附錄。
討論
在這項研究中,我們對好奇心驅(qū)動的強化學(xué)習(xí)環(huán)境做了大量研究,包括雅達利游戲、超級瑪麗兄弟、虛擬3D、多人乒乓球等。其中對多種不同的特征空間進行了調(diào)查,包括隨機特征、像素、逆向動力學(xué)以及自動編碼器,并且評估了它們對陌生環(huán)境的泛化能力。
我們證明,經(jīng)過訓(xùn)練的智能體可以靠好奇心獎勵學(xué)習(xí)到有用的行為,它們可以不用獎勵玩雅達利游戲;馬里奧可以在沒有獎勵的情況下過11關(guān);可以生成行走和玩雜技的動作;在雙人對戰(zhàn)的乒乓球游戲中可以生成對打模式。但是這也不總是成立的,在某些雅達利游戲中,它們的探索與外部獎勵不符。
另外,這一結(jié)果也證明了,在由人類設(shè)計的環(huán)境中,外部獎勵的目的可能是讓目標(biāo)物體進行創(chuàng)新。游戲設(shè)計者創(chuàng)建的環(huán)境正是為了引導(dǎo)用戶。
但是,這里存在一個比較嚴肅的潛在限制是處理隨機動態(tài),如果環(huán)境的轉(zhuǎn)換是隨機的,那么即使有一個完美的動態(tài)模型,獎勵也會成為過渡熵,智能體將會尋找熵值較高的過渡轉(zhuǎn)換。即使環(huán)境不是完全隨機的,不了學(xué)習(xí)算法造成的不可預(yù)測性、不良模型類別或局部觀察也會導(dǎo)致同樣問題。
未來,我們將證明我們可以利用無標(biāo)簽的環(huán)境來提高任務(wù)的性能。
-
智能體
+關(guān)注
關(guān)注
1文章
256瀏覽量
10938 -
強化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
269瀏覽量
11510
原文標(biāo)題:強化學(xué)習(xí)新角度:智能體玩游戲為什么那么6?因為掛掉太無聊
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
[灌水]人不玩游戲智力會下降?!
解決玩游戲時卡屏、死機的現(xiàn)象
電腦玩游戲不能全屏怎么辦 電腦玩游戲不能全屏解決方法
深度強化學(xué)習(xí)實戰(zhàn)
將深度學(xué)習(xí)和強化學(xué)習(xí)相結(jié)合的深度強化學(xué)習(xí)DRL
超極本玩游戲怎么樣_超極本玩游戲好用嗎_超極本為什么那么貴
人工智能機器學(xué)習(xí)之強化學(xué)習(xí)
什么是強化學(xué)習(xí)?純強化學(xué)習(xí)有意義嗎?強化學(xué)習(xí)有什么的致命缺陷?

評論