近日,谷歌DeepMind強(qiáng)化學(xué)習(xí)研究團(tuán)隊(duì)負(fù)責(zé)人、AlphaGo項(xiàng)目首席研究員Dave Silver在Deep Learning Indaba活動(dòng)的主題演講中歸納出了強(qiáng)化學(xué)習(xí)中要注意的10大要點(diǎn)。一起來(lái)看看,也許能少走點(diǎn)彎路。
近日,在南非斯泰倫博斯舉行的Deep Learning Indaba活動(dòng)上,谷歌DeepMind強(qiáng)化學(xué)習(xí)研究團(tuán)隊(duì)負(fù)責(zé)人、AlphaGo項(xiàng)目首席研究員Dave Silver在主題演講中歸納出強(qiáng)化學(xué)習(xí)中要注意的10大要點(diǎn)。
活動(dòng)主辦方將Dave Silver演講的PPT截圖和文字要點(diǎn)發(fā)在了推特上,引發(fā)了廣泛討論。
Silver的演講中提出的強(qiáng)化學(xué)習(xí)10大要點(diǎn)涵蓋涉及算法評(píng)估、狀態(tài)控制、建模函數(shù)等方面的心得和建議,非常值得開發(fā)者和機(jī)器學(xué)習(xí)愛好者參考學(xué)習(xí)。一起看看他是怎么說(shuō)的吧!
1、在評(píng)估中產(chǎn)生進(jìn)步
客觀、量化的估計(jì)會(huì)產(chǎn)生進(jìn)步,對(duì)評(píng)估尺度的選擇會(huì)決定進(jìn)步的方向。這可能是項(xiàng)目推進(jìn)過程中做出的最重要的決定。
目標(biāo)驅(qū)動(dòng)型研究:確認(rèn)評(píng)估標(biāo)準(zhǔn)與最終目標(biāo)密切相關(guān)。避免主觀評(píng)估
假設(shè)驅(qū)動(dòng)型研究:提出假設(shè),在寬泛的條件下驗(yàn)證假設(shè),與相似結(jié)果對(duì)比,而不是與最先進(jìn)的結(jié)果對(duì)比。重要的是對(duì)結(jié)果的理解,而不是追求排名。
2、算法的可擴(kuò)展性決定是否成功
算法的可擴(kuò)展性是指其性能隨資源的梯度變化。這里的資源可能是計(jì)算、存儲(chǔ)和數(shù)據(jù)。算法的可擴(kuò)展性決定了能否項(xiàng)目能否成功,它幾乎永遠(yuǎn)比算法的起點(diǎn)重要。最終,好的算法總是無(wú)限資源條件下的最優(yōu)解決方案。
3、穩(wěn)定算法的通用性
算法通用性是指算法在不同深度學(xué)習(xí)環(huán)境下的表現(xiàn)。應(yīng)避免對(duì)當(dāng)前任務(wù)的過擬合。積極尋求可以適用于未來(lái)未知環(huán)境下的算法。
結(jié)論:要廣泛驗(yàn)證,建立現(xiàn)實(shí)的機(jī)器學(xué)習(xí)環(huán)境。
4、 信任智能體的經(jīng)驗(yàn)
經(jīng)驗(yàn)(包括觀察、動(dòng)作、獎(jiǎng)勵(lì))是指深度學(xué)習(xí)的數(shù)據(jù)。信任這些經(jīng)驗(yàn),將其作為唯一知識(shí)來(lái)源。盡管這些經(jīng)驗(yàn)看上去不可學(xué)習(xí),但最終長(zhǎng)期來(lái)看,經(jīng)驗(yàn)終將取得成功。
5、狀態(tài)是主觀的
智能體應(yīng)該基于經(jīng)驗(yàn)建立自身的狀態(tài),智能體的狀態(tài)是關(guān)于其先前狀態(tài)和新觀察數(shù)據(jù)的函數(shù)。任何時(shí)候不要定義某一環(huán)境下的“真實(shí)”狀態(tài)。
6、控制數(shù)據(jù)流
智能體處于大量數(shù)據(jù)流傳感器環(huán)境中,智能體的行為會(huì)對(duì)數(shù)據(jù)流造成影響。
控制特征——控制數(shù)據(jù)流——控制未來(lái)——實(shí)現(xiàn)任何回報(bào)的最大化。
7、價(jià)值函數(shù)可以對(duì)世界建模
價(jià)值函數(shù)是對(duì)未來(lái)的高效歸納和緩存。多關(guān)注固定時(shí)間段的查找,而非指數(shù)級(jí)的前瞻。可以獨(dú)立計(jì)算和學(xué)習(xí)。利用多價(jià)值函數(shù)可以在不同時(shí)間范圍內(nèi),對(duì)世界各個(gè)方面進(jìn)行高效建模。
應(yīng)避免使用原始的時(shí)間步長(zhǎng)對(duì)世界進(jìn)行建模。
8、從想象的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)
想象接下來(lái)會(huì)發(fā)生什么,從想象的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí),同時(shí)關(guān)注在當(dāng)前時(shí)刻的值函數(shù)估計(jì)。
9、加強(qiáng)函數(shù)逼近器
差異化網(wǎng)絡(luò)架構(gòu)是一種有力工具,可以用來(lái):以豐富的方式表示狀態(tài),實(shí)現(xiàn)差異化存儲(chǔ)、差異化規(guī)劃、層級(jí)控制。
將算法的復(fù)雜性融入網(wǎng)絡(luò)架構(gòu),可以降低算法的復(fù)雜度,增加網(wǎng)絡(luò)架構(gòu)的可表達(dá)性。
10、要學(xué)習(xí)“如何學(xué)習(xí)”
人工智能的發(fā)展史呈現(xiàn)出一條清晰的發(fā)展脈絡(luò)。
第一代:“美好的”老式人工智能。手動(dòng)控制預(yù)測(cè),不學(xué)習(xí)任何內(nèi)容。
第二代:淺度學(xué)習(xí)。手動(dòng)控制特征,學(xué)習(xí)預(yù)測(cè)。
第三代:深度學(xué)習(xí)。手動(dòng)控制算法(優(yōu)化器、目標(biāo)、架構(gòu)),學(xué)習(xí)特征和端對(duì)端預(yù)測(cè)。
第四代:Meta學(xué)習(xí)。無(wú)手動(dòng)環(huán)節(jié),學(xué)習(xí)算法、特征和端對(duì)端預(yù)測(cè)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
108005 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
269瀏覽量
11578 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
11543
原文標(biāo)題:AlphaGo首席研究員親授!十張PPT,十大強(qiáng)化學(xué)習(xí)黃金法則!
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
中國(guó)科學(xué)院西安光機(jī)所在計(jì)算成像可解釋性深度學(xué)習(xí)重建方法取得進(jìn)展

18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

分立器件可靠性:從工業(yè)死機(jī)到汽車故障的隱形防線

詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

年度電解槽十大品牌+年度制氫十大供應(yīng)商,穩(wěn)石氫能榮獲兩大獎(jiǎng)項(xiàng)!
華為發(fā)布2025智能光伏十大趨勢(shì)
如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究?(三)

螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家
如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)
“智能網(wǎng)聯(lián)汽車全球十大發(fā)展突破”在京發(fā)布

谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用
十年預(yù)言:Chiplet的使命

中國(guó)信通院發(fā)布“2024云計(jì)算十大關(guān)鍵詞”

評(píng)論