无码中字出轨中文人妻中文中 ,出租屋换妻游戏,老司机在线免费看a片

近日，谷歌DeepMind強(qiáng)化學(xué)習(xí)研究團(tuán)隊(duì)負(fù)責(zé)人、AlphaGo項(xiàng)目首席研究員Dave Silver在Deep Learning Indaba活動(dòng)的主題演講中歸納出了強(qiáng)化學(xué)習(xí)中要注意的10大要點(diǎn)。一起來(lái)看看，也許能少走點(diǎn)彎路。

近日，在南非斯泰倫博斯舉行的Deep Learning Indaba活動(dòng)上，谷歌DeepMind強(qiáng)化學(xué)習(xí)研究團(tuán)隊(duì)負(fù)責(zé)人、AlphaGo項(xiàng)目首席研究員Dave Silver在主題演講中歸納出強(qiáng)化學(xué)習(xí)中要注意的10大要點(diǎn)。

活動(dòng)主辦方將Dave Silver演講的PPT截圖和文字要點(diǎn)發(fā)在了推特上，引發(fā)了廣泛討論。

Silver的演講中提出的強(qiáng)化學(xué)習(xí)10大要點(diǎn)涵蓋涉及算法評(píng)估、狀態(tài)控制、建模函數(shù)等方面的心得和建議，非常值得開發(fā)者和機(jī)器學(xué)習(xí)愛好者參考學(xué)習(xí)。一起看看他是怎么說(shuō)的吧！

1、在評(píng)估中產(chǎn)生進(jìn)步

客觀、量化的估計(jì)會(huì)產(chǎn)生進(jìn)步，對(duì)評(píng)估尺度的選擇會(huì)決定進(jìn)步的方向。這可能是項(xiàng)目推進(jìn)過程中做出的最重要的決定。

目標(biāo)驅(qū)動(dòng)型研究：確認(rèn)評(píng)估標(biāo)準(zhǔn)與最終目標(biāo)密切相關(guān)。避免主觀評(píng)估

假設(shè)驅(qū)動(dòng)型研究：提出假設(shè)，在寬泛的條件下驗(yàn)證假設(shè)，與相似結(jié)果對(duì)比，而不是與最先進(jìn)的結(jié)果對(duì)比。重要的是對(duì)結(jié)果的理解，而不是追求排名。

2、算法的可擴(kuò)展性決定是否成功

算法的可擴(kuò)展性是指其性能隨資源的梯度變化。這里的資源可能是計(jì)算、存儲(chǔ)和數(shù)據(jù)。算法的可擴(kuò)展性決定了能否項(xiàng)目能否成功，它幾乎永遠(yuǎn)比算法的起點(diǎn)重要。最終，好的算法總是無(wú)限資源條件下的最優(yōu)解決方案。

3、穩(wěn)定算法的通用性

算法通用性是指算法在不同深度學(xué)習(xí)環(huán)境下的表現(xiàn)。應(yīng)避免對(duì)當(dāng)前任務(wù)的過擬合。積極尋求可以適用于未來(lái)未知環(huán)境下的算法。

結(jié)論：要廣泛驗(yàn)證，建立現(xiàn)實(shí)的機(jī)器學(xué)習(xí)環(huán)境。

4、信任智能體的經(jīng)驗(yàn)

經(jīng)驗(yàn)（包括觀察、動(dòng)作、獎(jiǎng)勵(lì)）是指深度學(xué)習(xí)的數(shù)據(jù)。信任這些經(jīng)驗(yàn)，將其作為唯一知識(shí)來(lái)源。盡管這些經(jīng)驗(yàn)看上去不可學(xué)習(xí)，但最終長(zhǎng)期來(lái)看，經(jīng)驗(yàn)終將取得成功。

5、狀態(tài)是主觀的

智能體應(yīng)該基于經(jīng)驗(yàn)建立自身的狀態(tài)，智能體的狀態(tài)是關(guān)于其先前狀態(tài)和新觀察數(shù)據(jù)的函數(shù)。任何時(shí)候不要定義某一環(huán)境下的“真實(shí)”狀態(tài)。

6、控制數(shù)據(jù)流

智能體處于大量數(shù)據(jù)流傳感器環(huán)境中，智能體的行為會(huì)對(duì)數(shù)據(jù)流造成影響。

控制特征——控制數(shù)據(jù)流——控制未來(lái)——實(shí)現(xiàn)任何回報(bào)的最大化。

7、價(jià)值函數(shù)可以對(duì)世界建模

價(jià)值函數(shù)是對(duì)未來(lái)的高效歸納和緩存。多關(guān)注固定時(shí)間段的查找，而非指數(shù)級(jí)的前瞻。可以獨(dú)立計(jì)算和學(xué)習(xí)。利用多價(jià)值函數(shù)可以在不同時(shí)間范圍內(nèi)，對(duì)世界各個(gè)方面進(jìn)行高效建模。

應(yīng)避免使用原始的時(shí)間步長(zhǎng)對(duì)世界進(jìn)行建模。

8、從想象的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)

想象接下來(lái)會(huì)發(fā)生什么，從想象的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)，同時(shí)關(guān)注在當(dāng)前時(shí)刻的值函數(shù)估計(jì)。

9、加強(qiáng)函數(shù)逼近器

差異化網(wǎng)絡(luò)架構(gòu)是一種有力工具，可以用來(lái):以豐富的方式表示狀態(tài)，實(shí)現(xiàn)差異化存儲(chǔ)、差異化規(guī)劃、層級(jí)控制。

將算法的復(fù)雜性融入網(wǎng)絡(luò)架構(gòu)，可以降低算法的復(fù)雜度，增加網(wǎng)絡(luò)架構(gòu)的可表達(dá)性。

10、要學(xué)習(xí)“如何學(xué)習(xí)”

人工智能的發(fā)展史呈現(xiàn)出一條清晰的發(fā)展脈絡(luò)。

第一代：“美好的”老式人工智能。手動(dòng)控制預(yù)測(cè)，不學(xué)習(xí)任何內(nèi)容。

第二代：淺度學(xué)習(xí)。手動(dòng)控制特征，學(xué)習(xí)預(yù)測(cè)。

第三代：深度學(xué)習(xí)。手動(dòng)控制算法（優(yōu)化器、目標(biāo)、架構(gòu)），學(xué)習(xí)特征和端對(duì)端預(yù)測(cè)。

第四代：Meta學(xué)習(xí)。無(wú)手動(dòng)環(huán)節(jié)，學(xué)習(xí)算法、特征和端對(duì)端預(yù)測(cè)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6231

瀏覽量
108005
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11578
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
11543