專欄中《零神經網絡實戰》系列持續更新介紹神經元怎么工作,最后使用python從0到1不調用任何依賴神經網絡框架(不使用tensorflow等框架)來實現神經網絡,梯度下降、反向傳播、卷積神經網絡CNN、循環神經網絡RNN。從0基礎角度進行神經網絡實戰。本篇為第三篇。
作者:司南牧
Alpha Zero就是利用強化學習打敗柯潔。可以說強化學習是我覺得目前最可以叫做智能的算法。因為不需要數據就能自己總結出經驗,這符合人的學習方式。
注意:強化學習有很多概念,不要一開始被這些概念束縛了。首先得知道強化學習大致是什么,再看這些概念就會恍然大悟。 本文的思路就是先介紹我對強化學習的理解。然后介紹強化學習中的一些概念。最后是強化學習實踐。
打破概念束縛:強化學習是個啥?
答:強化學習就是受到動物從生活中學習技能的思想啟發的一種智能算法;那么怎么啟發的呢?動物學習技能的過程就是不斷嘗試各種行為,最后總結經驗,然后以后遇到相同情況直接用以往的經驗就可以。強化學習就是這么做的。“不斷猜測,檢驗,再猜測,再檢驗,直到找到達成目標的經驗”這個過程就是強化學習。它學習的經驗叫做模型。學習到了這些經驗后以后就不用猜測了,直接用經驗就可以。強化學習“學到”的經驗是什么:“在某個狀態下,做哪個行為,得到的獎勵最大”,經驗這是一個列表是一本教科書。
總結:強化學習的輸出結果是找到解決某個問題的經驗。強化學習的過程是不斷亂嘗試,并記錄所處的狀態和行為,找到某個狀態下獎勵最大的行為。
為何要用強化學習?( 知道為什么才是打破概念束縛的關鍵)
答:因為智能體不知道哪些行為可以產生獎勵,也不知道什么時候會來獎勵。這些經驗都是要從環境中學習所得到。
似懂非懂?沒關系有個模糊的是那么回事的印象就可以。看下面的例子就懂了。
舉個例子:在高中生物書上有個“巴甫洛夫的狗”這個實驗。 就是巴甫洛夫每次給它狗喂食的時候都會搖鈴鐺,然后這條狗慢慢學到了“搖鈴鐺=有東西吃”這個經驗。然后學到這個經驗后,只要“搖鈴鐺”它就會流口水。強化學習就是受到這種啟發而發明的算法。
從“巴甫洛夫的狗”看強化學習幾個概念
強化學習思想很簡單,7個詞夠了:
智能體、目標、環境、觀察、狀態、行動、獎勵
不要慌。接下來用例子來解釋著7個東西是什么。 我們用“巴甫洛夫的狗”這個實驗解釋下這強化學習這個六個要素。
智能體。首先這條狗它是一個智能體(Agent)。
目標。它的目標(Goal)是吃飯。
環境。環境就是字面意思,它在的這個地方發生的一切都屬于環境里面的東西。
觀察。然后,它各種看和聽什么現象和食物相關。這個過程叫做觀察。
狀態。觀察到的內容叫做狀態(state)。這里的狀態是:有沒有飯吃、有沒有人說話、有沒有腳步聲、有沒有鈴聲。
行為。然后它根據這些觀察會作出一些動作,如:“搖尾巴,流口水等等”。這個叫做行為(action)。行為是根據觀察到內容(狀態)而作出的。 這里可能的行為是(前半部分是狀態,后半部分是行為):
聽到腳步聲——搖尾巴
聽到鈴聲——流口水
聽到腳步聲——流口水
看到天黑了——汪汪汪叫
7.獎勵。在這里,獎勵是作出的行為有沒有飯吃。
聽到腳步聲——搖尾巴——沒飯吃
聽到鈴聲——流口水——有飯吃
聽到腳步聲——流口水——沒飯吃
看到天黑了——汪汪汪叫——沒飯吃
從“巴甫洛夫的狗”分析強化學習執行過程
現在,我想你隱隱約約應該看出動物怎么學習的了。就是“不斷猜測,檢驗,再猜測,再檢驗”,檢驗唯一標準是有沒有達成目標。
但是怎么理性科學的看待這個問題呢?答:“不斷猜測,檢驗,再猜測,再檢驗,直到找到達成目標的經驗”這個過程就是強化學習。它學習的經驗叫做模型。學習到了這些經驗后以后就不用猜測了,直接用經驗就可以。強化學習“學到”的經驗是什么:“在某個狀態下,做哪個行為,得到的獎勵最大”,這是一個列表清單。
為何“狗”要不斷嘗試呢?
因為它不知道哪些行為可以產生獎勵,也不知道什么時候會來獎勵。這些都是要從環境中學習所得到。
審核編輯 黃昊宇
-
人工智能
+關注
關注
1804文章
48829瀏覽量
247292 -
強化學習
+關注
關注
4文章
269瀏覽量
11533
發布評論請先 登錄
BP神經網絡與深度學習的關系
神經網絡理論研究的物理學思想介紹

評論