女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

適合初學者的神經網絡理論到實踐(3):打破概念束縛:什么是強化學習?

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-10 19:05 ? 次閱讀

專欄中《零神經網絡實戰》系列持續更新介紹神經元怎么工作,最后使用python從0到1不調用任何依賴神經網絡框架(不使用tensorflow等框架)來實現神經網絡,梯度下降、反向傳播、卷積神經網絡CNN、循環神經網絡RNN。從0基礎角度進行神經網絡實戰。本篇為第三篇。
作者:司南牧

Alpha Zero就是利用強化學習打敗柯潔。可以說強化學習是我覺得目前最可以叫做智能算法。因為不需要數據就能自己總結出經驗,這符合人的學習方式。

注意:強化學習有很多概念,不要一開始被這些概念束縛了。首先得知道強化學習大致是什么,再看這些概念就會恍然大悟。 本文的思路就是先介紹我對強化學習的理解。然后介紹強化學習中的一些概念。最后是強化學習實踐。

打破概念束縛:強化學習是個啥?

答:強化學習就是受到動物從生活中學習技能的思想啟發的一種智能算法;那么怎么啟發的呢?動物學習技能的過程就是不斷嘗試各種行為,最后總結經驗,然后以后遇到相同情況直接用以往的經驗就可以。強化學習就是這么做的。“不斷猜測,檢驗,再猜測,再檢驗,直到找到達成目標的經驗”這個過程就是強化學習。它學習的經驗叫做模型。學習到了這些經驗后以后就不用猜測了,直接用經驗就可以。強化學習“學到”的經驗是什么:“在某個狀態下,做哪個行為,得到的獎勵最大”,經驗這是一個列表是一本教科書。

總結:強化學習的輸出結果是找到解決某個問題的經驗。強化學習的過程是不斷亂嘗試,并記錄所處的狀態和行為,找到某個狀態下獎勵最大的行為。

為何要用強化學習?( 知道為什么才是打破概念束縛的關鍵)

答:因為智能體不知道哪些行為可以產生獎勵,也不知道什么時候會來獎勵。這些經驗都是要從環境中學習所得到。

似懂非懂?沒關系有個模糊的是那么回事的印象就可以。看下面的例子就懂了。

舉個例子:在高中生物書上有個“巴甫洛夫的狗”這個實驗。 就是巴甫洛夫每次給它狗喂食的時候都會搖鈴鐺,然后這條狗慢慢學到了“搖鈴鐺=有東西吃”這個經驗。然后學到這個經驗后,只要“搖鈴鐺”它就會流口水。強化學習就是受到這種啟發而發明的算法。
從“巴甫洛夫的狗”看強化學習幾個概念

強化學習思想很簡單,7個詞夠了:

智能體、目標、環境、觀察、狀態、行動、獎勵

不要慌。接下來用例子來解釋著7個東西是什么。 我們用“巴甫洛夫的狗”這個實驗解釋下這強化學習這個六個要素。

智能體。首先這條狗它是一個智能體(Agent)。

目標。它的目標(Goal)是吃飯。

環境。環境就是字面意思,它在的這個地方發生的一切都屬于環境里面的東西。

觀察。然后,它各種看和聽什么現象和食物相關。這個過程叫做觀察。

狀態。觀察到的內容叫做狀態(state)。這里的狀態是:有沒有飯吃、有沒有人說話、有沒有腳步聲、有沒有鈴聲。

行為。然后它根據這些觀察會作出一些動作,如:“搖尾巴,流口水等等”。這個叫做行為(action)。行為是根據觀察到內容(狀態)而作出的。 這里可能的行為是(前半部分是狀態,后半部分是行為):

聽到腳步聲——搖尾巴

聽到鈴聲——流口水

聽到腳步聲——流口水

看到天黑了——汪汪汪叫

7.獎勵。在這里,獎勵是作出的行為有沒有飯吃。

聽到腳步聲——搖尾巴——沒飯吃

聽到鈴聲——流口水——有飯吃

聽到腳步聲——流口水——沒飯吃

看到天黑了——汪汪汪叫——沒飯吃


從“巴甫洛夫的狗”分析強化學習執行過程

現在,我想你隱隱約約應該看出動物怎么學習的了。就是“不斷猜測,檢驗,再猜測,再檢驗”,檢驗唯一標準是有沒有達成目標。

但是怎么理性科學的看待這個問題呢?答:“不斷猜測,檢驗,再猜測,再檢驗,直到找到達成目標的經驗”這個過程就是強化學習。它學習的經驗叫做模型。學習到了這些經驗后以后就不用猜測了,直接用經驗就可以。強化學習“學到”的經驗是什么:“在某個狀態下,做哪個行為,得到的獎勵最大”,這是一個列表清單。

為何“狗”要不斷嘗試呢?

因為它不知道哪些行為可以產生獎勵,也不知道什么時候會來獎勵。這些都是要從環境中學習所得到。


審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48829

    瀏覽量

    247292
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11533
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    BP神經網絡與深度學習的關系

    BP神經網絡與深度學習之間存在著密切的關系,以下是對它們之間關系的介紹: 一、BP神經網絡的基本概念 BP神經網絡,即反向傳播
    的頭像 發表于 02-12 15:15 ?760次閱讀

    神經網絡理論研究的物理學思想介紹

    本文主要介紹神經網絡理論研究的物理學思想 神經網絡在當今人工智能研究和應用中發揮著不可替代的作用。它是人類在理解自我(大腦)的過程中產生的副產品,以此副產品,人類希望建造一個機器智能來實現機器文明
    的頭像 發表于 01-16 11:16 ?833次閱讀
    <b class='flag-5'>神經網絡理論</b>研究的物理學思想介紹

    卷積神經網絡的基本概念、原理及特點

    的基本概念、原理、特點以及在不同領域的應用情況。 一、卷積神經網絡的基本概念 卷積神經網絡是一種深度學習算法,它由多層卷積層和池化層堆疊而成
    的頭像 發表于 07-11 14:38 ?2318次閱讀

    適合初學者的嵌入式項目有哪些?

    適合初學者的嵌入式項目有哪些? 嵌入式學習是一個實踐性很強的領域,通過實際項目可以幫助你鞏固理論知識并提升技能。以下是幾個
    發表于 07-11 10:23

    BP神經網絡學習機制

    BP神經網絡(Backpropagation Neural Network),即反向傳播神經網絡,是一種基于梯度下降算法的多層前饋神經網絡,其學習機制的核心在于通過反向傳播算法
    的頭像 發表于 07-10 15:49 ?1155次閱讀

    神經網絡的種類及舉例說明

    神經網絡作為深度學習領域的核心組成部分,近年來在圖像識別、自然語言處理、語音識別等多個領域取得了顯著進展。本文將從神經網絡的基本原理出發,深入講解其種類,并通過具體實例進行說明,以期為初學者
    的頭像 發表于 07-08 11:06 ?1560次閱讀

    遞歸神經網絡是循環神經網絡

    遞歸神經網絡(Recurrent Neural Network,簡稱RNN)和循環神經網絡(Recurrent Neural Network,簡稱RNN)實際上是同一個概念,只是不同的翻譯方式
    的頭像 發表于 07-04 14:54 ?1464次閱讀

    循環神經網絡的基本概念

    循環神經網絡的基本概念、循環機制、長短時記憶網絡(LSTM)、門控循環單元(GRU)等方面進行介紹。 循環神經網絡的基本概念 循環
    的頭像 發表于 07-04 14:31 ?1225次閱讀

    循環神經網絡和卷積神經網絡的區別

    循環神經網絡(Recurrent Neural Network,RNN)和卷積神經網絡(Convolutional Neural Network,CNN)是深度學習領域中兩種非常重要的神經網絡
    的頭像 發表于 07-04 14:24 ?1990次閱讀

    卷積神經網絡與循環神經網絡的區別

    在深度學習領域,卷積神經網絡(Convolutional Neural Networks, CNN)和循環神經網絡(Recurrent Neural Networks, RNN)是兩種極其重要
    的頭像 發表于 07-03 16:12 ?5485次閱讀

    如何使用神經網絡進行建模和預測

    神經網絡是一種強大的機器學習技術,可以用于建模和預測變量之間的關系。 神經網絡的基本概念 神經網絡是一種受人腦啟發的計算模型,由大量的節點(
    的頭像 發表于 07-03 10:23 ?1259次閱讀

    卷積神經網絡訓練的是什么

    卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹卷積神經網絡的基本概念
    的頭像 發表于 07-03 09:15 ?885次閱讀

    卷積神經網絡的原理是什么

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、語音識別、自然語言處理等領域。本文將詳細介紹卷積神經網絡的原理,包括其
    的頭像 發表于 07-02 14:44 ?1253次閱讀

    神經網絡結構類型和應用實例

    神經網絡模型,作為深度學習領域的核心組成部分,近年來在圖像識別、自然語言處理、語音識別等多個領域取得了顯著進展。本文旨在深入解讀神經網絡的基本原理、結構類型、訓練過程以及應用實例,為初學者
    的頭像 發表于 07-02 11:33 ?883次閱讀

    什么神經網絡模型適合做分類

    神經網絡是一種強大的機器學習模型,廣泛應用于各種分類任務。在本文中,我們將詳細介紹幾種適合分類任務的神經網絡模型,包括前饋神經網絡、卷積
    的頭像 發表于 07-02 11:14 ?1688次閱讀