女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何構建強化學習模型來訓練無人車算法

ml8z_IV_Technol ? 來源:未知 ? 作者:胡薇 ? 2018-11-12 14:47 ? 次閱讀

本文作者通過簡單的方式構建了強化學習模型來訓練無人車算法,可以為初學者提供快速入門的經驗。

想象一下,你生活在一個沒有交通擁堵,沒有交通事故,也無需花費時間開車的世界,那會多美好。

在我之前做過的一篇關于強化學習的文章中(鏈接在文末)曾說過,自動駕駛汽車是一場革命,主要有兩個原因:

每年因交通事故將挽救125萬人的生命

省下開車的時間,它會讓你在一生中多活3年

很多公司已經在研究自動駕駛汽車了!比如特斯拉,谷歌,Wayve等等。這些自動駕駛汽車往往使用了強化學習!

再說一遍,如果你還沒有讀上一篇文章(鏈接在文末),可以先讀一下,在這里我只做上篇文章的簡要概述。

強化學習使機器(或者稱為智能體)通過實驗學習。就像人類學習走路。起初,你以一定的方式移動你的腿,但是你會跌倒。你跌倒了很多次,但最終,經過多次嘗試,你會慢慢學會如何移動你的腿來走路。強化學習的原則與此相同!

比較正式的說法是,具有特定狀態的環境中的智能體具有可以執行的一組動作。在執行這些動作后,它會收到一個獎勵,讓智能體知道這個動作有多好。當然,我們希望得到與我們目標相符的最高的獎勵。貝爾曼方程用于說明未來的獎勵,它通常是一系列導致積極結果的動作。在Q學習函數(Q-Learning)中,我們使用這些獎勵來更新可以告訴我們某個狀態有好壞的Q值。在深度Q學習(Deep Q-Learning)中,我們使用可以近似Q值的深度神經網絡來代替Q值。當下次我們的智能體在環境中移動時,它將使用深度Q網絡(Deep Q-Network)為每個動作生成Q值,并采用具有最高Q值的動作。

概念說太多也許你不明白,直觀理解就足夠了。強化學習與我們學習的方式進行比較是:

我們采取的行動會產生正面或反面的后果。如果它是正面的,我們會再次采取行動,反之亦然。就這么簡單!

現在開始構建我們的虛擬自動駕駛汽車,讓我們來看看構建的過程。

1.建立環境

首先,我需要為我的車創建虛擬環境。我最初想到創建一個Unity環境,但我的筆記本電腦在創建Unity游戲時感覺已經快死了。再加上機器學習和錄制軟件,我認為這么麻煩不值得。

我使用了一個名為Kivy的python包來創建UI。

我們從一張空地圖開始。“汽車”的目標是在地圖的左上角到右下角之間來回移動。

但是,我可以在地圖上繪制“沙地”。如果汽車碰到了沙地,就會被視為出了車禍!

我們將使用強化學習(RL),特別是深度Q-Learning來制造我們的自動駕駛汽車。RL算法都有3個關鍵元素,狀態(State),動作(Action)和獎勵(Reward)。以下我的程序中定義這些元素的方式:

狀態

汽車所處的狀態包括5個變量:

傳感器紅色

傳感器黃色

傳感器藍色

方向

負方向

前三個來自汽車前部的3個傳感器。每個傳感器(紅色,黃色,藍色)都能探測到距離自身10像素半徑內的沙地的像素。從邏輯上講,也就是說,如果汽車左側有一堵沙墻,藍色傳感器會比黃色傳感器探測到的沙地更多。這使汽車可以確定沙地的位置,從而確定行進的方向。最后2個變量代表汽車的方向。以角度衡量,0度將指向上方。我們還添加了負方向方便優化和提升性能。

動作

有三種可能的行動:

順時針旋轉20度

逆時針轉動20度

不轉彎

獎勵

主要獎勵包括:

-5:如果汽車駛入沙地

-0.1:如果汽車離目的地越遠

0.1:如果汽車更接近目的地

這些只是主要的獎勵。我還根據汽車的性能定義了其他獎勵。例如,我后來意識到汽車離地圖的邊緣太近了,所以每當距離邊緣10個像素內時我就給它一個負獎勵。在實踐中,你可以自行定義獎勵,以獲得自己想要達到的效果。

2.選擇模型

我決定使用強化學習,特別是深度Q學習。這是我的神經網絡的架構:

輸入層:5個節點(每個狀態一個輸入節點)

隱藏層:30個節點

輸出層:3個節點(每個動作一個)

激活函數:ReLU

優化器:Adam

一個隱藏層通常足以解決這類簡單的問題。再進行訓練需要更長的時間,并且不會帶來顯著的性能提升。

3.訓練

訓練時,汽車開始行駛,并逐漸適應環境。我添加了按鈕來保存,并將以前的模型加載到當前的自動駕駛汽車中。以下是我們實際學習的代碼片段:

4.評估和參數調整

這是智能體每個時間步獲得獎勵的圖。在圖中,智能體每次接近目標時都獲得+1獎勵,遠離則獲得-1獎勵。這由+0.1和-0.1累積而來。訓練在1500個時間步后達到穩定水平。

上面是更早之前生成的圖。這是當智能體視離目標的遠近分別獲得+0.1和-0.1獎勵。如你所見,獎勵在2000步之后穩定了,而不是這次的1500步。這兩個圖平均需要10個不同的訓練周期。結果表明,+1和-1獎勵訓練速度比+0.1和-0.1獎勵更快。

對該模型進行了許多其他更改。比如:

天氣調整

額外的獎勵(例如,智能體不采取最佳路線。我們增加獎勵,鼓勵智能體降低與上一圈相比達到目標的步數。)

不同的神經網絡架構(例如,層數,節點數,優化器,激活函數)

5.預測!

現在,我們的優化模型。我們的汽車可以無碰撞地進行自動駕駛!

我在這里開發了RL驅動的自動駕駛汽車的基礎架構。現實生活中的汽車將更難進行編碼,但我相信我們最終會成功。并且,我是在筆記本電腦上進行研發,其計算能力比特斯拉公司的小數百萬倍。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 無人車
    +關注

    關注

    1

    文章

    307

    瀏覽量

    36815
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11517

原文標題:強化學習開源項目:自己動手創建虛擬自動駕駛汽車

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    深度強化學習實戰

    內容2:課程一: TensoRFlow入門到熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識別:課程五:算法實現:1、卷積神經網絡CNN2、循環神經網絡RNN3、強化學習DRL4、對抗性生成
    發表于 01-10 13:42

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能體之間的交互。
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    量化深度強化學習算法的泛化能力

    OpenAI 近期發布了一個新的訓練環境 CoinRun,它提供了一個度量智能體將其學習經驗活學活用到新情況的能力指標,而且還可以解決一項長期存在于強化學習中的疑難問題——即使是廣受贊譽的強化
    的頭像 發表于 01-01 09:22 ?2656次閱讀
    量化深度<b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>的泛化能力

    基于PPO強化學習算法的AI應用案例

    Viet Nguyen就是其中一個。這位來自德國的程序員表示自己只玩到了第9個關卡。因此,他決定利用強化學習AI算法幫他完成未通關的遺憾。
    發表于 07-29 09:30 ?3099次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與環境進行
    發表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無<b class='flag-5'>模型</b><b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>及研究綜述

    模型化深度強化學習應用研究綜述

    強化學習。無模型強仳學習方法的訓練過程需要大量樣本,當采樣預算不足,無法收集大量樣本時,很難達到預期效果。然而,模型
    發表于 04-12 11:01 ?9次下載
    <b class='flag-5'>模型</b>化深度<b class='flag-5'>強化學習</b>應用研究綜述

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊力控制策略的學習優化。基于深度強化學習的壓邊力優化算法,利用深度神經網絡處理巨大的狀態空間,避免了系統動力學的擬合,并且使用一種新的網絡結構
    發表于 05-27 10:32 ?0次下載

    基于深度強化學習無人機控制律設計方法

    基于深度強化學習無人機控制律設計方法
    發表于 06-23 14:59 ?46次下載

    基于強化學習的虛擬場景角色乒乓球訓練

    基于強化學習的虛擬場景角色乒乓球訓練
    發表于 06-27 11:34 ?62次下載

    強化學習的基礎知識和6種基本算法解釋

    來源:DeepHub IMBA 強化學習的基礎知識和概念簡介(無模型、在線學習、離線強化學習等) 機器學習(ML)分為三個分支:監督
    的頭像 發表于 12-20 14:00 ?1324次閱讀

    徹底改變算法交易:強化學習的力量

    強化學習(RL)是人工智能的一個子領域,專注于決策過程。與其他形式的機器學習相比,強化學習模型通過與環境交互并以獎勵或懲罰的形式接收反饋
    發表于 06-09 09:23 ?706次閱讀

    ICLR 2023 Spotlight|節省95%訓練開銷,清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2

    模型時代,模型壓縮和加速顯得尤為重要。傳統監督學習可通過稀疏神經網絡實現模型壓縮和加速,那么同樣需要大量計算開銷的強化學習任務可以基于稀疏
    的頭像 發表于 06-11 21:40 ?893次閱讀
    ICLR 2023 Spotlight|節省95%<b class='flag-5'>訓練</b>開銷,清華黃隆波團隊提出<b class='flag-5'>強化學習</b>專用稀疏<b class='flag-5'>訓練</b>框架RLx2

    強化學習的基礎知識和6種基本算法解釋

    來源:DeepHubIMBA強化學習的基礎知識和概念簡介(無模型、在線學習、離線強化學習等)機器學習(ML)分為三個分支:監督
    的頭像 發表于 01-05 14:54 ?1285次閱讀
    <b class='flag-5'>強化學習</b>的基礎知識和6種基本<b class='flag-5'>算法</b>解釋

    基于強化學習的目標檢測算法案例

    摘要:基于強化學習的目標檢測算法在檢測過程中通常采用預定義搜索行為,其產生的候選區域形狀和尺寸變化單一,導致目標檢測精確度較低。為此,在基于深度強化學習的視覺目標檢測算法基礎上,提出聯
    發表于 07-19 14:35 ?0次下載

    模擬矩陣在深度強化學習智能控制系統中的應用

    。 在深度強化學習智能控制系統中,訊維模擬矩陣可以用來做以下幾方面的模擬和預測: 環境模擬:構建多種環境模型,包括不同參數的系統、不同干擾因素等,為深度強化學習智能控制系統提供多樣化的
    的頭像 發表于 09-04 14:26 ?767次閱讀
    模擬矩陣在深度<b class='flag-5'>強化學習</b>智能控制系統中的應用