女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于最近將深度強(qiáng)化學(xué)習(xí)應(yīng)用于迷宮導(dǎo)航的研究

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-04-08 09:06 ? 次閱讀

在每個人的童年時期,我們是如何學(xué)會記住自己家附近的路的?我們是怎樣學(xué)會自己去朋友家、學(xué)校或者去小賣部的?在沒有地圖的情況下,我們可能只是簡單地記住了某條路長什么樣,憑記憶引導(dǎo)自己。慢慢地,我們逐漸熟悉了自己的日常活動范圍,就變得有信心了,能知道自己身在何處,并且學(xué)習(xí)了新的更復(fù)雜的道路。偶爾你可能會迷路,但是憑借某個標(biāo)志甚至太陽你又能找到正確的路。

在非結(jié)構(gòu)化的環(huán)境中導(dǎo)航是智能生物的特有的功能,想要實現(xiàn)遠(yuǎn)程導(dǎo)航,首先要對空間進(jìn)行內(nèi)部探索,然后要識別地標(biāo),同時還要有強(qiáng)大的視覺處理能力。基于最近將深度強(qiáng)化學(xué)習(xí)應(yīng)用于迷宮導(dǎo)航的研究,DeepMind的研究人員也提出了一種端到端的深度強(qiáng)化學(xué)習(xí)方法,他們讓智能體在真實的城市空間中導(dǎo)航,無需地圖,并且這種方法還能遷移到不同城市環(huán)境。

導(dǎo)航是一項重要的認(rèn)知任務(wù),它能讓人類和動物在沒有地圖的情況下,穿越過一片阡陌縱橫的區(qū)域。這種遠(yuǎn)距離導(dǎo)航可以同時進(jìn)行自我定位(我在這里)和目標(biāo)表示(我要去那里)。

在Learning to Navigate in Cities Without a Map這篇論文里,我們展示了一種交互式導(dǎo)航環(huán)境,利用第一人稱視角的谷歌街景照片做素材,將其游戲化以訓(xùn)練AI。標(biāo)準(zhǔn)的街景照片,人臉和車牌都被模糊,無法識別。我們建立了一個基于神經(jīng)網(wǎng)絡(luò)的智能體,學(xué)習(xí)使用視覺信息在多個城市中導(dǎo)航。注意,這項研究關(guān)注的是一般導(dǎo)航,而非駕駛導(dǎo)航;我們沒有使用交通信息,也沒有對車輛控制進(jìn)行建模。

數(shù)據(jù)來源于真實街景。從左至右分別為紐約時代廣場、中央公園和倫敦圣保羅大教堂

當(dāng)智能體達(dá)到目的地時,它就會獲得獎勵(具體來說是一個經(jīng)緯度坐標(biāo)),就像一個沒有地圖的郵遞員,要送無數(shù)的快遞。隨著時間的發(fā)展,智能體慢慢學(xué)會了用這種方法穿越整個城市。我們同樣證明了智能體可以學(xué)習(xí)多個城市的道路,并且這種學(xué)習(xí)方法能有效遷移到新的城市中。

在沒有地圖的情況下學(xué)習(xí)導(dǎo)航

我們不使用傳統(tǒng)的依賴外部映射和探索的傳統(tǒng)方法,而是讓智能體學(xué)習(xí)像人類一樣導(dǎo)航,不用地圖、GPS定位或其他輔助工具,只用視覺觀察。我們創(chuàng)建了一個神經(jīng)網(wǎng)絡(luò)智能體,向其中輸入在環(huán)境中觀察到的圖像,并預(yù)測它在該環(huán)境中執(zhí)行的下一項操作。我們使用深度強(qiáng)化學(xué)習(xí)對其進(jìn)行端到端訓(xùn)練,類似最近讓智能體在復(fù)雜的3D迷宮中學(xué)習(xí)導(dǎo)航的研究,以及用無監(jiān)督輔助方法玩游戲。與迷宮不同,我們利用真實的城市數(shù)據(jù),例如倫敦、巴黎和紐約的復(fù)雜交叉路口、人行道、隧道和各種城市道路。此外,我們使用的方法可以遷移到不同城市,并可以優(yōu)化導(dǎo)航行為。

模塊化神經(jīng)網(wǎng)絡(luò)

我們智能體的神經(jīng)網(wǎng)絡(luò)包括三個部分:

能夠處理圖像并提取視覺特征的卷積網(wǎng)絡(luò);

一個特定場所的循環(huán)神經(jīng)網(wǎng)絡(luò),在內(nèi)部進(jìn)行對環(huán)境的記憶并學(xué)習(xí)表示“這里”(智能體的當(dāng)前位置)和“那里”(目標(biāo)位置);

一個位置不變的循環(huán)網(wǎng)絡(luò),能夠根據(jù)智能體位置的變化進(jìn)行導(dǎo)航。

特定場所的模塊被設(shè)計成可互換的,并且正如其名,對于每個城市都是唯一的,而視覺模塊和策略模塊是不隨著場景而變換的。

就像谷歌街景的界面一樣,智能體可以在原地打轉(zhuǎn),也可以向前進(jìn)入到下一個場景。但與谷歌地圖和街景不同的是,智能體看不到小箭頭、局部或全景地圖以及標(biāo)志性的街景小人,它還需要學(xué)習(xí)區(qū)分開放道路和人行道。目的地可能是幾公里以外的地方,智能體需要搜索幾百個全景圖才能到達(dá)。

我們證明了這種方法能提供一種機(jī)制,將導(dǎo)航知識遷移到新城市中。和人類一樣,當(dāng)智能體來到一個新城市,我們會希望它學(xué)習(xí)一組新的地標(biāo),但不必重新學(xué)習(xí)它的視覺表現(xiàn)或行為(例如,沿著街道向前縮放,或者在交叉路口轉(zhuǎn)向)。因此,使用MultiCity架構(gòu),我們在許多城市進(jìn)行首次訓(xùn)練,然后凍結(jié)策略網(wǎng)絡(luò)和視覺卷積網(wǎng)絡(luò),并在一個新城市中建立唯一一個新的特定地區(qū)路徑。這種方法讓智能體在獲取新知識的同時不忘之前學(xué)到的東西,類似漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)。

學(xué)習(xí)導(dǎo)航是人工智能領(lǐng)域的基礎(chǔ),試圖在智能體中復(fù)制導(dǎo)航功能還可以幫助科學(xué)家了解其生物學(xué)基礎(chǔ)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4806

    瀏覽量

    102724
  • 導(dǎo)航
    +關(guān)注

    關(guān)注

    7

    文章

    547

    瀏覽量

    42996
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48677

    瀏覽量

    246279

原文標(biāo)題:無需地圖,DeepMind讓智能體在城市中自我導(dǎo)航

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    18個常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?260次閱讀
    18個常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?457次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    淺談適用規(guī)模充電站的深度學(xué)習(xí)有序充電策略

    深度強(qiáng)化學(xué)習(xí)能夠有效計及電動汽車出行模式和充電需求的不確定性,實現(xiàn)充電場站充電成本化的目標(biāo)。通過對電動汽車泊車時間和充電需求特征進(jìn)行提取,建立適用于大規(guī)模電動汽車有序充電的馬爾可夫決策過程模型,并
    的頭像 發(fā)表于 02-08 15:00 ?444次閱讀
    淺談適用規(guī)模充電站的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>有序充電策略

    OpenAI發(fā)布深度研究智能體功能

    OpenAI的o3模型提供支持,通過端到端的強(qiáng)化學(xué)習(xí)訓(xùn)練,實現(xiàn)了高效、準(zhǔn)確的研究能力。它能夠在5-30分鐘內(nèi)完成一份專業(yè)報告,大大縮短了研究時間,提高了研究效率。 該功能由四個模塊協(xié)同
    的頭像 發(fā)表于 02-05 15:05 ?475次閱讀

    如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究?(二)

    第二部分編譯后的內(nèi)容:3.問題遇見方法:從機(jī)器學(xué)習(xí)的視角去解決化學(xué)問題的方法在機(jī)器學(xué)習(xí)的具體內(nèi)容應(yīng)用于實踐中的過程中,有大量可供參考的資源
    的頭像 發(fā)表于 12-03 01:02 ?442次閱讀
    如何在<b class='flag-5'>化學(xué)</b>和材料科學(xué)領(lǐng)域開展有影響力的人工智能<b class='flag-5'>研究</b>?(二)

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實驗室首席科學(xué)家

    領(lǐng)域的研究與發(fā)展。令人矚目的是,邊塞科技的創(chuàng)始人吳翼已正式加入該實驗室,并擔(dān)任首席科學(xué)家一職。 吳翼在其個人社交平臺上對這一變動進(jìn)行了回應(yīng)。他表示,自己最近接受了螞蟻集團(tuán)的邀請,負(fù)責(zé)大模型強(qiáng)化學(xué)習(xí)領(lǐng)域的
    的頭像 發(fā)表于 11-22 11:14 ?1315次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?899次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    能力,可以顯著提高圖像識別模型的訓(xùn)練速度和準(zhǔn)確性。例如,在人臉識別、自動駕駛等領(lǐng)域,GPU被廣泛應(yīng)用于加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程。 二、自然語言處理 自然語言處理(NLP)是深度
    的頭像 發(fā)表于 10-27 11:13 ?1079次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計流程,并幫助芯片在性能、功耗和面積方面實現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?635次閱讀

    利用Matlab函數(shù)實現(xiàn)深度學(xué)習(xí)算法

    在Matlab中實現(xiàn)深度學(xué)習(xí)算法是一個復(fù)雜但強(qiáng)大的過程,可以應(yīng)用于各種領(lǐng)域,如圖像識別、自然語言處理、時間序列預(yù)測等。這里,我概述一個基本的流程,包括環(huán)境設(shè)置、數(shù)據(jù)準(zhǔn)備、模型設(shè)計、訓(xùn)
    的頭像 發(fā)表于 07-14 14:21 ?3393次閱讀

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨
    的頭像 發(fā)表于 07-09 15:54 ?1902次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計算機(jī)科學(xué)領(lǐng)域中兩個非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文介紹深度
    的頭像 發(fā)表于 07-05 09:47 ?1474次閱讀

    基于深度學(xué)習(xí)的小目標(biāo)檢測

    在計算機(jī)視覺領(lǐng)域,目標(biāo)檢測一直是研究的熱點和難點之一。特別是在小目標(biāo)檢測方面,由于小目標(biāo)在圖像中所占比例小、特征不明顯,使得檢測難度顯著增加。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN
    的頭像 發(fā)表于 07-04 17:25 ?1869次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的一個重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為一種流行的編程語言,憑借其簡潔的語法和豐富的庫支持,成為了深度學(xué)習(xí)
    的頭像 發(fā)表于 07-03 16:04 ?1047次閱讀

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們介紹并實現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?578次閱讀
    通過<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇