女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌、DeepMind重磅推出PlaNet 強(qiáng)化學(xué)習(xí)新突破

DPVg_AI_era ? 來源:cc ? 2019-02-17 09:30 ? 次閱讀

Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡(luò) (PlaNet),這是一個純粹基于模型的智能體,能從圖像輸入中學(xué)習(xí)世界模型,完成多項(xiàng)規(guī)劃任務(wù),數(shù)據(jù)效率平均提升50倍,強(qiáng)化學(xué)習(xí)又一突破。

通過強(qiáng)化學(xué)習(xí) (RL),對 AI 智能體如何隨著時間的推移提高決策能力的研究進(jìn)展迅速。

對于強(qiáng)化學(xué)習(xí),智能體在選擇動作 (例如,運(yùn)動命令) 時會觀察一系列感官輸入(例如,相機(jī)圖像),并且有時會因?yàn)檫_(dá)成指定目標(biāo)而獲得獎勵。

RL 的無模型方法 (Model-free) 旨在通過感官觀察直接預(yù)測良好的行為,這種方法使 DeepMind 的 DQN 能夠玩雅達(dá)利游戲,使其他智能體能夠控制機(jī)器人

然而,這是一種黑盒方法,通常需要經(jīng)過數(shù)周的模擬交互才能通過反復(fù)試驗(yàn)來學(xué)習(xí),這限制了它在實(shí)踐中的有效性。

相反,基于模型的 RL 方法 (Model-basedRL) 試圖讓智能體了解整個世界的行為。這種方法不是直接將觀察結(jié)果映射到行動,而是允許 agent 明確地提前計(jì)劃,通過 “想象” 其長期結(jié)果來更仔細(xì)地選擇行動。

Model-based 的方法已經(jīng)取得了巨大的成功,包括 AlphaGo,它設(shè)想在已知游戲規(guī)則的虛擬棋盤上進(jìn)行一系列的移動。然而,要在未知環(huán)境中利用規(guī)劃(例如僅將像素作為輸入來控制機(jī)器人),智能體必須從經(jīng)驗(yàn)中學(xué)習(xí)規(guī)則或動態(tài)。

由于這種動態(tài)模型原則上允許更高的效率和自然的多任務(wù)學(xué)習(xí),因此創(chuàng)建足夠精確的模型以成功地進(jìn)行規(guī)劃是 RL 的長期目標(biāo)。

為了推動這項(xiàng)研究挑戰(zhàn)的進(jìn)展,Google AI 與 DeepMind 合作,提出了深度規(guī)劃網(wǎng)絡(luò) (Deep Planning Network, PlaNet),該智能體僅從圖像輸入中學(xué)習(xí)世界模型 (world model),并成功地利用它進(jìn)行規(guī)劃。

PlaNet 解決了各種基于圖像的控制任務(wù),在最終性能上可與先進(jìn)的 model-free agent 競爭,同時平均數(shù)據(jù)效率提高了 5000%。研究團(tuán)隊(duì)將發(fā)布源代碼供研究社區(qū)使用。

在 2000 次的嘗試中,PlaNet 智能體學(xué)習(xí)解決了各種連續(xù)控制任務(wù)。以前的沒有學(xué)習(xí)環(huán)境模型的智能體通常需要多 50 倍的嘗試次數(shù)才能達(dá)到類似的性能。

PlaNet 的工作原理

簡而言之,PlaNet 學(xué)習(xí)了給定圖像輸入的動態(tài)模型 (dynamics model),并有效地利用該模型進(jìn)行規(guī)劃,以收集新的經(jīng)驗(yàn)。

與以前的圖像規(guī)劃方法不同,我們依賴于隱藏狀態(tài)或潛在狀態(tài)的緊湊序列。這被稱為latent dynamics model:我們不是直接從一個圖像到下一個圖像地預(yù)測,而是預(yù)測未來的潛在狀態(tài)。然后從相應(yīng)的潛在狀態(tài)生成每一步的圖像和獎勵。

通過這種方式壓縮圖像,agent 可以自動學(xué)習(xí)更抽象的表示,例如對象的位置和速度,這樣就可以更容易地向前預(yù)測,而不需要沿途生成圖像。

Learned Latent Dynamics Model:在 latent dynamics 模型中,利用編碼器網(wǎng)絡(luò)(灰色梯形) 將輸入圖像的信息集成到隱藏狀態(tài)(綠色) 中。然后將隱藏狀態(tài)向前投影,以預(yù)測未來的圖像(藍(lán)色梯形) 和獎勵(藍(lán)色矩形)。

為了學(xué)習(xí)一個精確的 latent dynamics 模型,我們提出了:

循環(huán)狀態(tài)空間模型 (Recurrent State Space Model):一種具有確定性和隨機(jī)性成分的 latent dynamics 模型,允許根據(jù)魯棒規(guī)劃的需要預(yù)測各種可能的未來,同時記住多個時間步長的信息。我們的實(shí)驗(yàn)表明這兩個組件對于提高規(guī)劃性能是至關(guān)重要的。

潛在超調(diào)目標(biāo) (Latent Overshooting Objective):我們通過在潛在空間中強(qiáng)制 one-step 和 multi-step 預(yù)測之間的一致性,將 latent dynamics 模型的標(biāo)準(zhǔn)訓(xùn)練目標(biāo)推廣到訓(xùn)練多步預(yù)測。這產(chǎn)生了一個快速和有效的目標(biāo),可以改善長期預(yù)測,并與任何潛在序列模型兼容。

雖然預(yù)測未來的圖像允許我們教授模型,但編碼和解碼圖像 (上圖中的梯形) 需要大量的計(jì)算,這會減慢智能體的 planning 過程。然而,在緊湊的潛在狀態(tài)空間中進(jìn)行 planning 是很快的,因?yàn)槲覀冎恍枰A(yù)測未來的 rewards 來評估一個動作序列,而不是預(yù)測圖像。

例如,智能體可以想象球的位置和它到目標(biāo)的距離在特定的動作中將如何變化,而不需要可視化場景。這允許我們在每次智能體選擇一個動作時,將 10000 個想象的動作序列與一個大的 batch size 進(jìn)行比較。然后執(zhí)行找到的最佳序列的第一個動作,并在下一步重新規(guī)劃。

在潛在空間中進(jìn)行規(guī)劃:為了進(jìn)行規(guī)劃,我們將過去的圖像 (灰色梯形) 編碼為當(dāng)前的隱藏狀態(tài) (綠色)。這樣,我們可以有效地預(yù)測多個動作序列的未來獎勵。請注意,上圖中昂貴的圖像解碼器 (藍(lán)色梯形) 已經(jīng)消失了。然后,執(zhí)行找到的最佳序列的第一個操作 (紅色框)。

與我們之前關(guān)于世界模型的工作 (https://worldmodels.github.io/) 相比,PlaNet 在沒有策略網(wǎng)絡(luò)的情況下工作 —— 它純粹通過 planning 來選擇行動,因此它可以從模型當(dāng)下的改進(jìn)中獲益。有關(guān)技術(shù)細(xì)節(jié),請參閱我們的研究論文。

PlaNet vs. Model-Free 方法

我們在連續(xù)控制任務(wù)上評估了 PlaNet。智能體只被輸入圖像觀察和獎勵。我們考慮了具有各種不同挑戰(zhàn)的任務(wù):

側(cè)手翻任務(wù):帶有一個固定的攝像頭,這樣推車可以移動到視線之外。因此,智能體必須吸收并記住多個幀的信息。

手指旋轉(zhuǎn)任務(wù):需要預(yù)測兩個單獨(dú)的對象,以及它們之間的交互。

獵豹跑步任務(wù):包括難以準(zhǔn)確預(yù)測的地面接觸,要求模型預(yù)測多個可能的未來。

杯子接球任務(wù):它只在球被接住時提供一個稀疏的獎勵信號。這要求準(zhǔn)確預(yù)測很遠(yuǎn)的未來,并規(guī)劃一個精確的動作序列。

走路任務(wù):模擬機(jī)器人一開始是躺在地上,然后它必須先學(xué)會站立,再學(xué)習(xí)行走。

PlaNet 智能體接受了各種基于圖像的控制任務(wù)的訓(xùn)練。動圖顯示了當(dāng)智能體解決任務(wù)時輸入的圖像。這些任務(wù)提出了不同的挑戰(zhàn):部分可觀察性、與地面的接觸、接球的稀疏獎勵,以及控制一個具有挑戰(zhàn)性的雙足機(jī)器人。

這一研究是第一個使用學(xué)習(xí)模型進(jìn)行規(guī)劃,并在基于圖像的任務(wù)上優(yōu)于 model-free 方法的案例。

下表將PlaNet與著名的A3C 智能體和 D4PG 智能體進(jìn)行了比較,后者結(jié)合了 model-free RL 的最新進(jìn)展。這些基線數(shù)據(jù)來自 DeepMind 控制套件。PlaNet 在所有任務(wù)上都明顯優(yōu)于 A3C,最終性能接近 D4PG,同時與環(huán)境的交互平均減少了 5000%。

所有任務(wù)只需要一個智能體

此外,我們只訓(xùn)練了一個單一的 PlaNet 智能體來解決所有六個任務(wù)。

在不知道任務(wù)的情況下,智能體被隨機(jī)放置在不同的環(huán)境中,因此它需要通過觀察圖像來推斷任務(wù)。

在不改變超參數(shù)的情況下,多任務(wù)智能體實(shí)現(xiàn)了與單個智能體相同的平均性能。雖然在側(cè)手翻任務(wù)中學(xué)習(xí)速度較慢,但在需要探索的具有挑戰(zhàn)性的步行任務(wù)中,它的學(xué)習(xí)速度要快得多,最終表現(xiàn)也更好。

在多個任務(wù)上訓(xùn)練的 PlaNet 智能體。智能體觀察前 5 個幀作為上下文以推斷任務(wù)和狀態(tài),并在給定動作序列的情況下提前準(zhǔn)確地預(yù)測 50 個步驟。

結(jié)論

我們的結(jié)果展示了構(gòu)建自主 RL 智能體的學(xué)習(xí)動態(tài)模型的前景。我們鼓勵進(jìn)一步的研究,集中在學(xué)習(xí)更困難的任務(wù)的精確動態(tài)模型,如三維環(huán)境和真實(shí)的機(jī)器人任務(wù)。擴(kuò)大規(guī)模的一個可能因素是 TPU 的處理能力。我們對 model-based 強(qiáng)化學(xué)習(xí)帶來的可能性感到興奮,包括多任務(wù)學(xué)習(xí)、分層規(guī)劃和使用不確定性估計(jì)的主動探索。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6223

    瀏覽量

    107511
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11515
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11362

原文標(biāo)題:一個智能體打天下:谷歌、DeepMind重磅推出PlaNet,數(shù)據(jù)效率提升50倍

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    18個常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?270次閱讀
    18個常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實(shí)現(xiàn)

    【免費(fèi)送,全新AD25(入門+進(jìn)階)兩套 PCB Layout視頻教程 】張飛實(shí)戰(zhàn)電子x志博PCB:攜手共創(chuàng)PCB學(xué)習(xí)新征程

    張飛實(shí)戰(zhàn)電子×志博PCB=攜手共創(chuàng)PCBLayout學(xué)習(xí)新征程領(lǐng)取課程請掃描后面的二維碼在電子科技浪潮奔涌的當(dāng)下,PCB作為電子產(chǎn)品的“中樞神經(jīng)”,其設(shè)計(jì)與制作技術(shù)的重要性不言而喻。張飛實(shí)戰(zhàn)電子與志
    的頭像 發(fā)表于 03-06 19:34 ?289次閱讀
    【免費(fèi)送,全新AD25(入門+進(jìn)階)兩套 PCB Layout視頻教程 】張飛實(shí)戰(zhàn)電子x志博PCB:攜手共創(chuàng)PCB<b class='flag-5'>學(xué)習(xí)新</b>征程

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?465次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    Commvault推出CIS強(qiáng)化鏡像

    混合云數(shù)據(jù)保護(hù)解決方案領(lǐng)先提供商Commvault(納斯達(dá)克代碼:CVLT)近日宣布可以使用CIS強(qiáng)化鏡像,從各大云應(yīng)用市場輕松部署Commvault Cloud平臺。這些CIS強(qiáng)化鏡像預(yù)先配置了
    的頭像 發(fā)表于 02-21 16:36 ?338次閱讀

    谷歌加速AI部門整合:AI Studio團(tuán)隊(duì)并入DeepMind

    近日,谷歌正緊鑼密鼓地推進(jìn)其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領(lǐng)英頁面上的透露,谷歌已將AI Studio團(tuán)隊(duì)整體轉(zhuǎn)移至DeepMi
    的頭像 發(fā)表于 01-13 14:40 ?602次閱讀

    OpenAI從谷歌DeepMind挖角三名高級工程師

    近日,據(jù)Wired最新報(bào)道,OpenAI在人才爭奪戰(zhàn)中取得了顯著成果,成功從競爭對手谷歌DeepMind“挖角”了三名高級計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的專家。 據(jù)悉,這三名工程師分別是Lucas
    的頭像 發(fā)表于 12-04 14:13 ?586次閱讀

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購。據(jù)悉,此次交易完成后,邊塞科技將保持獨(dú)立運(yùn)營,而原投資人已全部退出。 與此同時,螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,旨在推動大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1317次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?906次閱讀

    AI實(shí)火!諾貝爾又把化學(xué)獎頒給AI大模型

    昨天AI教父Geoff Hinton剛獲得諾貝爾物理學(xué)獎,今天,谷歌DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis又拿下化學(xué)獎! Demis能獲得化學(xué)獎靠的便是
    的頭像 發(fā)表于 10-10 10:38 ?367次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)
    的頭像 發(fā)表于 09-30 16:16 ?639次閱讀

    谷歌DeepMind被曝抄襲開源成果,論文還中了頂流會議

    谷歌DeepMind一篇中了頂流新生代會議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項(xiàng)研究。開源的那種。
    的頭像 發(fā)表于 07-16 18:29 ?809次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b>被曝抄襲開源成果,論文還中了頂流會議

    谷歌借助Gemini AI系統(tǒng)深化對機(jī)器人的訓(xùn)練

    7月12日,國際科技界傳來新動態(tài),谷歌正借助其先進(jìn)的Gemini AI系統(tǒng),深化對旗下機(jī)器人的訓(xùn)練,旨在顯著提升它們的導(dǎo)航能力和任務(wù)執(zhí)行能力。DeepMind機(jī)器人團(tuán)隊(duì)最新發(fā)布的研究論文,詳細(xì)闡述
    的頭像 發(fā)表于 07-12 16:29 ?865次閱讀

    谷歌AI新突破:為無聲視頻智能配音

    近日,谷歌DeepMind團(tuán)隊(duì)公布了一項(xiàng)革命性的技術(shù)——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術(shù)。這一技術(shù)的出現(xiàn),不僅為視頻創(chuàng)作領(lǐng)域帶來了新的可能,也為觀眾帶來了更加豐富的視聽體驗(yàn)。
    的頭像 發(fā)表于 06-21 10:50 ?718次閱讀

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?580次閱讀
    通過<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

    思必馳推出辦公學(xué)習(xí)新工具4G柔彩AI辦公本

    ? 6月3日,思必馳4G柔彩AI辦公本正式發(fā)售。 這是思必馳繼智慧辦公產(chǎn)品麥克風(fēng)音箱M4/M6/M12系列之后,再次推出辦公學(xué)習(xí)新工具。該款4G柔彩AI辦公本,即將以全新姿態(tài)成為職場人和學(xué)生黨
    的頭像 發(fā)表于 06-03 17:35 ?1479次閱讀