女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌提出對(duì)加速智能體的學(xué)習(xí)過(guò)程

mK5P_AItists ? 來(lái)源:未知 ? 作者:鄧佳佳 ? 2018-04-02 09:50 ? 次閱讀

在強(qiáng)化學(xué)習(xí)問(wèn)題中,關(guān)于任務(wù)目標(biāo)的制定,往往需要開(kāi)發(fā)人員花費(fèi)很多的精力,在本文中,谷歌大腦聯(lián)合佐治亞理工學(xué)院提出了正向-反向強(qiáng)化學(xué)習(xí)(Forward-Backward Reinforcement Learning,F(xiàn)BRL),它既能從開(kāi)始位置正向進(jìn)行探索,也可以從目標(biāo)開(kāi)始進(jìn)行反向探索,從而加速智能體的學(xué)習(xí)過(guò)程。

一般來(lái)說(shuō),強(qiáng)化學(xué)習(xí)問(wèn)題的目標(biāo)通常是通過(guò)手動(dòng)指定的獎(jiǎng)勵(lì)來(lái)定義的。為了設(shè)計(jì)這些問(wèn)題,學(xué)習(xí)算法的開(kāi)發(fā)人員必須從本質(zhì)上了解任務(wù)的目標(biāo)是什么。然而我們卻經(jīng)常要求智能體在沒(méi)有任何監(jiān)督的情況下,在這些稀疏獎(jiǎng)勵(lì)之外,獨(dú)自發(fā)現(xiàn)這些任務(wù)目標(biāo)。雖然強(qiáng)化學(xué)習(xí)的很多力量來(lái)自于這樣一種概念,即智能體可以在很少的指導(dǎo)下進(jìn)行學(xué)習(xí),但這一要求對(duì)訓(xùn)練過(guò)程造成了極大的負(fù)擔(dān)。

如果我們放松這一限制,并賦予智能體關(guān)于獎(jiǎng)勵(lì)函數(shù)的知識(shí),尤其是目標(biāo),那么我們就可以利用反向歸納法(backwards induction)來(lái)加速訓(xùn)練過(guò)程。為了達(dá)到這個(gè)目的,我們提出訓(xùn)練一個(gè)模型,學(xué)習(xí)從已知的目標(biāo)狀態(tài)中想象出反向步驟。

我們的方法不是專門訓(xùn)練一個(gè)智能體以決策該如何在前進(jìn)的同時(shí)到達(dá)一個(gè)目標(biāo),而是反向而行,共同預(yù)測(cè)我們是如何到達(dá)目標(biāo)的。我們?cè)贕ridworld和漢諾塔(Towers of Hanoi)中對(duì)我們的研究進(jìn)行了評(píng)估,并通過(guò)經(jīng)驗(yàn)證明了,它的性能比標(biāo)準(zhǔn)的深度雙Q學(xué)習(xí)(Deep Double Q-Learning,DDQN)更好。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)問(wèn)題通常是由智能體在對(duì)環(huán)境的任務(wù)獎(jiǎng)勵(lì)盲然無(wú)知的情況下規(guī)劃的。然而,對(duì)于許多稀疏獎(jiǎng)勵(lì)問(wèn)題,包括點(diǎn)對(duì)點(diǎn)導(dǎo)航、拾取和放置操縱、裝配等等目標(biāo)導(dǎo)向的任務(wù),賦予該智能體以獎(jiǎng)勵(lì)函數(shù)的知識(shí),對(duì)于學(xué)習(xí)可泛化行為來(lái)說(shuō),既可行又實(shí)用。

通常,這些問(wèn)題的開(kāi)發(fā)人員通常知道任務(wù)目標(biāo)是什么,但不一定知道如何解決這些問(wèn)題。在本文中,我們將介紹我們?nèi)绾卫脤?duì)目標(biāo)的知識(shí),使我們甚至能夠在智能體到達(dá)這些領(lǐng)域之前學(xué)習(xí)這些領(lǐng)域中的行為。相比于那些從一開(kāi)始就將學(xué)習(xí)初始化的方法,這種規(guī)劃性方案可能更容易解決。

例如,如果我們知道所需的位置、姿勢(shì)或任務(wù)配置,那么我們就可以逆轉(zhuǎn)那些將我們帶到那里的操作,而不是迫使智能體獨(dú)自通過(guò)隨機(jī)發(fā)現(xiàn)來(lái)解決這些難題。

Gridworld和漢諾塔環(huán)境

本文中,我們介紹了正向-反向強(qiáng)化學(xué)習(xí)(Forward-Backward Reinforcement Learning,F(xiàn)BRL),它引入反向歸納,使我們的智能體能夠及時(shí)進(jìn)行逆向推理。通過(guò)一個(gè)迭代過(guò)程,我們既從開(kāi)始位置正向進(jìn)行了探索,也從目標(biāo)開(kāi)始進(jìn)行了反向探索。

為了實(shí)現(xiàn)這一點(diǎn),我們引入了一個(gè)已學(xué)習(xí)的反向動(dòng)態(tài)模型,以從已知的的目標(biāo)狀態(tài)開(kāi)始進(jìn)行反向探索,并在這個(gè)局部領(lǐng)域中更新值。這就產(chǎn)生了“展開(kāi)”稀疏獎(jiǎng)勵(lì)的效果,從而使它們更容易發(fā)現(xiàn),并因此加速了學(xué)習(xí)過(guò)程。

標(biāo)準(zhǔn)的基于模型的方法旨在通過(guò)正向想象步驟并使用這些產(chǎn)生幻覺(jué)的事件來(lái)增加訓(xùn)練數(shù)據(jù),從而減少學(xué)習(xí)優(yōu)秀策略所必需的經(jīng)驗(yàn)的數(shù)量。然而,并不能保證預(yù)期的狀態(tài)會(huì)通向目標(biāo),所以這些轉(zhuǎn)出結(jié)果可能是不充分的。

預(yù)測(cè)一個(gè)行為的結(jié)果的能力并不一定能提供指導(dǎo),告訴我們哪些行為會(huì)通向目標(biāo)。與此相反,F(xiàn)BRL采用了一種更有指導(dǎo)性的方法,它給定了一個(gè)精確的模型,我們相信,每一個(gè)處于反向步驟中的狀態(tài)都有通向目標(biāo)的路徑。

Gridworld中的實(shí)驗(yàn)結(jié)果,其中n =5、10、15、20。我們分別使用50、100、150、200步的固定水平,結(jié)果是10次實(shí)驗(yàn)的平均值。

相關(guān)研究

當(dāng)我們?cè)L問(wèn)真正的動(dòng)態(tài)模型時(shí),可以使用純粹基于模型的方法(如動(dòng)態(tài)編程)來(lái)計(jì)算所有狀態(tài)的值(Sutton和Barto于1998年提出),盡管當(dāng)狀態(tài)空間較大或連續(xù)時(shí),難以在整個(gè)狀態(tài)空間中進(jìn)行迭代。Q-Learning是一種無(wú)模型方法,它通過(guò)直接訪問(wèn)狀態(tài)以在線方式更新值,而函數(shù)逼近技術(shù)(如Deep Q-Learning)可以泛化到未見(jiàn)的數(shù)據(jù)中(Mnih等人于2015年提出)。

基于模型和無(wú)模型信息的混合方法也可以使用。例如,DYNA-Q(Sutton于1990年提出)是一種早期的方法,它使用想象的轉(zhuǎn)出出來(lái)更新Q值,就如同在真實(shí)環(huán)境中經(jīng)歷過(guò)一樣。最近出現(xiàn)了更多方法,例如NAF(Gu等人于2016年提出)和I2A(Weber等人于2017年提出)。但這些方法只使用正向的想象力。

與我們自己的方法相似的方法是反向的值迭代(Zang等人于2007年提出),但這是一種純粹基于模型的方法,并且它不學(xué)習(xí)反向模型。一個(gè)相關(guān)的方法從一開(kāi)始就實(shí)現(xiàn)雙向搜索和目標(biāo)(Baldassarre于2003年提出),但這項(xiàng)研究只是學(xué)習(xí)值,而我們的目標(biāo)是學(xué)習(xí)行動(dòng)和值。

另一項(xiàng)相似的研究是通過(guò)使用接近目標(biāo)狀態(tài)的反向課程來(lái)解決問(wèn)題(Florensa等人于2017年提出)。但是,該方法假設(shè)智能體可以在目標(biāo)附近得以初始化。我們不做這個(gè)假設(shè),因?yàn)榱私饽繕?biāo)狀態(tài)并不意味著我們知道該如何達(dá)到這一狀態(tài)。

漢諾塔中的實(shí)驗(yàn)結(jié)果,其中n = 2、3。我們分別使用50、100步的固定水平。 結(jié)果是10次試驗(yàn)的平均值。

許多研究通過(guò)使用域知識(shí)來(lái)幫助加速學(xué)習(xí),例如獎(jiǎng)勵(lì)塑造(Ng等人于1999年提出)。另一種方法是更有效地利用回放緩沖區(qū)中的經(jīng)驗(yàn)。優(yōu)先經(jīng)驗(yàn)復(fù)現(xiàn)(Schaul等人于2015年提出)旨在回放具有高TD誤差的樣本。事后經(jīng)驗(yàn)回放(Hindsight experience replay)將環(huán)境中的每個(gè)狀態(tài)視為一個(gè)潛在目標(biāo),這樣即使系統(tǒng)無(wú)法達(dá)到所需的目標(biāo),也可以進(jìn)行學(xué)習(xí)。

使用反向動(dòng)力學(xué)的概念類似于動(dòng)力學(xué)逆過(guò)程(Agrawal等人于2016年,Pathak等人于2017年提出)。在這些方法中,系統(tǒng)預(yù)測(cè)在兩個(gè)狀態(tài)之間產(chǎn)生轉(zhuǎn)換的動(dòng)態(tài)。我們的方法是利用狀態(tài)和動(dòng)作來(lái)預(yù)測(cè)前一個(gè)狀態(tài)。此函數(shù)的目的是進(jìn)行反向操作,并使用此分解來(lái)學(xué)習(xí)靠近目標(biāo)的值。

本文中,我們介紹了一種加速學(xué)習(xí)具有稀缺獎(jiǎng)勵(lì)問(wèn)題的方法。我們介紹了FBRL,它從目標(biāo)的反向過(guò)程中得到了想象步驟。我們證明了該方法在Gridworld和諾塔中的性能表現(xiàn)優(yōu)于DDQN。這項(xiàng)研究有多個(gè)擴(kuò)展方向。

我們對(duì)于評(píng)估一個(gè)反向計(jì)劃方法很感興趣,但我們也可以運(yùn)用正向和反向的想象力進(jìn)行訓(xùn)練。另一項(xiàng)進(jìn)步是改善規(guī)劃策略。我們使用了一種具有探索性和貪婪性的方法,但沒(méi)有評(píng)估如何在兩者之間進(jìn)行權(quán)衡。我們可以使用優(yōu)先掃描(Moore和Atkeson等人于1993年提出),它選擇那些能夠?qū)е戮哂懈逿D誤差狀態(tài)的行為。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6223

    瀏覽量

    107584
  • 智能
    +關(guān)注

    關(guān)注

    8

    文章

    1729

    瀏覽量

    118926

原文標(biāo)題:谷歌大腦提出對(duì)智能體進(jìn)行「正向-反向」強(qiáng)化學(xué)習(xí)訓(xùn)練,加速訓(xùn)練過(guò)程

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    宇視科技2025合作伙伴大會(huì)丨業(yè)內(nèi)首次提出“AIoT智能”新理念

    4月29日,春滿長(zhǎng)安,雁塔風(fēng)起,2025宇視合作伙伴大會(huì)在西安國(guó)際會(huì)展中心隆重舉行。宇視和近兩千名合作伙伴齊聚古都,共探AIoT與行業(yè)大模型深度融合的創(chuàng)新實(shí)踐,共繪智能時(shí)代產(chǎn)業(yè)升級(jí)藍(lán)圖。本次大會(huì)以
    的頭像 發(fā)表于 04-30 11:08 ?295次閱讀
    宇視科技2025合作伙伴大會(huì)丨業(yè)內(nèi)首次<b class='flag-5'>提出</b>“AIoT<b class='flag-5'>智能</b><b class='flag-5'>體</b>”新理念

    什么是AI智能

    在當(dāng)今數(shù)字化迅速發(fā)展的時(shí)代,AI智能作為技術(shù)進(jìn)步的重要標(biāo)志之一,正逐漸滲透到我們生活的各個(gè)方面。簡(jiǎn)單來(lái)說(shuō),AI智能是指能夠執(zhí)行特定任務(wù)、解決問(wèn)題或做出決策的人工
    的頭像 發(fā)表于 04-16 09:52 ?285次閱讀
    什么是AI<b class='flag-5'>智能</b><b class='flag-5'>體</b>

    硅基覺(jué)醒已至前夜,聯(lián)發(fā)科攜手生態(tài)加速智能化用戶體驗(yàn)時(shí)代到來(lái)

    、主動(dòng)、無(wú)界的“智能化用戶體驗(yàn)“時(shí)代。 “智能化用戶體驗(yàn)”將會(huì)擁有“主動(dòng)及時(shí)、知你懂你、互動(dòng)協(xié)作、學(xué)習(xí)進(jìn)化、專屬隱私信息守護(hù)”五大特征。
    發(fā)表于 04-13 19:51

    請(qǐng)求贈(zèng)閱《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子做智能

    博主好!致敬葉濤 管鍇 張心雨三位AI具身智能-智能方面的專家、導(dǎo)師! 《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子做智能》一不懂編
    發(fā)表于 04-10 12:16

    學(xué)習(xí)智能開(kāi)發(fā)

    智能是大模型的應(yīng)用落地,正在學(xué)習(xí)中,這本書(shū)太及時(shí)了,非常想看看。
    發(fā)表于 03-27 15:48

    AI智能套件

    智能解決方案。一、應(yīng)用領(lǐng)域AI智能套件具備自然語(yǔ)言處理、機(jī)器學(xué)習(xí)以及人機(jī)交互能力,可以滲入用戶的日常生活與工作環(huán)境,對(duì)傳統(tǒng)設(shè)備進(jìn)行升級(jí)。教育領(lǐng)域:
    發(fā)表于 02-25 16:48 ?0次下載

    谷歌AI智能執(zhí)行復(fù)雜任務(wù)能力大幅提升

    自然語(yǔ)言描述任務(wù),隨后由AI智能代替用戶執(zhí)行并最終完成任務(wù),極大地提升工作效率和便捷性。 為了推進(jìn)這一技術(shù)的實(shí)現(xiàn),谷歌正在積極開(kāi)發(fā)兩個(gè)相關(guān)項(xiàng)目。其中備受矚目的是名為“Mariner”的瀏覽器擴(kuò)展程序。通過(guò)該程序,AI
    的頭像 發(fā)表于 02-17 14:39 ?552次閱讀

    谷歌加速AI部門整合:AI Studio團(tuán)隊(duì)并入DeepMind

    近日,谷歌正緊鑼密鼓地推進(jìn)其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領(lǐng)英頁(yè)面上的透露,谷歌已將AI Studio團(tuán)隊(duì)整體轉(zhuǎn)移至De
    的頭像 發(fā)表于 01-13 14:40 ?618次閱讀

    英偉達(dá)與谷歌聯(lián)手加速量子計(jì)算設(shè)備設(shè)計(jì)

    近日,據(jù)外媒最新報(bào)道,英偉達(dá)與谷歌兩大科技巨頭宣布攜手合作,共同加速下一代量子計(jì)算設(shè)備的設(shè)計(jì)進(jìn)程。 雙方在一份聯(lián)合聲明中透露,谷歌的量子人工智能部門將充分利用英偉達(dá)強(qiáng)大的Eos超級(jí)計(jì)算
    的頭像 發(fā)表于 11-21 11:08 ?697次閱讀

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    緊密。 NPU的起源與特點(diǎn) NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項(xiàng)目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設(shè)計(jì)目標(biāo)是提高機(jī)器
    的頭像 發(fā)表于 11-15 09:19 ?1102次閱讀

    具身智能與機(jī)器學(xué)習(xí)的關(guān)系

    具身智能(Embodied Intelligence)和機(jī)器學(xué)習(xí)(Machine Learning)是人工智能領(lǐng)域的兩個(gè)重要概念,它們之間存在著密切的關(guān)系。 1. 具身智能的定義 具身
    的頭像 發(fā)表于 10-27 10:33 ?924次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例: 一、基于FPG
    的頭像 發(fā)表于 10-25 09:22 ?1085次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)
    的頭像 發(fā)表于 09-30 16:16 ?647次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場(chǎng)可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過(guò)程加速:FPGA可以用來(lái)
    發(fā)表于 07-29 17:05

    谷歌推出旗下AI智能管理項(xiàng)目Project Oscar

    在近日于印度班加羅爾盛大舉行的2024 I/O Connect開(kāi)發(fā)者活動(dòng)上,谷歌公司隆重推出了Project Oscar項(xiàng)目,這一創(chuàng)新舉措標(biāo)志著開(kāi)源軟件項(xiàng)目管理領(lǐng)域迎來(lái)了AI智能的全面賦能
    的頭像 發(fā)表于 07-19 16:07 ?879次閱讀