女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MoDem解決了視覺強化學習領域的三個挑戰

OpenCV學堂 ? 來源:新智元 ? 2023-01-05 11:24 ? 次閱讀

【導讀】MetaAI這次發布的MoDem解決了視覺強化學習領域的三個挑戰,無需解碼器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 負責視覺和強化學習領域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚間,這篇推文的閱讀量已經達到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,僅給出5個演示,MoDem就能在100K交互步驟中解決具有稀疏獎勵和高維動作空間的具有挑戰性的視覺運動控制任務,大大優于現有的最先進方法。

有多優秀呢?

他們發現MoDem在完成稀疏獎勵任務方面的成功率比低數據機制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也轉發了這一研究,表示MoDem的模型架構類似于JEPA,可在表征空間做出預測且無需解碼器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

鏈接小編就放在下面啦,有興趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2212.05698

Github鏈接:https://github.com/facebookresearch/modem

研究創新和模型架構

樣本效率低下是實際應用部署深度強化學習 (RL) 算法的主要挑戰,尤其是視覺運動控制。

基于模型的RL有可能通過同時學習世界模型并使用合成部署來進行規劃和政策改進,從而實現高樣本效率。

然而在實踐中,基于模型的RL的樣本高效學習受到探索挑戰的瓶頸,這次研究恰恰解決了這些主要挑戰。

首先,MoDem分別通過使用世界模型、模仿+RL和自監督視覺預訓練,解決了視覺強化學習/控制領域的三個主要挑戰:

大樣本復雜性(Large sample complexity)

高維狀態和動作空間探索(Exploration in high-dimensional state and action space)

同步視覺表征和行為學習(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

這次的模型架構類似于Yann LeCun的JEPA,并且無需解碼器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素級預測的解碼器,架構繁重,無解碼器架構可支持直接插入使用SSL預訓練的視覺表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他們提出了一個三階段算法:

BC預訓練策略

使用包含演示和探索的種子數據集預訓練世界模型,此階段對于整體穩定性和效率很重要

通過在線互動微調世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

結果顯示,生成的算法在21個硬視覺運動控制任務中取得了SOTA結果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數據上來看,MoDem在各項任務中的表現遠遠優于其他模型,結果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

紅色線條為MoDem在各項任務中的表現

在此過程中,他們還闡明了MoDem中不同階段的重要性、數據增強對視覺MBRL的重要性以及預訓練視覺表示的實用性。

最后,使用凍結的 R3M 功能遠遠優于直接的 E2E 方法。這很令人興奮,表明視頻中的視覺預訓練可以支持世界模型。

但8月數據強勁的E2E與凍結的R3M競爭,我們可以通過預訓練做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1163

    瀏覽量

    41697
  • Meta
    +關注

    關注

    0

    文章

    300

    瀏覽量

    11742
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11517

原文標題:Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    18常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?274次閱讀
    18<b class='flag-5'>個</b>常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現

    Linux系統中最重要的三個命令

    Linux劍客是Linux系統中最重要的三個命令,它們以其強大的功能和廣泛的應用場景而聞名。這三個工具的組合使用幾乎可以完美應對Shell中的數據分析場景,因此被統稱為Linux
    的頭像 發表于 03-03 10:37 ?354次閱讀

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現強大的推理能力,掀起新一輪技術革新。
    的頭像 發表于 02-25 14:06 ?476次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    Kimi發布視覺思考模型k1,展現卓越基礎科學能力

    近日,Kimi公司正式發布其最新的視覺思考模型——k1。這款模型基于先進的強化學習技術構建,原生支持端到端的圖像理解和思維鏈技術,為用戶提供全新的
    的頭像 發表于 12-17 09:59 ?705次閱讀

    如何在化學和材料科學領域開展有影響力的人工智能研究?(

    部分編譯后的內容:4.如何解決科學問題?在掌握上述的工具和視角后,我們將提出一些建議,幫助您在化學領域選擇具有影響力的研究課題,并介紹機器學習
    的頭像 發表于 12-03 01:02 ?439次閱讀
    如何在<b class='flag-5'>化學</b>和材料科學<b class='flag-5'>領域</b>開展有影響力的人工智能研究?(<b class='flag-5'>三</b>)

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    領域的研究與發展。令人矚目的是,邊塞科技的創始人吳翼已正式加入該實驗室,并擔任首席科學家一職。 吳翼在其個人社交平臺上對這一變動進行了回應。他表示,自己最近接受了螞蟻集團的邀請,負責大模型強化學習領域的研究工
    的頭像 發表于 11-22 11:14 ?1329次閱讀

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一流行的開源機器
    的頭像 發表于 11-05 17:34 ?917次閱讀

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現
    的頭像 發表于 09-30 16:16 ?640次閱讀

    基本理想電路元件的三個特征是什么

    基本理想電路元件是構成電路的基本單元,它們具有三個基本特征:電壓-電流關系、能量轉換和電路參數。以下是對這三個特征的分析: 電壓-電流關系 理想電路元件的電壓-電流關系是其最基本的特征之一。這種關系
    的頭像 發表于 08-25 09:38 ?2183次閱讀

    簡述極管的三個工作區域

    極管的三個區域,通常指的是其在不同工作條件下的狀態區域,即截止區、放大區和飽和區。這三個區域定義極管在不同電壓和電流條件下的行為特性,
    的頭像 發表于 07-29 10:50 ?5775次閱讀

    可調變阻器三個引腳怎么區分

    可調變阻器,也稱為電位器或可變電阻器,是一種可以調節電阻值的電子元件。它廣泛應用于各種電子設備中,如音頻設備、電源管理、電機控制等。可調變阻器有三個引腳,分別是固定端、滑動端和可調端。這三個引腳
    的頭像 發表于 07-24 11:12 ?2276次閱讀

    如何判斷ebc三個電極電壓

    在電化學領域,電化學電池(Electrochemical Battery Cell,簡稱EBC)是一種將化學能轉化為電能的裝置。EBC由三個
    的頭像 發表于 07-18 15:41 ?1688次閱讀

    機器人視覺可以分為哪三個部分?

    機器人視覺是機器人技術中的一重要分支,它涉及到圖像處理、計算機視覺、機器學習等多個領域。機器人視覺
    的頭像 發表于 07-04 11:17 ?1084次閱讀

    深度學習在計算機視覺領域的應用

    隨著人工智能技術的飛速發展,深度學習作為其中的核心技術之一,已經在計算機視覺領域取得了顯著的成果。計算機視覺,作為計算機科學的一重要分支,
    的頭像 發表于 07-01 11:38 ?1540次閱讀

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中,我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習,尤其是馬爾可夫決策
    的頭像 發表于 06-05 08:27 ?583次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇