女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PWIL:不依賴對抗性的新型模擬學習

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-10-13 10:01 ? 次閱讀

強化學習 (Reinforcement Learning,RL) 是一種通過反復試驗訓練智能體 (Agent) 在復雜環境中有序決策的范式,在游戲、機器人操作和芯片設計等眾多領域都取得了巨大成功。智能體的目標通常是最大化在環境中收集的總獎勵 (Reward),這可以基于速度、好奇心、美學等各種參數。然而,由于 RL 獎勵函數難以指定或過于稀疏,想要設計具體的 RL 獎勵函數并非易事。

游戲
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

這種情況下,模仿學習(Imitation Learning,IL) 方法便派上了用場,因為這種方法通過專家演示而不是精心設計的獎勵函數來學習如何完成任務。然而,最前沿 (SOTA) 的 IL 方法均依賴于對抗訓練,這種訓練使用最小化/最大化優化過程,但在算法上不穩定并且難以部署。

在“原始 Wasserstein 模仿學習”(Primal Wasserstein Imitation Learning,PWIL) 中,我們基于 Wasserstein 距離(也稱為推土機距離)的原始形式引入了一種新的 IL 方法,這種方法不依賴對抗訓練。借助 MuJoCo 任務套件,我們通過有限數量的演示(甚至是單個示例)以及與環境的有限交互來模仿模擬專家,以此證明 PWIL 方法的有效性。

原始 Wasserstein 模仿學習
https://arxiv.org/pdf/2006.04678.pdf

MuJoCo 任務套件
https://gym.openai.com/envs/#mujoco

左圖:使用任務的真實獎勵(與速度有關)訓練的算法類人機器人“專家”;右圖:使用 PWIL 基于專家演示訓練的智能體

對抗模仿學習

最前沿的對抗 IL 方法的運作方式與生成對抗網絡 (GAN) 類似:訓練生成器(策略)以最大化判別器(獎勵)的混淆度,以便判別器本身被訓練來區分智能體的狀態-動作對和專家的狀態-動作對。對抗 IL 方法可以歸結為分布匹配問題,即最小化度量空間中概率分布之間距離的問題。不過,就像 GAN 一樣,對抗 IL 方法也依賴于最小化/最大化優化問題,因此在訓練穩定性方面面臨諸多挑戰。

訓練穩定性方面面臨諸多挑戰
https://developers.google.com/machine-learning/gan/problems

模仿學習歸結為分步匹配

PWIL 方法的原理是將 IL 表示為分布匹配問題(在本例中為 Wasserstein 距離)。第一步為從演示中推斷出專家的狀態-動作分布:即專家采取的動作與相應環境狀態之間的關系的集合。接下來的目標是通過與環境的交互來最大程度地減少智能體的狀態-動作分布與專家的狀態-動作分布之間的距離。相比之下,PWIL 是一種非對抗方法,因此可繞過最小化/最大化優化問題,直接最小化智能體的狀態-動作對分布與專家的狀態-動作對分布之間的 Wasserstein 距離。

PWIL 方法

計算精確的 Wasserstein 距離會受到限制(智能體軌跡結束時才能計算出),這意味著只有在智能體與環境交互完成后才能計算獎勵。為了規避這種限制,我們為距離設置了上限,可以據此定義使用 RL 優化的獎勵。

結果表明,通過這種方式,我們確實可以還原專家的行為,并在 MuJoCo 模擬器的許多運動任務中最小化智能體與專家之間的 Wasserstein 距離。對抗 IL 方法使用來自神經網絡的獎勵函數,因此,當智能體與環境交互時,必須不斷對函數進行優化和重新估計,而 PWIL 根據專家演示離線定義一個不變的獎勵函數,并且它所需的超參數量遠遠低于基于對抗的 IL 方法。

PWIL 在類人機器人上的訓練曲線:綠色表示與專家狀態-動作分布的 Wasserstein 距離;藍色表示智能體的回報(所收集獎勵的總和)

類人機器人
https://gym.openai.com/envs/Humanoid-v2/

衡量真實模仿學習環境的相似度

與 ML 領域的眾多挑戰類似,許多 IL 方法都在合成任務上進行評估,其中通常有一種方法可以使用任務的底層獎勵函數,并且可以根據性能(即預期的獎勵總和)來衡量專家行為與智能體行為之間的相似度。

PWIL 過程中會創建一個指標,該指標可以針對任何 IL 方法。這種方法能將專家行為與智能體行為進行比較,而無需獲得真正的任務獎勵。從這個意義上講,我們可以在真正的 IL 環境中使用 Wasserstein 距離,而不僅限于合成任務。

結論

在交互成本較高的環境(例如,真實的機器人或復雜的模擬器)中,PWIL 可以作為首選方案,不僅因為它可以還原專家的行為,還因為它所定義的獎勵函數易于調整,且無需與環境交互即可定義。

這為未來的探索提供了許多機會,包括部署到實際系統、將 PWIL 擴展到只能使用演示狀態(而不是狀態和動作)的設置,以及最終將 PWIL 應用于基于視覺的觀察。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模擬器
    +關注

    關注

    2

    文章

    894

    瀏覽量

    44038
  • 智能體
    +關注

    關注

    1

    文章

    264

    瀏覽量

    10968
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11517

原文標題:PWIL:不依賴對抗性的新型模擬學習

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    GPS對時設備,不依賴互聯網的"獨立時鐘"

    GPS對時設備的通用性使其適合應用于各種領域(IT、冶金、通信、電力、金融、廣電、安防、交通、水利、國防、石化、、教育等)。山東唯尚電子有限公司生產的產品是標準19英寸機架式設備,高度為1U或2U。
    的頭像 發表于 05-30 14:29 ?114次閱讀
    GPS對時設備,<b class='flag-5'>不依賴</b>互聯網的&quot;獨立時鐘&quot;

    NVMe IP高速傳輸卻不依賴便利的XDMA設計之二

    NVMe IP放棄XDMA原因 選用XDMA做NVMe IP的關鍵傳輸模塊,可以加速IP的設計,但是XDMA對于開發者來說,還是不方便,原因是它就象一個黑匣子,調試也非一番周折,尤其是后面PCIe4.0升級。因此決定直接采用PCIe設計,雖然要費一番周折,但是目前看,還是值得的,我們uvm驗證也更清晰。 視頻demo見B站:搜用戶名: 專注與守望 或鏈接:https://space.bilibili.com/585132944/upload/video PCIe 寫應答模塊設計 應答模塊的具體任務是接收來自PCIe鏈路上的設備的TLP請求,并響應請求。由于基于PCIe協議的NVMe數據傳輸只使用PCIe協議的存儲器讀請求TLP和存儲器寫請求TLP,應答模塊分別針對兩種TLP設置處理引擎來提高并行性和處理速度。 對于存儲器寫請求TLP,該類型的TLP使用Posted方式傳輸,即不需要返回完成報文,因此只需要接收并做處理,這一過程由寫處理模塊來執行,寫處理模塊的結構如圖1所示。 圖1 TLP寫處理結構 當axis_cq 總線中出現數據流傳輸時,應答模塊首先對傳輸的TLP報頭的類型字段進行解析,如果為存儲器寫請求則由寫處理模塊進一步解析。寫處理模塊提取出TLP 報頭的地址字段、長度字段等,然后將數據字段寫入數據緩存中。提取出的地址字段用于進行地址映射,在NVMe協議中,設備端的請求寫分為兩種,分別是寫完 成隊列和寫數據,因此地址映射的定向對應為隊列管理模塊的完成條目處理單元和數據傳輸AXI總線的寫通道。完成條目的字段長度為128比特,因此無需進行數據緩存,跟隨地址映射發送到隊列管理模塊。AXIMaster驅動負責將解析的字段與緩存的數據組成AXI寫傳輸事務發送到AXI寫通道,實現數據的寫傳輸。 PCIe 讀應答模塊設計 對于存儲器讀請求TLP,使用Non-Posted方式傳輸,即在接收到讀請求后,不僅要進行處理,還需要通過axis_cc總線返回CplD,這一過程由讀處理模塊執行,讀處理模塊的結構如圖2所示。 圖2 TLP讀處理模塊結構 當axis_cq 總線接收到存儲器讀請求時,數據流被轉發到讀處理模塊。讀請求TLP只包含128比特的請求報頭,而axis總線位寬也是128比特,因此在短時間內可能接收到多個讀請求,為了應對這種情況,讀處理模塊采用了帶有outstanding能力和事務并行處理的結構設計,能夠有效提高讀請求事務處理效率和數據傳輸吞吐量。 首先當讀請求數據流到達讀處理模塊時,經過解析和地址映射的兩級流水后,放入響應處理單元outstanding 緩存中,響應處理單元從緩存中獲取事務一一處理,將讀取的數據打包成CplD,并將CplD放置到發送緩存中等待axis_cc總線的發送。根據地址的不同,讀請求事務被分為三類,分別是讀隊列請求,讀PRP請求和讀數據請求,每種請求對應一個響應處理單元。 在實際應用環境中,由于隊列、PRP、數據的存儲往往在不同的位置,因此完成讀取過程的延遲也不同,在本課題中,將隊列管理與PRP都放置在了近PCIe端存儲,因此讀取隊列與PRP的延遲遠遠小于讀取數據的延遲。并且當大量不同的讀請求交叉處理時,讀處理模塊的并行處理結構更能夠充分利用PCIe的亂序傳輸能力來提高 吞吐量。為了清晰的說明讀處理模塊對吞吐量的提升,設置如圖3所示的簡單時序樣例,樣例中PCIeTLP的tag最大為3。 圖3 TLP 讀處理時序圖 在對應圖3中第1、2行時序的低性能處理模式下,同一時間只能處理一個讀事務,并且不帶有outstanding能力,此時從接收到讀請求到成功響應所經歷的延遲將會累積,造成axis_cq 請求總線的阻塞。在對應圖中第3、4行時序的僅帶有outstanding 能力的處理模式下,雖然可以連續接收多個讀請求處理,但同一時間內只能處理一個事務,仍會由于較大的處理延遲導致axis總線存在較多的空閑周期,實際的數據傳輸效率并不高。在對應圖中第5、6行時序的讀處理模塊處理模式下,利用多個響應處理單元的并行處理能力和發送緩存,先行處理完成的CplD可以優先發送,緊接著可以處理下一事務,使總線的傳輸效率和吞吐量明顯提高。
    發表于 05-25 10:20

    NVMe IP高速傳輸卻不依賴便利的XDMA設計之一

    NVMe IP放棄XDMA原因 選用XDMA做NVMe IP的關鍵傳輸模塊,可以加速IP的設計,但是XDMA對于開發者來說,還是不方便,原因是它就象一個黑匣子,調試也非一番周折,尤其是后面PCIe4.0升級。因此決定直接采用PCIe設計,雖然要費一番周折,但是目前看,還是值得的,uvm驗證也更清晰。 PCIe 加速模塊設計 PCIe 加速模塊負責處理PCIe事務層,并將其與NVMe功能和AXI接口直接綁定。如圖1所示,PCIe加速模塊按照請求發起方分為請求模塊和應答模塊。請求模塊負責將內部請求事務轉換為配置管理接口信號或axis請求方請求接口信號(axis_rq),以及解析 axis 請求方完成接口信號(axis_rc);應答模塊負責接收axis完成方請求接口信號(axis_cq),將請求內容轉換為AXI4接口信號或其它內部信號做進一步處理,同時將應答事務通過axis完成方完成接口axis_cc)發送給PCIE集成塊.圖1PCIe加速模塊結構和連接關系圖PCIe 加速模塊不僅承擔了TLP與其它接口信號的轉換功能,也是降低傳輸延遲增加吞吐量的核心部件。接下來分別對請求模塊和應答模塊的結構設計進行具體分析。 PCIe 請求模塊設計 請求模塊的具體任務是將系統的請求轉換成為axis接口形式的TLP或配置管理接口信號。這些請求主要包含初始化配置請求和門鈴寫請求。初始化配置請求由初始化模塊發起,當配置請求的總線號為0時,請求通過Cfg_mgmt接口發送給PCIE集成塊;當配置請求的總線號不為0時,請求以PCIe配置請求TLP的格式從axis_rq接口發送到PCIE集成塊,然后由硬核驅動數據鏈路層和物理層通過PCIe接口發送給下游設備,下游設備的反饋通過axis_rc接口以Cpl或CplD的形式傳回。門鈴寫請求由NVMe控制模塊發起,請求以PCIe存儲器寫請求TLP的格式從axis_rq接口交由PCIE集成塊發送。由于發起請求的模塊存在多個,并且在時間順序上初始化模塊先占用請求,NVMe控制模塊后占用請求,不會出現請求的競爭,因此設置一條內部請求總線用于發起請求和接收響應,該請求總線也作為請求模塊的上游接口。請求模塊的請求總線接口說明如表1所示。無論是配置請求還是門鈴寫請求,請求的數據長度都只有一個雙字,因此設置讀寫數據位寬均為32比特。表1請求總線接口在接收到請求總線接口的請求事務后,當請求類型的值為0時,表示通過PCIE集成塊的配置管理接口發送請求,由于請求接口的接口和時序與配置管理接口基本一致,因此此時直接將請求接口信號驅動到配置管理接口完成請求的發送,請求讀數據和響應也通過選通器連接到配置管理接口。當請求類型值不為0時,則需要將請求轉換為TLP以axis接口形式發送,這一過程通過請求狀態機實現,請求狀態機的狀態轉移圖如圖2所示。 圖2PCIe請求狀態轉移圖各狀態說明如下:IDLE:空閑狀態,復位后的初始狀態。當請求寫有效或請求讀有效,且請求類型值不為0時,如果請求寫有效跳轉到WR_HEAD狀態,如果請求讀有效或讀寫同時有效跳轉到RD_HEAD狀態,否則保持IDLE狀態。實際的上層設計中讀寫請求不會同時發生,這里的狀態跳轉條件增加了讀優先設計,從而避免異常情況的出現。WR_HEAD:請求寫TLP頭發送狀態。該狀態下根據請求類型、請求地址組裝寫請求的TLP報文頭部,并將報文頭部通過axis_rq接口發送。當axis_rq接口握手時跳轉到WR_DATA狀態。WR_DATA:請求寫TLP數據發送狀態。該狀態下將請求寫的數據通過axis_rq接口發送,當axis_rq接口握手時跳轉到DONE狀態。RD_HEAD:請求讀TLP頭發送狀態。該狀態下組裝讀請求TLP報頭通過axis_rq接口發送,當接口握手時跳轉到RD_DATA狀態。RD_DATA:請求讀CplD接收狀態。該狀態下監測axis_rc接口信號,當出現數據傳輸有效時,啟動握手并接受數據,然后跳轉到DONE狀態。DONE:請求完成狀態。該狀態下使能req_ack請求響應信號,如果是讀請求同時將RD_DATA狀態下接收的數據發送到req_rdata請求讀數據接口。一個時鐘周期后回到IDLE狀態。
    發表于 05-24 17:09

    魯棒性在機器學習中的重要性

    在機器學習領域,模型的魯棒性是指模型在面對輸入數據的擾動、異常值、噪聲或對抗性攻擊時,仍能保持性能的能力。隨著人工智能技術的快速發展,機器學習模型被廣泛應用于各個領域,從自動駕駛汽車到醫療診斷,再到
    的頭像 發表于 11-11 10:19 ?1124次閱讀

    鑒源實驗室·如何通過雷達攻擊自動駕駛汽車-針對點云識別模型的對抗性攻擊的科普

    非常精確,它們也面臨一種新興的威脅——對抗性攻擊。 對抗性攻擊是一種通過微小但精心設計的擾動,旨在欺騙機器學習模型的攻擊方式。對于自動駕駛系統而言,這意味著通過對傳感器輸入的數據進行極小的修改,攻擊者可以導致自動駕
    的頭像 發表于 11-05 15:44 ?761次閱讀
    鑒源實驗室·如何通過雷達攻擊自動駕駛汽車-針對點云識別模型的<b class='flag-5'>對抗性</b>攻擊的科普

    分享一個跨平臺通用型GUI框架

    AAGUI是一個不依賴特定硬件、操作系統的跨平臺通用型GUI。
    的頭像 發表于 10-28 09:21 ?1009次閱讀
    分享一個跨平臺通用型GUI框架

    原生鴻蒙系統正式發布,余承東宣布不依賴國外核心技術

    ’,標志著華為在移動操作系統領域邁出了堅實的一步。” 這款原生鴻蒙系統作為中國自主研發的移動操作系統,其最大的亮點在于不依賴于國外的編程語言和操作系統內核等核心技術,實現了真正的自主可控。這一突破對于提升我國在全球科技領域的競爭力具有重要意義。 然而,對于
    的頭像 發表于 10-23 10:08 ?836次閱讀

    N型插頭具備溫度抗性

    德索工程師說道溫度抗性是N型插頭設計中不可忽視的一個方面。N型插頭在使用過程中,可能會遇到各種溫度變化,包括高溫和低溫環境。如果連接器不具備足夠的溫度抗性,就可能在極端溫度下出現性能下降、材料老化、甚至損壞的情況,從而影響整個電氣系統的穩定性和安全性。
    的頭像 發表于 09-24 14:50 ?386次閱讀
    N型插頭具備溫度<b class='flag-5'>抗性</b>嗎

    FORT單元-不依賴GPS的步跟蹤定位穿戴設備@PNI

    歷史上,大多數基于傳感器的定位跟蹤系統一直受到從傳感器漂移到磁干擾和可靠性的問題的困擾,為了提供精確的位置數據,現代基于傳感器的跟蹤系統必須克服這些問題,同時提供一個高精度、低功耗的傳感器模塊,隨時隨地提供精確的精度。新的FORT現場行動遠程跟蹤正是做到這一點。FORT應用最先進的技術來確定某點精確位置——即使GPS被破壞或拒絕。FORT由PNISensor
    的頭像 發表于 09-12 08:11 ?550次閱讀
    FORT單元-<b class='flag-5'>不依賴</b>GPS的步跟蹤定位穿戴設備@PNI

    HDS-6智能型模擬斷路器使用說明

    HDS-6智能型模擬斷路器的原理HDS-6智能型模擬斷路器采用全數字電路,時間為數字撥碼設置,可實現模擬斷路器跳合閘時間設置、三相/分相操作選擇、輸入信號邏輯控制等功能,從而模擬斷路器
    的頭像 發表于 08-02 16:15 ?997次閱讀
    HDS-6智能<b class='flag-5'>型模擬</b>斷路器使用說明

    雷達智能對抗仿真控制系統

    智慧華盛恒輝雷達智能對抗仿真控制系統是一種先進的電子戰仿真系統,旨在模擬雷達對抗環境,進行雷達信號/回波的模擬仿真,以及雷達工作斜向/任意曲線的設置。以下是對該系統的詳細解析: 智慧華
    的頭像 發表于 07-15 15:55 ?621次閱讀

    深度學習中的無監督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,深度學習模型的強大性能往往依賴于大量有標簽的數據進行訓練
    的頭像 發表于 07-09 10:50 ?1564次閱讀

    深度學習的典型模型和訓練過程

    深度學習作為人工智能領域的一個重要分支,近年來在圖像識別、語音識別、自然語言處理等多個領域取得了顯著進展。其核心在于通過構建復雜的神經網絡模型,從大規模數據中自動學習并提取特征,進而實現高效準確的預測和分類。本文將深入解讀深度學習
    的頭像 發表于 07-03 16:06 ?2738次閱讀

    離線語音控制技術特點

    離線語音控制通過結合高性能的音頻前端處理算法和本地AI模型實現了高效的語音識別和控制能力,不依賴于互聯網連接,同時具備靈活的應用擴展性。這種解決方案為各種智能設備提供了穩定、高效和多語言的語音交互功能,從而提升了用戶體驗和產品競爭力。
    的頭像 發表于 06-26 18:12 ?1004次閱讀
    離線語音控制技術特點

    VBS雷達智能對抗仿真控制系統

    智慧華盛恒輝VBS雷達智能對抗仿真控制系統 智慧華盛恒輝系統概述 智慧華盛恒輝VBS雷達智能對抗仿真控制系統是一種先進的電子戰仿真系統,旨在模擬雷達對抗環境,進行雷達信號/回波的
    的頭像 發表于 06-26 14:56 ?724次閱讀