女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用非參數方法提高強化學習的樣本效率

星星科技指導員 ? 來源:NVIDIA ? 作者:Samuele Tosatto ? 2022-04-28 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能和自主學習的最新發展表明,在棋盤游戲和電腦游戲等任務中取得了令人印象深刻的成果。然而,學習技術的適用性主要局限于模擬環境。

這種不適用于實際場景的主要原因之一是樣本效率低下,無法保證最先進的強化學習的安全運行。在強化學習理論中,你想根據一個特定的指標來改善一個代理的行為。為了改進這個度量,代理可以與環境交互,從中收集觀察結果和獎勵。可以用兩種不同的方式進行改進: 論政策 和 非保險單 。

在政策性案例中,必須通過代理人與環境的直接互動來實現改進。這種改進在數學上很簡單,但由于不允許重復使用樣本,因此阻礙了樣本效率。當代理行為得到改善時,代理必須與環境重新交互以生成新的 on 策略樣本。例如,在學習的早期階段, agentMIG 不適合與物理環境直接交互,因為它的行為是隨機的。在模擬任務中,樣本的可用性是無限的,有害行為的應用沒有危險。然而,對于實際應用,這些問題是嚴重的。

在關閉策略的情況下,可以通過與其他代理完成的環境的交互來改進代理的行為。這允許樣本重用和更安全的交互,因為與環境交互的代理可以是專家。例如,人類可以通過移動機械臂來采集樣本。

政策外改善的缺點是難以獲得可靠的估計。在目前的技術狀況下,所提出的技術要么具有高偏差,要么具有高方差。此外,有些技術對必須如何與環境進行交互有著具體而強烈的要求。

在這篇文章中,我討論了非參數非政策梯度( NOPG ),它具有更好的偏差方差權衡,并且對如何生成非政策樣本沒有什么要求。 NOPG 是由 Darmstadt 的智能自治系統實驗室開發的,已經被證明可以有效地解決一些經典的控制問題,并克服了目前最先進的非策略梯度估計中存在的一些問題。有關詳細信息,請參見 非參數的政策外政策梯度 。

強化學習與政策外梯度

強化學習是機器學習的一個子領域,其中一個代理(我在這篇文章中稱之為策略)與環境交互并觀察環境的狀態和獎勵信號。代理人的目標是使累計折扣報酬最大化,如下式所示:

latex.php?latex=J%5E%5Cpi+%3D+%5Cmathbb%7BE%7D%5Cleft%5B%5Csum_t+%5Cgamma%5Etr_t%5Cright%5D&bg=ffffff&fg=000&s=0

代理通常由一組參數來參數化使得它能夠利用梯度優化使強化學習目標最大化。坡度關于策略參數通常是未知的,并且很難以分析形式獲得。因此,你不得不用樣本來近似它。利用非策略樣本估計梯度主要有兩種方法:半梯度法和重要性抽樣法。

半梯度

這些方法在梯度展開中減少了一個項,這導致了估計量的偏差。理論上,這個偏差項仍然足夠低,足以保證梯度收斂到正確的解。然而,當引入其他近似源(例如有限樣本或臨界近似)時,不能保證收斂到最優策略。在實踐中,經常會觀察到性能不佳。

重要性抽樣

這些方法都是基于重要性抽樣校正的。這種估計通常會受到高方差的影響,并且這種方差在強化學習環境中會被放大,因為它會隨著情節的長度而倍增。涉及重要性抽樣的技術需要已知的隨機策略和基于軌跡的數據(與環境的順序交互)。因此,在這種情況下,不允許不完整的數據或基于人的交互。

非參數非政策梯度估計

強化學習理論的一個重要組成部分是 Bellman 方程。 Bellman 方程遞歸地定義了以下值函數:

pYYBAGJqL7iAdB5pAAAdEG7Z69M420.png

求梯度的一種方法是用非參數技術近似 Bellman 方程,并進行解析求解。具體來說,可以構造一個非參數的報酬函數和轉移函數模型。

通過增加采樣數和減少內核帶寬,您將向右收斂到無偏解。更準確地說,當方差縮小到零時,這個估計量是一致的。

非參數 Bellman 方程的求解涉及到一組線性方程組的求解,該方程組可以通過矩陣反演或共軛梯度等近似迭代方法獲得。這兩種方法都是重線性代數運算,因此適合與 GPUs 并行計算。

求解非參數 Bellman 方程后,梯度的計算變得非常簡單,可以使用自動微分工具,如 TensorFlow 或 PyTorch 來獲得。這些工具具有易于使用的 GPU 支持,與以前僅使用 CPU 的實現相比,這些工具已經被證明實現了相當大的加速。

特別是, IASL 團隊在配備了四個 NVIDIA V100 GPUs 的 NVIDIA DGX 站 上測試了 TensorFlow 和 PyTorch 兩種算法。由于 NVIDIA DGX 站提供的 20 個 NVIDIA 核有助于利用多處理技術進行多次評估,因此該機器非常適合于實證評估。有關實現代碼的更多信息,請參見 非參數政策外政策梯度 。

實證分析

為了評估 NOPG 相對于經典的非政策梯度方法的性能,例如深度確定性策略梯度,或具有重要抽樣校正的 G-POMDP ,團隊選擇了一些經典的低維控制任務:

線性二次型調節器

OpenAI 健身房秋千

手推車和電桿( Quanser 平臺)

OpenAI 健身山地車

我的團隊的分析表明,與最先進的技術相比,這種方法更具優勢。在表示為 NOPG-S 和 NOPG-D 的圖中,我們分別展示了隨機策略和確定性策略的算法:

PWIS (路徑重要性抽樣)

DPG ( deterministicpolicy gradient ),一種半梯度方法

DDPG ( deep deterministicy policy gradient ),在其經典的在線和離線模式下

該團隊使用 OpenAI 基線 對在線版本的 DDPG 進行編碼。

坡度的質量

pYYBAGJqMBiAEGWHAAEqugswRAs005.png

圖 1 LQR 任務中的梯度方向。與 DPG 技術相比,方差是有利的。

圖 1 描述了參數空間中的漸變方向。真梯度( TG )是理想的梯度方向。當 PWIS 的方差較大時, DPG 表現出較大的偏差,兩種方法都無法優化策略。相反,這種同時具有隨機和確定性策略的方法顯示出更好的偏差/方差權衡,并允許更好和一致的策略改進。

學習曲線

poYBAGJqMPSAC2JPAAED649PFzI321.png

圖 2 該算法( NOPG-D , NOPG-S )比其他基線具有更好的采樣效率。在實際系統上,驗證了所學習策略對車輛穩定性的有效性。

圖 2 描述了算法關于一些經典基線的學習曲線。該算法使用較少的樣本,取得了較好的效果。 cartpole 的最終策略已經在一個真實的 cartpole 上進行了測試,如右圖所示。

從人類示范中學習

該算法可以處理基于人類的數據,而重要性抽樣技術并不直接適用。在這個實驗中,研究小組提供了次優的,人類演示的山地車任務軌跡。

poYBAGJqMA2ATCWjAADv75ksEa8838.png

圖3 在左邊,提供了關于演示次數的算法學習曲線。該圖附有 95% 的置信區間。右邊是一個人類演示和隨后的政策在空間狀態下的表現的例子。

左邊的圖 3 顯示, NOPG 可以在只有兩個次優的演示或軌跡的情況下獲得一個有效的策略。然而,更大的數字有助于它學習稍微好一點的政策。右邊是一個人類演示的例子(橙色)和策略優化的結果(綠色)。人體在位置和速度空間的演示是次優的,因為它需要更多的步驟來達到目標位置。即使人類的演示是次優的,算法也能找到一個接近最優的策略。

今后的工作

博世人工智能中心 的一個應用是節流閥控制器。節流閥是用來調節流體或氣體流量的技術裝置。由于其復雜的動力學和物理約束,該裝置的控制具有挑戰性。

由于參數設置困難,設計最先進的控制器(如 PID 控制器)非常耗時。強化學習似乎特別適合這種應用。然而,政策外數據的可用性加上系統的低維性(系統可以用襟翼的角度和角速度來描述),使得它特別適合于 NOPG 方法。

結論

在這篇文章中,您研究了非政策梯度估計的問題。最先進的技術,如半梯度法和重要性抽樣法,往往不能提供一個可靠的估計。我討論了 NOPG ,它是在達姆施塔特的 智能自治系統( IAS ) 實驗室開發的。

在經典和低維任務(如 LQR 、擺起擺錘和 cartopole )上, NOPG 方法是樣本有效的,與基線相比安全(也就是說,它可以向人類專家學習)。雖然重要性抽樣不適用,但該方法也能從次優的人類演示數據中學習。然而,由于非參數方法不適用于高維問題,該算法僅限于低維任務。您可以研究深度學習技術的適用性,以允許降維,以及 Bellman 方程的不同近似值的使用,從而克服非參數技術的問題。

關于作者

Samuele Tosatto 是達姆施塔特理工大學的博士生。他的主要研究方向是將強化學習應用于現實世界的機器人技術。他認為,獲得更有效的學習算法對于縮短強化學習與實際機器人技術之間的差距至關重要。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 控制器
    +關注

    關注

    114

    文章

    17095

    瀏覽量

    184133
  • 機器人
    +關注

    關注

    213

    文章

    29718

    瀏覽量

    212756
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122771
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發表于 07-14 15:29 ?205次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?400次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎<b class='flag-5'>方法</b>到高級模型的理論技術與代碼實現

    嵌入式AI技術之深度學習:數據樣本預處理過程中使用合適的特征變換對深度學習的意義

    和模擬一切規律,但實際上,這個過程效率非常低,需要消耗大量的存儲空間描述網絡的參數,并且需要大量的數據樣本覆蓋規律可能涉及到的情景。 優秀的數學家們在過往的研究中,已經發現和總結出了一些描述規律的
    的頭像 發表于 04-02 18:21 ?877次閱讀

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。
    的頭像 發表于 02-25 14:06 ?589次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    高強度鋼點焊技術研究進展與應用前景

    點焊是一種利用電極將工件局部加熱至熔化狀態,通過加壓使金屬之間形成牢固連接的焊接方法。對于高強度鋼而言,點焊技術需要解決的關鍵問題包括:如何保證焊接接頭的強度和韌性,減少焊接缺陷,提高生產效率
    的頭像 發表于 02-20 08:46 ?436次閱讀
    <b class='flag-5'>高強</b>度鋼點焊技術研究進展與應用前景

    數字化轉型背景下的設備管理系統進化論

    從臺賬管理到智能中樞,設備管理技術演進史。數字化轉型戰略深度綁定。實時感知網絡,振動監測系統,效率提高。5G+TSN,降低運維成本。強化學習參數優化。數字孿生,優化運維
    的頭像 發表于 02-10 10:07 ?347次閱讀
    數字化轉型背景下的設備管理系統進化論

    如何提高SMT生產效率

    在競爭激烈的電子制造領域,SMT生產線的效率直接影響到企業的競爭力。 1. 生產流程優化 1.1 精益生產 精益生產是一種旨在減少浪費、提高效率的生產管理方法。通過識別和消除生產過程中的
    的頭像 發表于 01-10 16:28 ?1515次閱讀

    如何提高半導體設備防震基座的制造效率

    如何提高半導體設備防震基座的制造效率?-江蘇泊蘇系統集成有限公司提高半導體設備防震基座的制造效率是一個綜合性的過程,需要從多個方面進行優化和改進,以下是一些可行的
    的頭像 發表于 01-08 15:06 ?451次閱讀
    如何<b class='flag-5'>提高</b>半導體設備防震基座的制造<b class='flag-5'>效率</b>?

    怎樣提高三坐標測量機的測量效率

    提高三坐標測量機的測量效率是許多制造和質量控制領域中的一個關鍵問題。三坐標測量機(CMM)是一種精密的測量設備,用于檢測零件的幾何尺寸和形狀。以下是一些提高三坐標測量機測量效率
    的頭像 發表于 12-19 10:20 ?1080次閱讀

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    近日,專注于模型賽道的初創企業邊塞科技宣布被螞蟻集團收購。據悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團近期宣布成立強化學習實驗室,旨在推動大模型強化學習
    的頭像 發表于 11-22 11:14 ?1562次閱讀

    如何提高CNC加工效率

    程是指刀具在沒有切削材料的情況下移動的距離。通過優化刀具路徑,減少不必要的移動,可以顯著提高加工效率。使用高級的CAM軟件可以自動生成更高效的刀具路徑。 1.2 優化切削參數 切削參數
    的頭像 發表于 11-12 09:18 ?1963次閱讀

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?1024次閱讀

    Pytorch深度學習訓練的方法

    掌握這 17 種方法最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發表于 10-28 14:05 ?649次閱讀
    Pytorch深度<b class='flag-5'>學習</b>訓練的<b class='flag-5'>方法</b>

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現。
    的頭像 發表于 09-30 16:16 ?693次閱讀

    測徑儀:提升低合金高強度鋼軋制品質的關鍵設備

    的正常運行和檢測精度。 建立備件庫存管理制度,確保在設備出現故障時能夠及時更換損壞的部件,減少停機時間,提高生產效率。 結語 要想實現高品質低合金高強度鋼軋制,需要從多個方面入手,包括采用高精度檢測設備
    發表于 09-26 16:50