深度強化學習模型的訓練通常需要很高的計算成本,因此對深度強化學習模型進行稀疏化處理具有加快訓練速度和拓展模型部署的巨大潛力。然而現有的生成小型模型的方法主要基于知識蒸餾,即通過迭代訓練稠密網絡,訓練過程仍需要大量的計算資源。另外,由于強化學習自舉訓練的復雜性,訓練過程中全程進行稀疏訓練在深度強化學習領域尚未得到充分的研究。 清華大學黃隆波團隊提出了一種強化學習專用的動態稀疏訓練框架,“Rigged Reinforcement Learning Lottery”(RLx2),可適用于多種離策略強化學習算法。它采用基于梯度的拓撲演化原則,能夠完全基于稀疏網絡訓練稀疏深度強化學習模型。RLx2 引入了一種延遲多步差分目標機制,配合動態容量的回放緩沖區,實現了在稀疏模型中的穩健值學習和高效拓撲探索。在多個 MuJoCo 基準任務中,RLx2 達到了最先進的稀疏訓練性能,顯示出 7.5 倍至 20 倍的模型壓縮,而僅有不到 3% 的性能降低,并且在訓練和推理中分別減少了高達 20 倍和 50 倍的浮點運算數。大模型時代,模型壓縮和加速顯得尤為重要。傳統監督學習可通過稀疏神經網絡實現模型壓縮和加速,那么同樣需要大量計算開銷的強化學習任務可以基于稀疏網絡進行訓練嗎?本文提出了一種強化學習專用稀疏訓練框架,可以節省至多 95% 的訓練開銷。
- 論文主頁:https://arxiv.org/abs/2205.15043
- 論文代碼:https://github.com/tyq1024/RLx2
圖:基于強化學習的 AlphaGo-Zero 在圍棋游戲中擊敗了已有的圍棋 AI 和人類專家 高昂的資源消耗限制了深度強化學習在資源受限設備上的訓練和部署。為了解決這一問題,作者引入了稀疏神經網絡。稀疏神經網絡最初在深度監督學習中提出,展示出了對深度強化學習模型壓縮和訓練加速的巨大潛力。在深度監督學習中,SET [Mocanu et al. 2018] 和 RigL [Evci et al. 2020] 等常用的基于網絡結構演化的動態稀疏訓練(Dynamic sparse training - DST)框架可以從頭開始訓練一個 90% 稀疏的神經網絡,而不會出現性能下降。
能否通過全程使用超稀疏網絡從頭訓練出高效的深度強化學習智能體?
方法 清華大學黃隆波團隊對這一問題給出了肯定的答案,并提出了一種強化學習專用的動態稀疏訓練框架,“Rigged Reinforcement Learning Lottery”(RLx2),用于離策略強化學習(Off-policy RL)。這是第一個在深度強化學習領域以 90% 以上稀疏度進行全程稀疏訓練,并且僅有微小性能損失的算法框架。RLx2 受到了在監督學習中基于梯度的拓撲演化的動態稀疏訓練方法 RigL [Evci et al. 2020] 的啟發。然而,直接應用 RigL 無法實現高稀疏度,因為稀疏的深度強化學習模型由于假設空間有限而導致價值估計不可靠,進而干擾了網絡結構的拓撲演化。 因此,RLx2 引入了延遲多步差分目標(Delayed multi-step TD target)機制和動態容量回放緩沖區(Dynamic capacity buffer),以實現穩健的價值學習(Value learning)。這兩個新組件解決了稀疏拓撲下的價值估計問題,并與基于 RigL 的拓撲演化準則一起實現了出色的稀疏訓練性能。為了闡明設計 RLx2 的動機,作者以一個簡單的 MuJoCo 控制任務 InvertedPendulum-v2 為例,對四種使用不同價值學習和網絡拓撲更新方案的稀疏訓練方法進行了比較。
原文標題:ICLR 2023 Spotlight|節省95%訓練開銷,清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2
文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
物聯網
+關注
關注
2927文章
45847瀏覽量
387818
原文標題:ICLR 2023 Spotlight|節省95%訓練開銷,清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
熱點推薦
清華光芯片取得新突破,邁向AI光訓練
電子發燒友網報道(文/吳子鵬)近日,清華大學發布官方消息稱,清華大學電子工程系方璐教授課題組、自動化系戴瓊海院士課題組另辟蹊徑,首創了全前向智能光計算訓練架構,研制了“太極-II”光訓練
詳解RAD端到端強化學習后訓練范式
受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。

字節豆包大模型團隊提出稀疏模型架構
字節跳動豆包大模型Foundation團隊近期研發出UltraMem,一種創新的稀疏模型架構,旨在解決推理過程中的訪存問題,同時確保模型效果不受影響。
大模型訓練框架(五)之Accelerate
Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫,它支持在多種硬件配置上進行分布式訓練,包括 CPU、GPU、TPU 等。Accelerate 允許用戶
PyTorch GPU 加速訓練模型方法
在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習
如何使用 PyTorch 進行強化學習
強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
什么是協議分析儀和訓練器
協議分析儀和訓練器是兩種不同但相關的設備或工具,它們在網絡通信、電子設計和測試等領域發揮著重要作用。以下是對這兩種設備的詳細解釋:一、協議分析儀
定義:協議分析儀(Protocol Analyzer
發表于 10-29 14:33
冠軍說|第二屆OpenHarmony競賽訓練營冠軍團隊專訪
在剛剛結束的第三屆OpenHarmony技術大會上
今年的OpenHarmony競賽訓練營獲獎團隊
舉行了星光熠熠的頒獎儀式
10月11日,經過激烈的現場決賽角逐共有10個賽隊脫穎而出
其中來自
發表于 10-28 17:11
電磁干擾訓練系統原理是什么
智慧華盛恒輝電磁干擾訓練系統的原理主要基于電磁干擾(EMI)的基本原理,即利用電磁波對電子設備或系統產生的干擾,通過模擬真實的電磁環境,對受訓人員進行電磁干擾應對能力的訓練。以下是電磁干擾訓練
預訓練和遷移學習的區別和聯系
預訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定
如何理解機器學習中的訓練集、驗證集和測試集
理解機器學習中的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習與評估的基礎框架,還直接關系到模型性
預訓練模型的基本原理和應用
預訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。預訓練模型指的是在大
PyTorch如何訓練自己的數據集
PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據集是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數據集
深度學習模型訓練過程詳解
深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習模型,本質上是通過優化算法調整模型參數,使模型能夠更好地擬合數據,提高預測或分類的準
評論