女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何切實地設計實現現實世界中的強化學習

倩倩 ? 來源:讀芯術 ? 2020-02-06 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

許多文章解釋了強化學習(RL)的概念,但鮮有文章解釋如何切實地設計實現現實世界中的強化學習。

小芯這次想分享人工智能范式轉變課程,討論設計權衡問題,并深入研究技術細節。

那么,我們開始吧!

首先,喝酒?

想象一下你身處聚會,有點微醺或酩酊大醉,自愿參加一個飲酒游戲,想要打動一個(或多個)頗具魅力的泛泛之交。

有人蒙住你的眼睛,給你一杯或一瓶啤酒,喊道:“倒酒!”

你會怎么做?

可能會有以下反應:該死,我應該怎么做?怎樣能贏!要是輸了怎么辦!?

游戲規則如下:在10秒內把啤酒灌滿,盡可能接近玻璃杯上的標記。可以把啤酒倒進倒出。

RL(強化學習)解決方案面臨著類似的任務,高大上且有意義,歡迎了解。

現實世界中的啤酒問題

環保共享單車業務存在一個大問題。一天中,每個單車停放處(杯)的共享單車(啤酒)數量過多或不足。

紐約市單車停放處的單車過剩和不足

對于騎自行車的人來說,這十分不便,并且要花費數百萬美元來管理運營,也不劃算。不久前,筆者在紐約大學的團隊任務是提供人工智能解決方案,將人工干預降到最小,幫助管理自行車庫存。

目標:每天將各個單車停放處的數量保持在1至50之間(想想杯子上的標記)。這在共享經濟中被稱為“再平衡問題”。

限制條件:由于運營限制,團隊每天每小時只能移動1、3或10輛單車(可以倒入或倒出的啤酒量)。當然,他們可以選擇什么都不做。團隊移動的單車越多,價格越昂貴。

惰性RL(強化學習)解決方案

來源:Pexels

團隊決定使用RL (強化學習),它克服了傳統方法的許多局限(例如基于規則和預測)。

如果想了解RL(強化學習)以及一些關鍵概念,喬納森·輝(JonathanHui)撰寫了一篇很棒的介紹,托馬斯·西蒙尼尼(ThomasSimonini )詳細解釋了解決方案中應用的RL算法Q-Learning。

事實證明,人類創建了極具惰性的人工智能。當單車存量超過60輛時,它通常會選擇不執行任何操作或執行最少操作(移動1或3輛自行車)。似乎有違常理,但這是非常明智的。

根據直覺,可能會移動盡可能多的單車以將其保持在50輛以下,尤其是在停放處停滿時。但是,RL(強化學習)識別出移動成本(移動的單車越多,成本越高)以及在某些情況下成功的機會。考慮到所剩時間,根本不可能實現目標。它知道最好的選擇是“放棄”。因此,放棄比繼續嘗試要付出更少的代價!

所以呢?當人工智能做出非常規決策時,類似于谷歌Alpha Go研發的著名Move 37 and 78 ,它們會挑戰人類的偏見,幫助打破知識的魔咒,并將人類推向未知的道路。

創造人工智能既是一種發明,也是一種探索人類內心活動的旅程。——DeepMind創始人德米斯·哈薩比斯 (Demis Hassabis)在《經濟學人》雜志《2020年的世界》(The World in 2020)一文中所言。

但是,請保持謹慎。人類價值體系無可替代,因此人類不會一落千丈或迷失自我。

哲學知識已經足夠了,現在現實一點吧

RL如何管理單車停放處?

下圖顯示了在有無RL的情況下,一天當中單車的停放量。

· 藍色線是無RL情況下的單車停放趨勢。

· 黃色線是最初RL情況下移出單車的趨勢,很昂貴。

· 綠色線是訓練有素的RL,它僅移出足以滿足目標的單車,更能了解成本。

作者分析

RL如何決定該做什么?

以下是經過98,000次訓練后RL解決方案Q表的快照。它解釋了RL如何根據停放處(垂直數據)上的自行車數量來決定做什么(水平數據)。RL不太可能選擇用紅色進行操作。看看底部的紅色區域。

作者分析

RL能有多智能?以下圖表介紹了RL對停放處的管理情況。通過深入學習,RL可以將整體成功率逐步提高到98%,令人印象深刻。

作者分析

希望大家喜歡這篇文章,并由衷地期待RL在現實世界中展示出的潛力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    49009

    瀏覽量

    249328
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11597
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發表于 07-14 15:29 ?505次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    使用英偉達 NVIDIA Air 服務將仿真與現實世界連接

    優勢之一是能夠將您的仿真與現實世界連接起來。通過啟用外部連接,可以在您的環境顯著增強其功能、性能和靈活性。通過集成云資源、API、第三方數據、協作工具或高級機器學習模型,它可提高仿真
    的頭像 發表于 07-07 19:41 ?373次閱讀
    使用英偉達 NVIDIA Air 服務將仿真與<b class='flag-5'>現實</b><b class='flag-5'>世界</b>連接

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?403次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼<b class='flag-5'>實現</b>

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。
    的頭像 發表于 02-25 14:06 ?590次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    基于LMP91000在電化學傳感器電極故障檢測的應用詳解

    文章首先介紹了電化學傳感器的構成,對傳統的信號調理電路進行了簡要分析,指出經典電路在設計實現時存在的一些局限性以及在傳感器電極故障狀態檢測遇到的困難。隨后介紹了電化學傳感器模擬前端
    發表于 02-11 08:02

    淺談適用規模充電站的深度學習有序充電策略

    深度強化學習能夠有效計及電動汽車出行模式和充電需求的不確定性,實現充電場站充電成本化的目標。通過對電動汽車泊車時間和充電需求特征進行提取,建立適用于大規模電動汽車有序充電的馬爾可夫決策過程模型,并
    的頭像 發表于 02-08 15:00 ?535次閱讀
    淺談適用規模充電站的深度<b class='flag-5'>學習</b>有序充電策略

    【「具身智能機器人系統」閱讀體驗】+初品的體驗

    動態互動的。 該理論強調智能行為源于智能體的物理存在和行為能力,智能體必須具備感知環境并在其中執行任務的能力。具身智能的實現涵蓋了機器學習、人工智能、機器人學、計算機視覺、自然語言處理及強化學習等領域
    發表于 12-20 19:17

    原子的結構在化學反應的作用

    化學反應是物質世界中最基本的現象之一,它們構成了我們周圍環境和生命過程的基礎。在化學反應,原子是不可分割的基本單位,它們通過化學鍵的斷裂和
    的頭像 發表于 12-17 15:23 ?1486次閱讀

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    近日,專注于模型賽道的初創企業邊塞科技宣布被螞蟻集團收購。據悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團近期宣布成立強化學習實驗室,旨在推動大模型強化學習
    的頭像 發表于 11-22 11:14 ?1566次閱讀

    ar與虛擬現實的區別 如何優化ar應用的用戶界面

    可以通過智能手機、平板電腦或專門的AR眼鏡看到現實世界和虛擬信息的結合。AR不會完全取代現實世界,而是增強用戶的現實體驗。 虛擬
    的頭像 發表于 11-11 10:05 ?1349次閱讀

    如何使用 PyTorch 進行強化學習

    的計算圖和自動微分功能,非常適合實現復雜的強化學習算法。 1. 環境(Environment) 在強化學習,環境是一個抽象的概念,它定義了智能體(agent)可以執行的動作(acti
    的頭像 發表于 11-05 17:34 ?1041次閱讀

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現。
    的頭像 發表于 09-30 16:16 ?694次閱讀

    使用DSPLIB FFT實現實現實際輸入,無需數據縮放

    電子發燒友網站提供《使用DSPLIB FFT實現實現實際輸入,無需數據縮放.pdf》資料免費下載
    發表于 09-19 11:27 ?0次下載
    使用DSPLIB FFT<b class='flag-5'>實現實現實</b>際輸入,無需數據縮放

    使用OpenVINO C# API部署YOLO-World實現實時開放詞匯對象檢測

    YOLO-World是一個融合了實時目標檢測與增強現實(AR)技術的創新平臺,旨在將現實世界與數字世界無縫對接。該平臺以YOLO(You Only Look Once)算法為核心,
    的頭像 發表于 08-30 16:27 ?1695次閱讀
    使用OpenVINO C# API部署YOLO-World<b class='flag-5'>實現實</b>時開放詞匯對象檢測

    Python在AI的應用實例

    Python在人工智能(AI)領域的應用極為廣泛且深入,從基礎的數據處理、模型訓練到高級的應用部署,Python都扮演著至關重要的角色。以下將詳細探討Python在AI的幾個關鍵應用實例,包括機器學習、深度學習、自然語言處理、
    的頭像 發表于 07-19 17:16 ?2689次閱讀