亚洲A片资源吧一首页,拍拍拍欧美,呦香8黝黝狖呦香8

許多文章解釋了強化學習（RL）的概念，但鮮有文章解釋如何切實地設計實現現實世界中的強化學習。

小芯這次想分享人工智能范式轉變課程，討論設計權衡問題，并深入研究技術細節。

那么，我們開始吧！

首先，喝酒？

想象一下你身處聚會，有點微醺或酩酊大醉，自愿參加一個飲酒游戲，想要打動一個（或多個）頗具魅力的泛泛之交。

有人蒙住你的眼睛，給你一杯或一瓶啤酒，喊道：“倒酒！”

你會怎么做？

可能會有以下反應：該死，我應該怎么做？怎樣能贏！要是輸了怎么辦！？

游戲規則如下：在10秒內把啤酒灌滿，盡可能接近玻璃杯上的標記。可以把啤酒倒進倒出。

RL（強化學習）解決方案面臨著類似的任務，高大上且有意義，歡迎了解。

環保共享單車業務存在一個大問題。一天中，每個單車停放處（杯）的共享單車（啤酒）數量過多或不足。

紐約市單車停放處的單車過剩和不足

對于騎自行車的人來說，這十分不便，并且要花費數百萬美元來管理運營，也不劃算。不久前，筆者在紐約大學的團隊任務是提供人工智能解決方案，將人工干預降到最小，幫助管理自行車庫存。

目標：每天將各個單車停放處的數量保持在1至50之間（想想杯子上的標記）。這在共享經濟中被稱為“再平衡問題”。

限制條件：由于運營限制，團隊每天每小時只能移動1、3或10輛單車（可以倒入或倒出的啤酒量）。當然，他們可以選擇什么都不做。團隊移動的單車越多，價格越昂貴。

惰性RL（強化學習）解決方案

來源：Pexels

團隊決定使用RL （強化學習），它克服了傳統方法的許多局限（例如基于規則和預測）。

如果想了解RL（強化學習）以及一些關鍵概念，喬納森·輝（JonathanHui）撰寫了一篇很棒的介紹，托馬斯·西蒙尼尼（ThomasSimonini ）詳細解釋了解決方案中應用的RL算法Q-Learning。

事實證明，人類創建了極具惰性的人工智能。當單車存量超過60輛時，它通常會選擇不執行任何操作或執行最少操作（移動1或3輛自行車）。似乎有違常理，但這是非常明智的。

根據直覺，可能會移動盡可能多的單車以將其保持在50輛以下，尤其是在停放處停滿時。但是，RL（強化學習）識別出移動成本（移動的單車越多，成本越高）以及在某些情況下成功的機會。考慮到所剩時間，根本不可能實現目標。它知道最好的選擇是“放棄”。因此，放棄比繼續嘗試要付出更少的代價！

所以呢？當人工智能做出非常規決策時，類似于谷歌Alpha Go研發的著名Move 37 and 78 ，它們會挑戰人類的偏見，幫助打破知識的魔咒，并將人類推向未知的道路。

創造人工智能既是一種發明，也是一種探索人類內心活動的旅程。——DeepMind創始人德米斯·哈薩比斯（Demis Hassabis）在《經濟學人》雜志《2020年的世界》（The World in 2020）一文中所言。

但是，請保持謹慎。人類價值體系無可替代，因此人類不會一落千丈或迷失自我。

哲學知識已經足夠了，現在現實一點吧

RL如何管理單車停放處？

下圖顯示了在有無RL的情況下，一天當中單車的停放量。

· 藍色線是無RL情況下的單車停放趨勢。

· 黃色線是最初RL情況下移出單車的趨勢，很昂貴。

· 綠色線是訓練有素的RL，它僅移出足以滿足目標的單車，更能了解成本。

作者分析

以下是經過98，000次訓練后RL解決方案Q表的快照。它解釋了RL如何根據停放處（垂直數據）上的自行車數量來決定做什么（水平數據）。RL不太可能選擇用紅色進行操作。看看底部的紅色區域。

作者分析

RL能有多智能？以下圖表介紹了RL對停放處的管理情況。通過深入學習，RL可以將整體成功率逐步提高到98％，令人印象深刻。

作者分析

希望大家喜歡這篇文章，并由衷地期待RL在現實世界中展示出的潛力。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴