理解 Q-Learning - 用TensorFlow構(gòu)建你的第一個游戲AI入門教程

了解 Q-Learning 的一個好方法，就是將 Catch 游戲和下象棋進(jìn)行比較。

在這兩種游戲中，你都會得到一個狀態(tài) S。在象棋中，這代表棋盤上棋子的位置。在 Catch 游戲中，這代表水果和籃子的位置。

然后，玩家要采取一個動作，稱作 A。在象棋中，玩家要移動一個棋子。而在 Catch 游戲中，這代表著將籃子向左、向右移動，或是保持在當(dāng)前位置。據(jù)此，會得到一些獎勵 R 和一個新狀態(tài) S'。

Catch 游戲和象棋的一個共同點在于，獎勵并不會立即出現(xiàn)在動作之后。

在 Catch 游戲中，只有在水果掉到籃子里或是撞到地板上時你才會獲得獎勵。而在象棋中，只有在整盤棋贏了或輸了之后，才會獲得獎勵。這也就是說，獎勵是稀疏分布的（sparsely distributed）。大多數(shù)時候，R 保持為零。

產(chǎn)生的獎勵并不總是前一個動作的結(jié)果。也許，很早之前采取的某些動作才是獲勝的關(guān)鍵。要弄清楚哪個動作對最終的獎勵負(fù)責(zé)，這通常被稱為信度分配問題（credit assignment problem）。

由于獎勵的延遲性，優(yōu)秀的象棋選手并不會僅通過最直接可見的獎勵來選擇他們的落子方式。相反，他們會考慮預(yù)期未來獎勵（expected future reward），并據(jù)此進(jìn)行選擇。例如，他們不僅要考慮下一步是否能夠消滅對手的一個棋子。他們也會考慮那些從長遠(yuǎn)的角度有益的行為。

在 Q-Learning 中，我們根據(jù)最高的預(yù)期未來獎勵選行動。我們使用 Q 函數(shù)進(jìn)行計算。這個數(shù)學(xué)函數(shù)有兩個變量：游戲的當(dāng)前狀態(tài)和給定的動作。因此，我們可以將其記為 Q（state，action）。在 S 狀態(tài)下，我們將估計每個可能的動作 A 所帶來的的回報。我們假定在采取行動 A 且進(jìn)入下一個狀態(tài) S' 以后，一切都很完美。

對于給定狀態(tài) S 和動作 A，預(yù)期未來獎勵 Q（S，A）被計算為即時獎勵 R 加上其后的預(yù)期未來獎勵 Q（S'，A'）。我們假設(shè)下一個動作 A' 是最優(yōu)的。

由于未來的不確定性，我們用 γ 因子乘以 Q（S'，A'）表示折扣：

Q(S,A) = R + γ * max Q(S'，A')

象棋高手擅長在心里估算未來回報。換句話說，他們的 Q 函數(shù) Q（S，A）非常精確。大多數(shù)象棋訓(xùn)練都是圍繞著發(fā)展更好的 Q 函數(shù)進(jìn)行的。玩家使用棋譜學(xué)習(xí)，從而了解特定動作如何發(fā)生，以及給定的動作有多大可能會導(dǎo)致勝利。但是，機(jī)器如何評估一個 Q 函數(shù)的好壞呢？這就是神經(jīng)網(wǎng)絡(luò)大展身手的地方了。

最終回歸

玩游戲的時候，我們會產(chǎn)生很多「經(jīng)歷」，包括以下幾個部分：

初始狀態(tài)，S

采取的動作，A

獲得的獎勵，R

下一狀態(tài)，S'

這些經(jīng)歷就是我們的訓(xùn)練數(shù)據(jù)。我們可以將估算 Q（S，A）的問題定義為回歸問題。為了解決這個問題，我們可以使用神經(jīng)網(wǎng)絡(luò)。給定一個由 S 和 A 組成的輸入向量，神經(jīng)網(wǎng)絡(luò)需要能預(yù)測 Q（S，A）的值等于目標(biāo)：R + γ * max Q(S'，A')。

如果我們能很好地預(yù)測不同狀態(tài) S 和不同行為 A 的 Q（S，A），我們就能很好地逼近 Q 函數(shù)。請注意，我們通過與 Q（S，A）相同的神經(jīng)網(wǎng)絡(luò)估算 Q（S'，A'）。

訓(xùn)練過程

給定一批經(jīng)歷，其訓(xùn)練過程如下：

1、對于每個可能的動作 A'（向左、向右、不動），使用神經(jīng)網(wǎng)絡(luò)預(yù)測預(yù)期未來獎勵 Q（S'，A'）；

2、選擇 3 個預(yù)期未來獎勵中的最大值，作為 max Q（S'，A'）；

3、計算 r + γ * max Q(S'，A')，這就是神經(jīng)網(wǎng)絡(luò)的目標(biāo)值；

4、使用損失函數(shù)（loss function）訓(xùn)練神經(jīng)網(wǎng)絡(luò)。損失函數(shù)可以計算預(yù)測值離目標(biāo)值的距離。此處，我們使用 0.5 * (predicted_Q(S,A)—target)2 作為損失函數(shù)。

在游戲過程中，所有的經(jīng)歷都會被存儲在回放存儲器（replay memory）中。這就像一個存儲對的簡單緩存。這些經(jīng)歷回放類同樣能用于準(zhǔn)備訓(xùn)練數(shù)據(jù)。讓我們看看下面的代碼：

classExperienceReplay(object):""" During gameplay all the experiences < s, a, r, s’ > are stored in a replay memory. In training, batches of randomly drawn experiences are used to generate the input and target for training. """def__init__(self, max_memory=100, discount=.9):""" Setup max_memory: the maximum number of experiences we want to store memory: a list of experiences discount: the discount factor for future experience In the memory the information whether the game ended at the state is stored seperately in a nested array [... [experience, game_over] [experience, game_over] ...] """self.max_memory = max_memory self.memory = list() self.discount = discountdefremember(self, states, game_over):#Save a state to memoryself.memory.append([states, game_over])#We don't want to store infinite memories, so if we have too many, we just delete the oldest oneiflen(self.memory) > self.max_memory:delself.memory[0]defget_batch(self, model, batch_size=10):#How many experiences do we have?len_memory = len(self.memory)#Calculate the number of actions that can possibly be taken in the gamenum_actions = model.output_shape[-1]#Dimensions of the game fieldenv_dim = self.memory[0][0][0].shape[1]#We want to return an input and target vector with inputs from an observed state...inputs = np.zeros((min(len_memory, batch_size), env_dim))#...and the target r + gamma * max Q(s’,a’)#Note that our target is a matrix, with possible fields not only for the action taken but also#for the other possible actions. The actions not take the same value as the prediction to not affect themtargets = np.zeros((inputs.shape[0], num_actions))#We draw states to learn from randomlyfori, idxinenumerate(np.random.randint(0, len_memory, size=inputs.shape[0])):""" Here we load one transition from memory state_t: initial state s action_t: action taken a reward_t: reward earned r state_tp1: the state that followed s’ """state_t, action_t, reward_t, state_tp1 = self.memory[idx][0]#We also need to know whether the game ended at this stategame_over = self.memory[idx][1]#add the state s to the inputinputs[i:i+1] = state_t# First we fill the target values with the predictions of the model.# They will not be affected by training (since the training loss for them is 0)targets[i] = model.predict(state_t)[0]""" If the game ended, the expected reward Q(s,a) should be the final reward r. Otherwise the target value is r + gamma * max Q(s’,a’) """# Here Q_sa is max_a'Q(s', a')Q_sa = np.max(model.predict(state_tp1)[0])#if the game ended, the reward is the final rewardifgame_over:# if game_over is Truetargets[i, action_t] = reward_telse:# r + gamma * max Q(s’,a’)targets[i, action_t] = reward_t + self.discount * Q_sareturninputs, targets

定義模型

閱讀全文

本文導(dǎo)航

第 1 頁：用TensorFlow構(gòu)建你的第一個游戲AI入門教程
第 2 頁：理解 Q-Learning
第 3 頁：定義模型
第 4 頁：Catch 機(jī)器人的動作

AI(263626) AI(263626)

TensorFlow如何入門

TensorFlow 入門（四）

2020-05-27 17:40:06

TensorFlow的特點和基本的操作方式

Tensorflow是Google開源的深度學(xué)習(xí)框架，來自于Google Brain研究項目，在Google第一代分布式機(jī)器學(xué)習(xí)框架DistBelief的基礎(chǔ)上發(fā)展起來。Tensorflow于

2020-11-23 09:56:04

tensorflow怎么入門

tensorflow入門(五）

2020-05-28 13:05:23

入門教程

51單片機(jī)學(xué)習(xí)入門教程

2013-04-14 14:35:07

入門教程

基礎(chǔ)的Proteus入門教程，有需要的可以看一下

2016-11-20 17:36:39

用騰訊優(yōu)圖 AI 視覺模組在樹莓派上玩吃火鍋體感游戲

能替代日常桌面計算機(jī)的多種用途，包括文字處理、電子表格、媒體中心甚至是游戲。并且樹莓派還可以播放高至 1080p 的高清視頻。神奇的 VisionSeed提到 AI 體感游戲，大家第一時間想到的可能是

2020-07-21 15:43:30

第一個TensorFlow程序（hello world）詳解

在任何計算機(jī)語言中學(xué)習(xí)的第一個程序是都是 Hello world，本教程中也將遵守這個慣例，從程序 Hello world 開始。上一節(jié)進(jìn)行 TensorFlow 安裝驗證的代碼如下：下面一

2020-07-22 10:26:51

FPGA入門：第一個工程實例之設(shè)計輸入

FPGA入門：第一個工程實例之設(shè)計輸入本文節(jié)選自特權(quán)同學(xué)的圖書《FPGA/CPLD邊練邊學(xué)——快速入門Verilog/VHDL》書中代碼請訪問網(wǎng)盤：http://pan.baidu.com/s

2015-02-28 10:41:14

FPGA入門教程

FPGA入門教程 FPGA 入門教程 1 ．?dāng)?shù)字電路設(shè)計入門 2 ．FPGA 簡介 3 ．FPGA 開發(fā)流程 4 ．RTL設(shè)計 5 ．QuartusⅡ設(shè)計實例 6.ModelSim和Testbench

2012-08-11 11:40:44

FPGA學(xué)習(xí)總結(jié)和入門教程（大家可以一個一個來學(xué)習(xí)！）

`FPGA學(xué)習(xí)總結(jié)和入門教程，我們一起交流FPGA。歡迎交流！`

2013-04-01 09:49:53

Labview小白，求一份入門教程和教材

Labview小白，現(xiàn)在想學(xué)習(xí)這個，求一份入門教程和教材，非常感謝！

2017-06-10 22:56:04

Servlet入門----創(chuàng)建第一個自己的Servlet小程序

Servlet入門----創(chuàng)建第一個自己的Servlet小程序使用開發(fā)工具創(chuàng)建第一步：打開Myeclipse或者Eclipse，新建一個Web project，然后新建一個類Demo01.java

2018-01-31 13:48:56

[轉(zhuǎn)帖]最經(jīng)典的JAVA基礎(chǔ)入門教程

最經(jīng)典的JAVA基礎(chǔ)入門教程 從零開始直到深入的研究，講解很細(xì)，思路非常清晰！基礎(chǔ)就附帶了把所有基礎(chǔ)知識融合進(jìn)去的一個模擬銀行項目，絕對是學(xué)習(xí)Java的好教程，包括入門教程PDF

2010-06-04 10:42:53

labview入門教程，每日一練

入門教程，每日一練第一期簡單溫度波形圖程序設(shè)計我也是初學(xué)者，可以一起學(xué)習(xí)討論

2018-09-05 14:26:37

labview入門教程，每日一練3

入門教程，每日一練第三期用三種方法實現(xiàn)公式Y(jié)=AX[sup]2[/sup]+BX+C的計算我也是初學(xué)者，可以一起學(xué)習(xí)討論

2018-09-05 23:15:06

【EASY EAI Nano開源套件試用體驗】運行開發(fā)板的第一個程序

(easy-eai.com)，給我的第一印象是，這個網(wǎng)站非常簡潔明了，對其產(chǎn)品的介紹也非常簡潔、到位。2、經(jīng)過簡單的閱讀網(wǎng)站的內(nèi)容，可以說是通俗易懂，從零基礎(chǔ)進(jìn)行了詳細(xì)介紹，對于想入門嵌入式開發(fā)的小伙伴來說，這個網(wǎng)站

2022-09-24 09:49:09

【KV260視覺入門套件試用體驗】Vitis AI 構(gòu)建開發(fā)環(huán)境，并使用inspector檢查模型

Optimizer 等，以支持不同層次的開發(fā)需求。提供多種示例設(shè)計和教程，展示如何在賽靈思硬件平臺上實現(xiàn)各種 AI 應(yīng)用場景。 Visits AI 怎么用？第一步：在ubuntu環(huán)境下，執(zhí)行如下命令： git

2023-10-14 15:34:26

【Thunderboard Sense試用體驗】第一個uart例程

正式搭建環(huán)境，完成第一個項目。聲明一下，我用的代碼是官方的例程，本想發(fā)自己的例程，但是那么久沒發(fā)帖子了，加上剛搞明白怎樣搭環(huán)境，所以，先發(fā)官方的例程，好給大家個指導(dǎo)。當(dāng)然要把板子插上，出現(xiàn)如下提示，說明板子

2017-05-27 12:18:53

不知不覺22年，你還能想得起你的第一個網(wǎng)名嗎？

`不知不覺22年，你還能想得起你的第一個網(wǎng)名嗎？中國互聯(lián)網(wǎng)已經(jīng)22歲了！你的第一個網(wǎng)名是什么？你還記得起來嗎？中國互聯(lián)網(wǎng)已經(jīng)22歲了，是不是很意外？時間都去哪了？22年間，互聯(lián)網(wǎng)的社交工具也發(fā)生

2016-04-22 13:54:11

不知不覺22年，你還能想得起你的第一個網(wǎng)名嗎？

`中國互聯(lián)網(wǎng)已經(jīng)22歲了！你的第一個網(wǎng)名是什么？你還記得起來嗎？中國互聯(lián)網(wǎng)已經(jīng)22歲了，是不是很意外？時間都去哪了？22年間，互聯(lián)網(wǎng)的社交工具也發(fā)生了巨大的變化，從聊天室到QQ，從MSN到微博，彈指

2016-04-21 11:19:58

世界上第一個計算機(jī)程序是干嘛用的？

是否好奇過世界上第一個計算機(jī)程序是干嘛用的？世界上第一個程序是1842年寫的，恰好在第一個能被稱為計算機(jī)（你看到它不會認(rèn)為它是計算機(jī)）的真正機(jī)器。這段代碼的作者是 Ada Augusta，被封

2014-12-03 14:53:46

使用 TensorFlow, 你必須明白 TensorFlow

CPU 或 GPU). 一般你不需要顯式指定使用 CPU 還是 GPU, TensorFlow 能自動檢測. 如果檢測到 GPU, TensorFlow 會盡可能地利用找到的第一個 GPU 來執(zhí)行操作

2018-03-30 20:03:30

使用Vivado VHDL無法運行第一個bitfile

嗨，我剛剛購買了我的第一個FPGA開發(fā)板，一個Nexys4 DDR，我無法運行第一個bitfile。我正在做Vivado VHDL教程。仿真工作，我可以生成一個位文件，但是當(dāng)我對電路板進(jìn)行編程

2020-03-27 06:54:34

關(guān)于 TensorFlow

Tensorflow 有一個合理的c++使用界面，也有一個易用的python使用界面來構(gòu)建和執(zhí)行你的graphs。你可以直接寫python/c++程序，也可以用交互式的ipython界面來用Tensorflow

2018-03-30 19:57:24

關(guān)于入門教程中的六路互補PWM

大家嘗試過入門教程中的互補PWM的例程嗎？我試了之后示波器連PWM波都沒有檢測到，不知道為什么。求出一個可以產(chǎn)生可調(diào)占空比和死區(qū)時間的互補PWM歷程。

2018-07-23 00:39:13

分享一個機(jī)器學(xué)習(xí)Demo，很受用

TensorFlow入門：第一個機(jī)器學(xué)習(xí)Demo

2019-02-12 10:13:51

初學(xué)Arduino 有什么好的入門教程？

初學(xué)Arduino有什么好的入門教程推薦下哈

2020-06-12 05:55:51

制作你的第一個電路來學(xué)習(xí)焊接

描述制作你的第一個電路來學(xué)習(xí)焊接

2022-08-22 07:58:45

哪位大俠有l(wèi)abview的入門教程啊？

哪位大俠有l(wèi)abview的入門教程啊？，有的話發(fā)我郵箱啊，謝謝。[email protected]

2012-03-11 23:13:26

如何入門51單片機(jī)？如何利用51單片機(jī)點亮第一個led小燈？

如何入門51單片機(jī)？如何利用51單片機(jī)點亮第一個led小燈？

2021-10-20 07:28:09

如何使用STM32CUBEMX點亮你的第一個LED？

如何使用STM32CUBEMX點亮你的第一個LED？

2021-10-11 09:35:21

如何在STM32MP1上構(gòu)建和執(zhí)行第一個C++ 代碼？

誰能幫助我在 STM32MP1 上構(gòu)建和執(zhí)行第一個 C++ 代碼？

2022-12-05 07:29:59

如何建立第一個C項目？

51單片機(jī)C語言學(xué)習(xí)雜記建立您的第一個C項目

2021-03-02 07:33:51

如何點亮第一個LED燈？

如何點亮第一個LED燈？

2022-01-20 06:58:38

干貨 | TensorFlow的55個經(jīng)典案例

TensorFlow 提供了簡化的接口的庫。里面有很多示例和預(yù)構(gòu)建的運算和層。使用教程：TFLearn 快速入門。通過一個具體的機(jī)器學(xué)習(xí)任務(wù)學(xué)習(xí) TFLearn 基礎(chǔ)。開發(fā)和訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)分類器

2018-10-09 11:28:37

快速構(gòu)建并迭代你的第一個系統(tǒng)

進(jìn)行中轉(zhuǎn)。? 更多…雖然我在反垃圾郵件領(lǐng)域已經(jīng)有了一定的經(jīng)驗，卻依然難以保證每次都能順利在上面的方向中進(jìn)行抉擇。如果你在此領(lǐng)域并不是一個專家，難度會變得更大。如果在一開始就試圖設(shè)計和構(gòu)建出完美的系統(tǒng)會

2018-12-18 09:11:38

怎樣用CubeMX創(chuàng)建第一個project

如何去安裝CubeMX？怎樣用CubeMX創(chuàng)建第一個project？

2021-09-28 06:15:37

我也發(fā)一個 Labview 官網(wǎng)入門教程

本帖最后由鄭子鑫… 于 2015-3-6 11:16 編輯 Labview 官網(wǎng)入門教程

2015-03-06 11:15:10

我的第一個labview程序：計算器

2017年入門labview的第一個程式，從此激發(fā)了我的興趣但也只是當(dāng)作興趣，偶爾學(xué)學(xué)現(xiàn)在想把它作為自己的職業(yè)，不知前路如何，且邊走邊說吧！

2019-12-28 18:45:57

本章的目的是讓你了解和運行 TensorFlow!

]為了進(jìn)一步激發(fā)你的學(xué)習(xí)欲望, 我們想讓你先看一下 TensorFlow 是如何解決一個經(jīng)典的機(jī)器學(xué)習(xí)問題的. 在神經(jīng)網(wǎng)絡(luò)領(lǐng)域, 最為經(jīng)典的問題莫過于 MNIST 手寫數(shù)字分類問題. 我們準(zhǔn)備了兩篇

2018-03-30 19:58:25