機(jī)器正變得越來越具有協(xié)作性,其中既包括機(jī)器與人的協(xié)作也包括機(jī)器與機(jī)器之間的協(xié)作。不久之后,我們可能就會有能協(xié)商通行權(quán)的自動駕駛汽車,以及協(xié)助護(hù)士進(jìn)行家庭護(hù)理的機(jī)器人。但首先,它們需要學(xué)會交流,而且不僅僅是通過言語交流。人類用他們的行動說了很多。踩剎車不僅會讓你減速,還預(yù)示著前方可能有麻煩。雙臂交叉在胸前既可以保護(hù)你,又傳達(dá)出沉默的信號。
為了教會人工智能(AI)進(jìn)行交流,研究人員轉(zhuǎn)向了紙牌游戲。雖然人工智能很久以前就在國際象棋、圍棋、某些形式的撲克和許多電子游戲中擊敗了人類,但橋牌和花火(Hanabi)等游戲提供了一些特殊的挑戰(zhàn)。玩家必須在沒有明確的信息共享方式的情況下進(jìn)行合作(例如打出對方需要你打出的牌)。研究這兩款游戲的研究人員最近開發(fā)了一些人工智能系統(tǒng),這些系統(tǒng)發(fā)明了自己的隱式代碼來協(xié)調(diào)它們的動作。
在橋牌比賽中,有四名選手,分成兩隊。在任何人出牌之前,玩家可以輪流叫牌。用選定的作為將牌的花色叫牌來表明你認(rèn)為你的團(tuán)隊可以贏某個墩數(shù)。多年來,橋牌玩家們已經(jīng)開發(fā)出了很多能同時讓隊友知道自己手里有什么排的叫牌方法。例如,一個人可能叫“兩個梅花”(即使他沒有梅花)來表示自己手里有很多花牌(J、Q、K)。通過這樣編碼過的叫牌,團(tuán)隊可以進(jìn)行基本的對話。
倫敦大學(xué)學(xué)院(University College London)的研究人員最近在預(yù)印本文庫arXiv上發(fā)表了一篇標(biāo)題為“Learning to Communicate Implicitly By Actions”的論文。在他們的名為“策略-信念-迭代”(Policy - Belief - Iteration,簡稱P-BIT)的系統(tǒng)中,每個AI玩家都有兩個神經(jīng)網(wǎng)絡(luò)。一個網(wǎng)絡(luò)學(xué)習(xí)根據(jù)叫牌來推斷隊友手里有什么牌。另一個學(xué)習(xí)根據(jù)對隊友手里有的牌的推斷和自己手里的牌來做出恰當(dāng)?shù)慕信啤T谟?xùn)練過程中,AI玩家會因為自己的叫牌提高了隊友所做推斷(推斷自己手里有什么牌)的準(zhǔn)確性而得到獎勵。
在經(jīng)過150萬手的練習(xí)之后,這對AI搭檔已經(jīng)發(fā)展出了它們自己的約定,比如用叫一種花色的三張牌的方式來表明這種花色的六張牌可能是一個理想的定約。這對AI玩家擊敗了沒有進(jìn)行交流或?qū)λ鼈冴犛训男拍钸M(jìn)行建模的基線AI玩家。該論文的作者之一、倫敦大學(xué)學(xué)院的計算機(jī)科學(xué)家Jun Wang表示,這些AI玩家還無法與人類玩家相比,但他發(fā)現(xiàn)初步結(jié)果“是非常鼓舞人心的”。
一款名為花火(Hanabi)的新型紙牌游戲也具有類似的交流挑戰(zhàn)。在這款需要合作的類單人紙牌游戲中,兩到五名玩家每人各持有四到五張牌,每張牌都具有一種顏色并帶有一個數(shù)字,玩家需要輪流將它們按正確的順序放到彩色的紙牌堆上。但他們看不到自己的牌,只能看到隊友的牌。
在每個回合中,他們可以出一張牌、丟棄一張牌,或者給另一位玩家一個提示。他們不能告訴對方可以出哪張牌,而是只能說對方手中的哪些牌是某種顏色的或是帶有某個數(shù)字的。在某些情況下,指出隊友手中的某張牌的顏色,可能是向隊友示意他接下來應(yīng)該打出這一張牌。信息不僅可以來自顯性線索本身(牌的顏色),還可以來自為什么選擇該線索而不是其他線索的隱性內(nèi)容。
最近,DeepMind Technologies和牛津大學(xué)的一個團(tuán)隊在arXiv上發(fā)表了一篇標(biāo)題為“Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning”的論文。論文中介紹了一個針對雙人版本花火游戲的機(jī)器學(xué)習(xí)系統(tǒng)。他們的“貝葉斯動作解碼器”(Bayesian Action Decoder,簡稱BAD)也使用神經(jīng)網(wǎng)絡(luò),讓每個人工智能玩家嘗試推斷其隊友的信念。為了避免無限遞歸地思考你的隊友在思考你在思考什么,這個系統(tǒng)兩個玩家外部創(chuàng)建了一套“公共信念”。
這些公共信念代表了有關(guān)游戲狀態(tài)和之前動作的所有公開可用信息,以及在沒有實際查看其中任何一手的情況下可能說的關(guān)于所有手的話。然后,“公共代理人”使用神經(jīng)網(wǎng)絡(luò)將這些信念轉(zhuǎn)換為關(guān)于每個玩家應(yīng)該做什么以及他們的隊友手中可能拿著怎樣的牌的指示。然后,每個玩家在公共代理的指導(dǎo)下,根據(jù)自己的觀察,采取行動。
盡管這些人工智能玩家并沒有因為交流而獲得特別的獎勵,但打信號卻產(chǎn)生了另外的作用。例如,指出紅牌或黃牌意味著AI隊友應(yīng)該打出最近抽到的牌。研究人員計算出,通過暗示分享的信息中有40%是隱性的。這種編碼通信幫助他們的系統(tǒng)近乎完美地運行,平均得分為24分(滿分25分),比之前最好的機(jī)器人高出約1分。(對于人類來說,即使有使用肢體語言的不公平優(yōu)勢,得分超過20分就是不錯的。)
這兩個系統(tǒng),即用于橋梁的P-BIT和用于Hanabi的BAD,都依賴于給予人工智能的一些東西,比如人的“心理理論”,或者對他人的信念和意圖的認(rèn)知。這種推理在人際交往中普遍存在。如果你問你的朋友他的婚姻狀況,而他把話題轉(zhuǎn)到紐約大都會隊,那么他的話就不僅說明了關(guān)于大都會隊的一些情況,也說明了他的婚姻狀況。
為了讓AI能夠高效、優(yōu)雅地處理與人之間或彼此之間的互動,它們需要理解隱性信號,而紙牌游戲是實現(xiàn)目標(biāo)的途徑之一。一家名為NukkAI的創(chuàng)業(yè)公司專注于為橋牌打造更好的人工智能,并且正籌集了數(shù)百萬美元,期望最終將其技術(shù)應(yīng)用于現(xiàn)實世界的問題。在最近的一篇標(biāo)題為“The Hanabi Challenge: A New Frontier for AI Research”論文中,DeepMind稱花火為“人工智能研究的一個新前沿”,并提供了一個開源測試平臺。
盡管DeepMind的BAD系統(tǒng)通過反復(fù)與同一隊友玩游戲來制定出約定,但他們在上面那篇論文中指出,更高級的任務(wù)將是對不熟悉的玩家的行為進(jìn)行動態(tài)推理。他們在這個場景下測試了一些系統(tǒng),而沒有一個系統(tǒng)的平均得分超過4分。
研究機(jī)器人和通信的康奈爾大學(xué)計算機(jī)科學(xué)家Julia Proft也強(qiáng)調(diào)了即時推理的重要性。她最近發(fā)現(xiàn),當(dāng)AI花火玩家使用隱性信號時,它們更有可能被判斷為是人類玩家。這一發(fā)現(xiàn)發(fā)表在標(biāo)題為“Implicit Communication of Actionable Information in Human-AI teams”的論文中。在談到關(guān)于習(xí)得約定的論文時,她說:“他們做的事情真酷。”但她又加上一句說,“有趣的問題”是來自上下文的自發(fā)推理。
不過,牛津大學(xué)的計算機(jī)科學(xué)家、DeepMind那兩篇論文的合著者Jakob Foerster說:“我并不認(rèn)為我們有可信的方法來開始考慮自發(fā)推理需要什么。說實話,我們離去考慮那個問題還相當(dāng)遠(yuǎn)。”
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4810瀏覽量
102888 -
AI
+關(guān)注
關(guān)注
88文章
34377瀏覽量
275594 -
人工智能
+關(guān)注
關(guān)注
1804文章
48773瀏覽量
246786 -
機(jī)器
+關(guān)注
關(guān)注
0文章
790瀏覽量
41143
原文標(biāo)題:人工智能玩家發(fā)明自己的“語言”,合作“交流”以贏得紙牌游戲
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用

評論