據(jù)外媒報(bào)道,DeepMind的使命是向人們展示,人工智能不僅能夠真正精通游戲甚至在不需要被告知游戲規(guī)則也能做到這一點(diǎn)。該公司最新的AI代理產(chǎn)品MuZero不僅可以通過具有復(fù)雜策略的視覺簡(jiǎn)單游戲如圍棋、國(guó)際象棋和日本將棋實(shí)現(xiàn)這一目標(biāo),還可以通過視覺復(fù)雜的雅達(dá)利游戲?qū)崿F(xiàn)這一目標(biāo)。
DeepMind的早期AI的成功至少在一定程度上得益于巨大決策樹的非常有效的導(dǎo)航,這些決策樹代表了游戲中可能的行動(dòng)。在圍棋或象棋中,這些樹則是由非常具體的規(guī)則控制,如棋子的移動(dòng)位置、這個(gè)棋子移動(dòng)時(shí)會(huì)發(fā)生什么等等。
在圍棋比賽中擊敗世界冠軍的AI AlphaGo在研究人類棋手之間和對(duì)手之間的比賽時(shí)了解了這些規(guī)則并把它們牢記于心從而形成了一套最佳實(shí)踐和策略。它的續(xù)作AlphaGo Zero則在沒有人類數(shù)據(jù)的情況下就做到了這一點(diǎn)。AlphaZero在2018年對(duì)圍棋、象棋和將棋也做了同樣的事情并由此創(chuàng)造了一個(gè)可以熟練玩所有這些游戲的AI模型。
但在所有這些情況下,AI都獲得了一系列不變的已知游戲規(guī)則并圍繞著這些規(guī)則創(chuàng)造了一個(gè)框架去創(chuàng)造自己的策略。
DeepMind在一篇關(guān)于他們新研究的博文中指出,如果AI提前被告知規(guī)則,“這就很難將它們應(yīng)用到混亂的現(xiàn)實(shí)世界問題中,這些問題通常都很復(fù)雜且很難提煉成簡(jiǎn)單的規(guī)則。”
該公司的最新進(jìn)展是MuZero,它不僅可以玩上述游戲還可以玩雅達(dá)利的各種游戲,且完全無需任何規(guī)則手冊(cè)。最終的模型不僅通過自己的實(shí)驗(yàn)(沒有人類數(shù)據(jù))甚至沒有被告知最基本的規(guī)則就學(xué)會(huì)玩所有這些游戲。
MuZero并沒有使用規(guī)則去尋找最佳情況,而是學(xué)會(huì)考慮游戲環(huán)境的方方面面并自己觀察它是否重要。在數(shù)以百萬計(jì)的游戲中,它不僅學(xué)會(huì)了規(guī)則還學(xué)會(huì)了位置的一般價(jià)值、領(lǐng)先的一般政策以及事后評(píng)估自己行為的方法。據(jù)悉,后一種能力能幫助AI從自己的錯(cuò)誤中吸取教訓(xùn)、重新開始并嘗試不同的方法進(jìn)而進(jìn)一步完善位置和策略價(jià)值。
責(zé)編AJX
-
游戲
+關(guān)注
關(guān)注
2文章
765瀏覽量
26646 -
機(jī)器視覺
+關(guān)注
關(guān)注
163文章
4503瀏覽量
122130 -
AI
+關(guān)注
關(guān)注
87文章
34001瀏覽量
275092
發(fā)布評(píng)論請(qǐng)先 登錄
ZSKY-2301-2.8A-SOT-23 80K MOSFET P溝道規(guī)格書
AI電力需求激增,儲(chǔ)能如何解決 “吃電” 問題?
一夜爆火的DeepSeek一體機(jī),如何改寫AI游戲規(guī)則?

清華大學(xué)發(fā)布:DeepSeek從入門到精通

評(píng)論