你們不是嫌棄世界冠軍 OG 團(tuán)隊(duì)實(shí)力太水嗎?“你行你上”的機(jī)會(huì)來了。
4 月 14 日凌晨,OpenAI Five 以 2:0 擊敗了 DOTA 世界冠軍團(tuán)隊(duì) OG 引發(fā)熱議。比賽當(dāng)天,OpenAI 也宣布要開放 OpenAI Five 競(jìng)技場(chǎng)模式,讓每個(gè)感興趣的人都參與其中。
4 月 18 日(太平洋標(biāo)準(zhǔn)時(shí)間)下午 6 點(diǎn),OpenAI 如約開放了這一模式,全世界各路玩家都可以免費(fèi)進(jìn)行體驗(yàn)。開放時(shí)間為期三天,4 月 21 日(太平洋標(biāo)準(zhǔn)時(shí)間)晚上 11 點(diǎn) 59 分關(guān)閉,要體驗(yàn)一把人機(jī)對(duì)戰(zhàn)的話可得抓緊時(shí)間。
參賽鏈接:https://arena.openai.com/#/
目前從其官網(wǎng)賽況來看,截止今天早上 10 點(diǎn),OpenAI Five 與參與者打了 424 場(chǎng)比賽,AI 以 112-0 完勝人類玩家。
以下是人類參與者的部分賽況:
據(jù) OpenAI 官方介紹,參與者可以在競(jìng)爭(zhēng)模式和合作模式下體驗(yàn) OpenAI Five。他們的 1v1 機(jī)器人可以通過巧妙的策略加以利用,但他們也并不知道 OpenAI Five 能在多大程度上可以做到這一點(diǎn)。
在此前決賽中,他們展示了 OpenAI Five 和人類在合作模式打游戲。一組是 Sheever、Blitz 和三個(gè) OpenAI Five,對(duì)手是由 Capitalist、ODPixel 和三個(gè) OpenAI Five 組成的團(tuán)隊(duì)。
不過,通過 OpenAI Five 在決賽上的表現(xiàn),OpenAI 團(tuán)隊(duì)在最新的博客中分享了兩個(gè)驚喜:
盡管訓(xùn)練 OpenAI Five 系統(tǒng)的目的是為了打敗其他機(jī)器人,但他們卻發(fā)現(xiàn) OpenAI Five 其實(shí)還有與人類成為隊(duì)友的基本能力,也就是說可以將一個(gè)競(jìng)爭(zhēng)型 AI 變?yōu)楹献餍?AI。他們認(rèn)為,如果能更努力去開發(fā),未來 AI 系統(tǒng)能為人類做出非常多的貢獻(xiàn)。
4 月 18 日 到 21 日的競(jìng)技場(chǎng)模式測(cè)試將回答一個(gè)很重要的研究問題——OpenAI Five 的潛能可以被人類運(yùn)用到何種程度,或者它們?cè)谄渌男┓矫姹囟〞?huì)被打敗。OpenAI Five 這一深度強(qiáng)化學(xué)習(xí)智能體系統(tǒng),可能會(huì)成為有史以來人類能與之交互的最大的 AI 部署系統(tǒng)。
OG戰(zhàn)隊(duì)與OpenAI開發(fā)團(tuán)隊(duì)
對(duì)于 OpenAI Five 競(jìng)技場(chǎng)模式,有很多人報(bào)以期待,reddit 上有網(wǎng)友評(píng)論稱,“這特么太酷了,自從 OpenAI 1v1 首秀之后,人們已經(jīng)要求要在網(wǎng)上跟機(jī)器人玩游戲了,現(xiàn)在它真的發(fā)生了!”
只是,如果在競(jìng)爭(zhēng)模式跟 AI 打 DOTA,作為人類玩家的你會(huì)不會(huì)慘遭OpenAI Five 的虐殺,而輸?shù)煤翢o懸念呢?祝你們好運(yùn)。
當(dāng)然,玩游戲之余,你可能也想知道:OpenAI Five 取得勝利背后的“秘訣”是什么?為什么這次的 OpenAI Five 系統(tǒng)要比去年在 TI 表演賽上敗給人類的AI系統(tǒng)更強(qiáng)?OpenAI 是如何訓(xùn)練 OpenAI Five 系統(tǒng)的?OpenAI 團(tuán)隊(duì)最近給出了解讀。
為什么是 DOTA2?
一開始,OpenAI 團(tuán)隊(duì)研究 OpenAI Five 是為了解決超出現(xiàn)有深度強(qiáng)化學(xué)習(xí)算法能力范圍的問題,他們希望通過現(xiàn)有的方法解決當(dāng)下無法解決的問題,原以為這需要復(fù)雜的算法思想(比如分層強(qiáng)化學(xué)習(xí)(Hierarchical RL)),但他們驚訝地發(fā)現(xiàn)只需要改進(jìn)的是規(guī)模,但實(shí)現(xiàn)和利用這個(gè)規(guī)模并不容易,這成了其研究的主要內(nèi)容。
OpenAI Five 把世界看作是一串必須破譯的數(shù)字。無論這些數(shù)字是以 DOTA 游戲形式(約 20000 個(gè)數(shù)字),還是以機(jī)械手形式(約 200 個(gè)),使用的都是通用學(xué)習(xí)代碼。
為了創(chuàng)建 OpenAI Five,OpenAI 團(tuán)隊(duì)創(chuàng)造了一個(gè)名為 Rapid 的系統(tǒng),用來以從未有過的規(guī)模去運(yùn)行 PPO(Proximal Policy Optimization),結(jié)果出人意料,居然創(chuàng)造了一個(gè)不受任何基本性能限制的世界級(jí) DOTA 機(jī)器人。
如今,RL 算法表現(xiàn)出了驚人的能力,但它在游戲或模擬環(huán)境之外卻用處不大,但這個(gè)限制可能并沒有聽起來的那么糟糕,例如可以使用 Rapid 來控制機(jī)械手來重新移動(dòng)一個(gè)模塊,這需要首先進(jìn)行模擬訓(xùn)練,然后在物理機(jī)器人上執(zhí)行。他們認(rèn)為,對(duì)于 RL 的下一個(gè)挑戰(zhàn)是減少對(duì)經(jīng)驗(yàn)的依賴。
雖然他們決定不再讓 OpenAI Five 成為競(jìng)爭(zhēng)對(duì)手,但社會(huì)進(jìn)步和技術(shù)發(fā)展將繼續(xù)推動(dòng)未來的研究,這也并非 DOTA 比賽研究的終點(diǎn),他們認(rèn)為 DOTA 比賽對(duì) RL 開發(fā)來說是一個(gè)比現(xiàn)在使用的標(biāo)準(zhǔn)環(huán)境更有趣、更復(fù)雜、也更好理解的環(huán)境。
算力
與 DOTA2 在去年的 TI 表演賽的失利相比,OpenAI Five 在 4 月 14 日戰(zhàn)勝 OG 團(tuán)隊(duì)的主要原因是其訓(xùn)練的計(jì)算量增加了 8 倍。去年比賽后,OpenAI 團(tuán)隊(duì)將項(xiàng)目中的絕大部分計(jì)算用于訓(xùn)練 OpenAI Five 模型,同時(shí)還增加了訓(xùn)練時(shí)間。
OpenAI Five 的 TrueSkill,由于已經(jīng)使用了額外的訓(xùn)練計(jì)算,所以用線來劃分主要的系統(tǒng)變化。這張圖的走向大致是線性的,意味著 OpenAI Five 不斷從額外計(jì)算中獲益。
總之 ,OpenAI Five 的當(dāng)前版本已經(jīng)訓(xùn)練了 800 petaflop/s /天,并且在10個(gè)實(shí)時(shí)月的時(shí)間內(nèi)進(jìn)行相當(dāng)于人類大約 45000 年時(shí)長的 DOTA 游戲自我訓(xùn)練,相當(dāng)于人類每天平均有 250 年的模擬訓(xùn)練。OpenAI Five 的最終版本與 TI 版本相比,勝率是 99.9%。
18 個(gè)英雄
從訓(xùn)練 5 名英雄到 18 名英雄時(shí)的訓(xùn)練進(jìn)度幾乎沒有放緩,他們已經(jīng)假設(shè)同樣的情況如果發(fā)生在更多的英雄身上會(huì)怎樣。TI比賽后,又花了很多精力去整合新的英雄。
他們花了幾周時(shí)間去訓(xùn)練多達(dá) 25 個(gè)英雄的英雄池,將這些英雄帶到大約 5k MMR(大約是95% DOTA 玩家的水平)。雖然在進(jìn)步,但學(xué)習(xí)速度不夠快,無法在決賽前達(dá)到職業(yè)水平。研究人員還沒有時(shí)間去找到原因,但后來發(fā)現(xiàn)模型容量不足,需要更好的匹配來擴(kuò)展英雄池,還需要更多的訓(xùn)練時(shí)間來讓新英雄趕上老英雄。但想象一下,當(dāng)一個(gè)人掌握了自己的英雄時(shí),再去學(xué)習(xí)一個(gè)新英雄是多么困難。
對(duì)了,這里明明說訓(xùn)練了 18 個(gè)英雄,但為什么在與 OG 比賽時(shí)只放了 17 個(gè)英雄?因?yàn)檫€有一個(gè)英雄在 DOTA v7.20 版本中出現(xiàn)了明顯變化,所以就沒用。
最后,這么好的機(jī)會(huì),要不要去體驗(yàn)下被機(jī)器人在 DOTA 中碾壓的酸爽感?
-
機(jī)器人
+關(guān)注
關(guān)注
212文章
29421瀏覽量
211338 -
智能體
+關(guān)注
關(guān)注
1文章
256瀏覽量
10938 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
269瀏覽量
11510
原文標(biāo)題:“你行你上”:有本事跟OpenAI Five打一把DOTA?| 極客頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
你失去工作不是因?yàn)锳I,而是因?yàn)槭褂肁I的人

CFA科普系列01|EDA工具裝不上?可能不是你技術(shù)差,而是少了這兩個(gè)命令
比亞迪海鷗榮膺2025世界汽車大獎(jiǎng)“世界城市車”冠軍
嵌入式來了,你還在等什么?(可下載)
2024世界智能制造大會(huì)火熱進(jìn)行中!尋跡智行4D04,誠邀蒞臨~

冠軍說|第二屆OpenHarmony競(jìng)賽訓(xùn)練營冠軍團(tuán)隊(duì)專訪
明明我說的是25G信號(hào),你卻讓我看12.5G的損耗?
可穿戴芯片細(xì)分市場(chǎng)機(jī)會(huì)來了,大算力產(chǎn)品、出海布局加速

必知!如何有效保護(hù)你的IP地址
信維通信榮獲“制造業(yè)單項(xiàng)冠軍企業(yè)”稱號(hào)
喜訊!瑞隆源榮獲廣東省制造業(yè)單項(xiàng)冠軍企業(yè)

評(píng)論