據(jù)《大西洋月刊》報(bào)道,直到最近,那些能在各類游戲中擊敗人類冠軍的機(jī)器,解決現(xiàn)實(shí)問題太難了。
1997年,為了在國際象棋中擊敗象棋大師加里·卡斯帕羅夫(Garry Kasparov),IBM的工程師們在他們的“深藍(lán)”(Deep Blue)電腦中使用了幾個(gè)世紀(jì)的國際象棋智慧。2016年,通過研究成千上萬的人類對戰(zhàn)經(jīng)驗(yàn),谷歌旗下人工智能(AI)子公司DeepMind的AlphaGo擊敗了韓國圍棋冠軍李世石(Lee Sedol)。
圖:在波多黎各圣洛倫佐(San Lorenzo)的一家養(yǎng)老院走廊里,一名看護(hù)人員正用筆記本電腦來監(jiān)控機(jī)器人護(hù)理人員,后者正為20位老年人提供服務(wù)
但是現(xiàn)在,AI研究人員正在重新思考機(jī)器人融合人類知識的方式。當(dāng)前的趨勢是:不需要那么麻煩。
2017年10月份,DeepMind團(tuán)隊(duì)公布了新的圍棋系統(tǒng)——AlphaGo Zero的細(xì)節(jié),該系統(tǒng)根本沒有研究人類的下棋經(jīng)驗(yàn)。相反,它直接從研究游戲規(guī)則開始,并與自己對抗。它的第一個(gè)動作完全是隨機(jī)的,而在每場比賽之后,它都對幫助其取勝或?qū)е缕涫〉男轮R進(jìn)行了總結(jié)。
在這些混戰(zhàn)結(jié)束后,AlphaGo Zero與曾經(jīng)擊敗李世石的AlphaGo超人版本進(jìn)行了正面交鋒,并以100:0的戰(zhàn)績完敗對手。
這個(gè)團(tuán)隊(duì)繼續(xù)開發(fā)了AlphaGo家族的另一個(gè)游戲大師,并為其取名AlphaZero。去年12月份,DeepMind的研究人員在科學(xué)網(wǎng)站ArXiv.org上發(fā)表論文指出,經(jīng)過從頭開始的重新設(shè)計(jì),AlphaZero的表現(xiàn)優(yōu)于AlphaGo Zero。換句話說,它擊敗了曾擊敗過世界上最好圍棋棋手的機(jī)器人。
當(dāng)它獲得國際象棋規(guī)則或日本將棋的規(guī)則時(shí),AlphaZero也很快學(xué)會了擊敗這些游戲頂級算法的方式。專家們對該項(xiàng)目咄咄逼人、令人感到陌生的風(fēng)格感到驚嘆。丹麥大師彼得·海恩·尼爾森(Peter Heine Nielsen)在接受BBC采訪時(shí)表示:“我一直在想,如果有更高級的物種降落在地球上,他們是如何下國際象棋的。現(xiàn)在我知道了。”
在過去的一年里,在各種各樣的場景中出現(xiàn)了超凡脫世的自學(xué)機(jī)器人,如無極限撲克和《Dota 2》。
當(dāng)然,投資于這些和類似系統(tǒng)的公司比僅僅控制視頻游戲比賽更有野心。像DeepMind這樣的研究團(tuán)隊(duì)希望將類似的方法應(yīng)用到現(xiàn)實(shí)世界中幫助解決實(shí)際問題,比如建造室溫超導(dǎo)體,或者理解將蛋白質(zhì)折疊成有效藥物分子的方式。
當(dāng)然,許多實(shí)踐者希望最終建立起通用人工智能,這是個(gè)定義尚不清楚但卻令人著迷的目標(biāo):機(jī)器可以像人類那樣思考,并可以幫助解決許多不同類型的問題。
然而,盡管在這些系統(tǒng)中進(jìn)行了大量投資,但目前的技術(shù)能走多遠(yuǎn)還不清楚。華盛頓大學(xué)計(jì)算機(jī)科學(xué)家佩德羅·多明戈斯(Pedro Domingos)說:“我不確定AlphaZero的想法是否能輕易地推廣開來,畢竟游戲是極為特殊的東西。”
許多游戲、國際象棋和圍棋都有一個(gè)特點(diǎn),就是玩家可以隨時(shí)看到兩邊的棋子。每個(gè)玩家都有關(guān)于游戲狀態(tài)的“完美信息”。無論游戲有多么復(fù)雜,你所需要做的就是從當(dāng)前的情況出發(fā)去思考。然而,很多真實(shí)情況并非如此。
想象一下,讓電腦診斷疾病或進(jìn)行商務(wù)談判。卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士生諾姆·布朗(Noam Brown)表示:“大多數(shù)現(xiàn)實(shí)世界的戰(zhàn)略互動都涉及隱性信息,我覺得這被大多數(shù)AI社區(qū)忽視了。”
布朗擅長的撲克為AI提供了不同的挑戰(zhàn),因?yàn)槟憧床坏綄κ值呐啤5谶@個(gè)領(lǐng)域,通過與自己競爭來學(xué)習(xí)的機(jī)器現(xiàn)在也達(dá)到了超人的水平。2017年1月份,布朗及其導(dǎo)師托馬斯·桑德霍爾姆(Tuomas Sandholm)創(chuàng)建了名為“Libratus”的項(xiàng)目,在20天的比賽結(jié)束后,他們在競爭對手的領(lǐng)先優(yōu)勢下,以超過170萬美元的優(yōu)勢擊敗了4名職業(yè)撲克選手。
另一款更讓人望而生畏的游戲是《星際爭霸2》(StarCraft II),這是一款擁有大量粉絲的多人在線視頻游戲。玩家選擇一個(gè)團(tuán)隊(duì)組建軍隊(duì),并在科幻場景中發(fā)動戰(zhàn)爭。但戰(zhàn)爭場景籠罩在迷霧中,只有玩家才能看到他們有士兵或建筑的地方。即使是對你的對手進(jìn)行偵察,這個(gè)過程也充滿了不確定性。
這是一款A(yù)I仍然不能徹底掌控的游戲。影響其成功的障礙包括在一場游戲中動作的絕對數(shù)量,通常可能會達(dá)到成千上萬個(gè)。每個(gè)玩家(無論人類還是機(jī)器)都需要擔(dān)心每次點(diǎn)擊可能帶來的無數(shù)后果。就目前而言,AI還無法在這一領(lǐng)域與頂級人類玩家進(jìn)行針鋒相對的抗衡,但這是一個(gè)目標(biāo)。在2017年8月份,DeepMind與開發(fā)《星際爭霸2》的暴雪娛樂公司合作,發(fā)布了他們所謂幫助AI研究人員征服游戲的工具。
盡管面臨挑戰(zhàn),《星際爭霸2》的目標(biāo)仍然十分明確,那就是消滅敵人。這是它與國際象棋、圍棋、撲克、《dota 2》以及其他所有游戲的共同之處。在游戲中,你可以贏得勝利。從算法的角度來看,所有問題都需要有個(gè)“目標(biāo)函數(shù)”,即需要尋找的目標(biāo)。當(dāng)AlphaZero下棋時(shí),這并不太難。AlphaZero的目標(biāo)函數(shù)是將分?jǐn)?shù)最大化,而撲克機(jī)器人的目標(biāo)函數(shù)也很簡單,就是贏更多錢。
然而現(xiàn)實(shí)生活中的情況并不那么簡單。舉例來說,無人駕駛汽車需要一個(gè)更微妙的目標(biāo)函數(shù),類似于你對精靈解釋自己愿望時(shí)的那種謹(jǐn)慎措辭。比如:及時(shí)將乘客送到正確的目的地,遵守一切法律,在危險(xiǎn)和不確定的情況下適當(dāng)?shù)睾饬咳祟惖纳鼉r(jià)值。多明戈斯說,研究人員如何制定目標(biāo)函數(shù),這是“將一個(gè)偉大的機(jī)器學(xué)習(xí)研究者與一般的機(jī)器學(xué)習(xí)研究者區(qū)分開來的東西之一。”
想想微軟在2016年3月23日發(fā)布的Twitter聊天機(jī)器人Tay,Tay的目標(biāo)是讓人們參與進(jìn)來,它做到了。多明戈斯稱:“不幸的是,Tay發(fā)現(xiàn):吸引人們最大化參與的最好方法就是宣泄種族主義言論。”在上線不到一天的時(shí)間內(nèi),它就被緊急召回。
有些事情并沒有改變,今天主要的游戲機(jī)器人采用的方法依然采用了幾十年前設(shè)計(jì)的策略。多倫多大學(xué)計(jì)算機(jī)科學(xué)家戴維·杜文多(David Duvenaud)說:“這幾乎是過去技術(shù)的爆發(fā),只是增加了更多的計(jì)算。”
這些策略通常依賴于強(qiáng)化學(xué)習(xí),一種不干涉的AI技術(shù)。工程師讓機(jī)器探索一個(gè)環(huán)境,并通過不斷的嘗試和錯(cuò)誤來學(xué)習(xí)如何實(shí)現(xiàn)目標(biāo),而不是用詳細(xì)的指令對算法進(jìn)行微觀管理。在AlphaGo和它的子代發(fā)布之前,DeepMind團(tuán)隊(duì)曾在2013年取得了第一個(gè)巨大的、引人注目的成就,當(dāng)時(shí)他們使用強(qiáng)化學(xué)習(xí)技術(shù)讓一個(gè)機(jī)器人學(xué)會掌控7款A(yù)tari 2600游戲,其中3款達(dá)到專家級別。
這一進(jìn)程仍在繼續(xù)。2月5日,DeepMind發(fā)布了Impala,可以學(xué)習(xí)57款A(yù)tari游戲的AI系統(tǒng),另外還有30個(gè)由DeepMind在三維空間中構(gòu)建的任務(wù)。在這些游戲中,玩家可以在不同的環(huán)境中漫游,執(zhí)行像打開門或收獲蘑菇這樣的任務(wù)。Impala似乎可以在任務(wù)之間傳遞知識,這意味著花在玩一款游戲上的時(shí)間也能幫助它在其他方面有所提高。
但在更大范圍內(nèi)的強(qiáng)化學(xué)習(xí),棋盤游戲和多人游戲允許玩家采用更具體的方法。在這里,探索可以采取自我啟發(fā)的形式,在這種情況下,一種算法可以通過不斷地與自己的副本角力,從而獲得戰(zhàn)略優(yōu)勢。
這個(gè)想法可以追溯到幾十年前。在20世紀(jì)50年代,一位名叫亞瑟·塞繆爾(Arthur Samuel)的IBM工程師創(chuàng)建了一個(gè)棋盤游戲程序,該程序是通過將字母與測試方相匹配來學(xué)習(xí)的。在20世紀(jì)90年代,來自IBM的杰拉爾德·特索羅(Gerald Tesauro)開發(fā)出西洋雙陸棋程序,使算法與自身對戰(zhàn)。這個(gè)程序最終達(dá)到了人類專家的水平,設(shè)計(jì)出了非正統(tǒng)但十分有效的策略。
在游戲迭代中,使用“自我啟發(fā)”系統(tǒng)的算法面對同樣相匹配的對手。這意味著策略的改變會導(dǎo)致不同的結(jié)果,從而使算法得到即時(shí)的反饋。OpenAI的研究主管伊爾亞·蘇茨克維爾(Ilya Sutskever)說:“任何時(shí)候你學(xué)到新東西,只要你發(fā)現(xiàn)了一件小事情,你的對手就會立即用它來對付你。”
蘇茨克維爾和美國連續(xù)創(chuàng)業(yè)家伊隆·馬斯克(Elon Musk)共同創(chuàng)立了非營利組織OpenAI,致力于開發(fā)和分享AI技術(shù),并將其引導(dǎo)到安全的應(yīng)用領(lǐng)域。2017年8月,該組織發(fā)布了《Dota 2》機(jī)器人,控制角色Shadow Fiend(惡魔巫師),并在一對一的戰(zhàn)斗中擊敗了世界上最好的玩家。另一個(gè)OpenAI項(xiàng)目是在相撲比賽中模擬人類互相攻擊,最后它們教自己如何格擋和發(fā)動佯攻。蘇茨克維爾稱,在“自我啟發(fā)”的過程中,你永遠(yuǎn)不能休息,必須不斷進(jìn)步。
但是,“自我啟發(fā)”的舊觀念只是當(dāng)今主流機(jī)器人的一個(gè)組成部分,它還需要一種方式將他們的游戲體驗(yàn)轉(zhuǎn)化為更深層次的理解。國際象棋、圍棋以及像《Dota 2》這樣的視頻游戲,可能性甚至比宇宙中的原子排列方式更多。即使是在整個(gè)生命過程中,機(jī)器與自己的影子進(jìn)行無數(shù)場虛擬競技戰(zhàn)斗,它也不可能碰到每個(gè)場景,并把它記錄下來,以便當(dāng)它再次看到同樣的情況時(shí),有記錄可查。
加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)家皮特·阿貝爾(Pieter Abbeel)說,要想在這種擁有無數(shù)可能性的海洋中生存,你需要泛化,并捕捉本質(zhì)。IBM的深藍(lán)電腦用其內(nèi)置的國際象棋公式做到了這一點(diǎn)。在有能力評估以前從未見過的棋路后,它可以采取行動和策略來增加獲勝的機(jī)會。然而,近年來,一項(xiàng)新技術(shù)使我們可以完全跳過這個(gè)公式。阿貝爾稱:“現(xiàn)在,突然之間,‘深網(wǎng)’就抓住了這一切。”
在過去的幾年里,深度神經(jīng)網(wǎng)絡(luò)的人氣飆升,它是由一層層的人造“神經(jīng)元”構(gòu)成的,就像煎餅一樣。當(dāng)一層神經(jīng)元放電時(shí),它們會將信號發(fā)送到下一層,以此類推。通過調(diào)整層與層之間的連接方式,這些網(wǎng)絡(luò)在將輸入轉(zhuǎn)化為相關(guān)輸出時(shí)變得非常棒,即使連接看起來顯得十分抽象。
舉例來說,給它們一個(gè)英語短語,它們可以訓(xùn)練自己把它翻譯成土耳其語。給它們一個(gè)動物收容所的照片,它們就能辨認(rèn)出哪些是貓。或者向它們展示一個(gè)游戲板,它們可以知道自己獲勝的概率有多大。但是,通常情況下,你需要首先給這些網(wǎng)絡(luò)大量的標(biāo)記示例來進(jìn)行訓(xùn)練和實(shí)踐。
這就是為什么“自我啟發(fā)”系統(tǒng)和深層神經(jīng)網(wǎng)絡(luò)如此契合的原因。“自我啟發(fā)”能產(chǎn)生大量的游戲,使深層神經(jīng)網(wǎng)絡(luò)在理論上可以無限地提供它們需要自學(xué)的數(shù)據(jù)。反過來,深層神經(jīng)網(wǎng)絡(luò)提供了一種方法來內(nèi)化“自我啟發(fā)”過程中遇到的經(jīng)驗(yàn)和模式。但是這其中有一個(gè)問題。對于“自我啟發(fā)”系統(tǒng)來說,要想產(chǎn)生有用的數(shù)據(jù),它們需要一個(gè)更現(xiàn)實(shí)的地方來玩。
加州大學(xué)伯克利分校的博士生切爾西·芬恩(Chelsea Finn)說:“所有這些游戲,所有這些結(jié)果,都是在你可以完美模擬世界的環(huán)境中進(jìn)行的。”芬恩曾使用AI控制機(jī)器人手臂,并從傳感器中解讀數(shù)據(jù)。其他領(lǐng)域并不那么容易被模仿。
例如,無人駕駛汽車在應(yīng)對惡劣天氣或騎單車者時(shí)遇到了困難。或者,它們可能無法捕捉到真實(shí)數(shù)據(jù)中出現(xiàn)的奇異可能性,比如恰好有鳥飛過擋住了汽車攝像頭。芬恩說,對于機(jī)器人手臂來說,最初的模擬提供了基礎(chǔ)物理學(xué),讓手臂至少學(xué)會了如何學(xué)習(xí)。但是,他們沒有捕捉到接觸表面的細(xì)節(jié),這意味著像擰開瓶蓋或進(jìn)行復(fù)雜外科手術(shù)的任務(wù)也需要現(xiàn)實(shí)世界的經(jīng)驗(yàn)。
對于那些難以模擬的問題,“自我啟發(fā)”系統(tǒng)并不是很有用。蒙特利爾大學(xué)深度學(xué)習(xí)先驅(qū)約書亞·本吉奧(Yoshua Bengio)在電子郵件中寫道:“在真正完美的環(huán)境模型和學(xué)習(xí)環(huán)境之間存在著巨大的差異,尤其是當(dāng)這個(gè)現(xiàn)實(shí)足夠復(fù)雜的時(shí)候。”但這仍然讓AI研究人員有辦法繼續(xù)前進(jìn)。
很難確定AI何時(shí)能取得游戲霸主地位。你可以選擇卡斯帕羅夫在國際象棋中的失利,或者李世石敗給虛擬對手AlphaGo。另一個(gè)流行的選擇是,2011年美國智力游戲《危險(xiǎn)邊緣》(Jeopardy)冠軍肯·詹寧斯(Ken Jennings)輸給了IBM電腦沃森(Watson)。沃森可以解析游戲的線索,處理文字游戲。兩天的比賽還沒有結(jié)束,詹寧斯就寫道:“首先,我歡迎我們的新電腦霸主。”
沃森似乎被賦予了人類在許多現(xiàn)實(shí)問題上所使用的文書技能。它可以用英語提示,以閃電般的速度翻查相關(guān)文件,找到相關(guān)的信息片段,并找到一個(gè)最好的答案。但七年后,現(xiàn)實(shí)世界繼續(xù)對AI提出了嚴(yán)峻的挑戰(zhàn)。2017年9月份健康雜志《Stat》發(fā)布的報(bào)告顯示,作為沃森腫瘤研究計(jì)劃(Watson for Oncology)的目標(biāo),研究和設(shè)計(jì)個(gè)性化的癌癥治療方案非常困難。
當(dāng)被要求從AI的角度來比較上述兩種情況時(shí),本吉奧寫道:“《危險(xiǎn)邊緣》中的問題更容易理解,因?yàn)樗鼈儾恍枰嗟某WR。而理解一篇醫(yī)學(xué)文章要難得多。同樣,需要進(jìn)行很多基礎(chǔ)研究。”
盡管游戲很特別,但仍然存在一些類似的現(xiàn)實(shí)問題。DeepMind的研究人員拒絕接受采訪,理由是他們的AlphaZero目前正在接受同行評審。但該研究團(tuán)隊(duì)已經(jīng)表示,它的技術(shù)可能很快就能幫助生物醫(yī)學(xué)研究者,后者想要更多了解蛋白質(zhì)的折疊。
為了做到這一點(diǎn),他們需要弄清楚組成蛋白質(zhì)扭結(jié)的各種氨基酸是如何折疊成小三維機(jī)器的,其功能取決于它的形狀。這在國際象棋中同樣十分棘手,化學(xué)家們很清楚地知道規(guī)則,可以計(jì)算出特定的場景,但是仍然有很多可能的配置方案,想要了解所有可能性幾乎是不可能的。
但是如果蛋白質(zhì)折疊可以被配置成游戲呢?事實(shí)上,它已經(jīng)存在了。自2008年以來,成千上萬的人類玩家嘗試過在線游戲《Foldit》,用戶可以在其折疊的蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定性和可行性上得分。機(jī)器可以以類似的方式訓(xùn)練自己,也許通過嘗試通用強(qiáng)化學(xué)習(xí)來擊敗它之前的最好成績。
蘇茨克維爾認(rèn)為,強(qiáng)化學(xué)習(xí)和“自我啟發(fā)”也有助于訓(xùn)練對話系統(tǒng)。這將使機(jī)器人能夠通過自言自語的方式進(jìn)行訓(xùn)練,并實(shí)現(xiàn)與人類對話。考慮到專業(yè)的AI硬件正變得越來越快、越來越普及,工程師們將會有動力以游戲的形式提出越來越多的問題。蘇茨克維爾說:“我認(rèn)為,將來自我啟發(fā)和其他消耗大量計(jì)算能力的方式將變得越來越重要。”
但是,如果最終的目標(biāo)是讓機(jī)器盡可能多地完成任務(wù),即使是自學(xué)成才、通才的棋盤游戲冠軍,比如AlphaZero,也可能有辦法實(shí)現(xiàn)。麻省理工學(xué)院認(rèn)知科學(xué)家喬希·特南鮑姆(Josh Tenenbaum)說:“至少在我看來,你必須看到,真正的思維活動、創(chuàng)造性的思想探索以及我們目前在AI領(lǐng)域所看到的東西之間存在著巨大的鴻溝。這種智能是存在的,但它主要發(fā)生在偉大的AI研究人員的頭腦中。”
谷歌深度學(xué)習(xí)研究員弗朗索瓦·喬萊(Francois Chollet)說:“我要保持小心,不要過高估計(jì)玩這些游戲的重要性,不管是AI還是普通工作。人類不是很擅長游戲,但要記住,非常簡單的專業(yè)工具實(shí)際上可以實(shí)現(xiàn)很多目標(biāo)。”
-
AI
+關(guān)注
關(guān)注
88文章
35041瀏覽量
279177 -
人工智能
+關(guān)注
關(guān)注
1806文章
48987瀏覽量
249099
原文標(biāo)題:AI可以在游戲里稱霸,但是解決現(xiàn)實(shí)問題太難了
文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
巨頭押寶AI眼鏡,DPVR AI Glasses將成“現(xiàn)實(shí)助手”?
AI玩具,還是AI工具?

【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+讀《零基礎(chǔ)開發(fā)AI Agent》掌握扣子平臺開發(fā)智能體方法
【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+ 入門篇學(xué)習(xí)
AI電力需求激增,儲能如何解決 “吃電” 問題?
在樹莓派上玩PS3游戲:現(xiàn)實(shí)還是幻想?

stm32cubide搜索不到.h文件里的文本如何解決?
富士通如何解鎖生成式AI紅利 從人才進(jìn)化到業(yè)務(wù)賦能
自動駕駛“電車難題”如何解?
巨人網(wǎng)絡(luò)與阿里云深化AI合作
中興通訊AiCube:破解AI模型部署難題
遠(yuǎn)心鏡頭憑什么能稱霸高精度測量領(lǐng)域?揭秘微米級精度的秘密武器!

NVIDIA RTX AI PC如何解鎖AI智能體

NTC溫度傳感器解決儲能領(lǐng)域難題

評論