一品道门在线播放,日本mv在线观看网站,好久不见在线播放免费

據(jù)《大西洋月刊》報(bào)道，直到最近，那些能在各類游戲中擊敗人類冠軍的機(jī)器，解決現(xiàn)實(shí)問題太難了。

1997年，為了在國際象棋中擊敗象棋大師加里·卡斯帕羅夫（Garry Kasparov），IBM的工程師們在他們的“深藍(lán)”（Deep Blue）電腦中使用了幾個(gè)世紀(jì)的國際象棋智慧。2016年，通過研究成千上萬的人類對戰(zhàn)經(jīng)驗(yàn)，谷歌旗下人工智能（AI）子公司DeepMind的AlphaGo擊敗了韓國圍棋冠軍李世石（Lee Sedol）。

圖：在波多黎各圣洛倫佐（San Lorenzo）的一家養(yǎng)老院走廊里，一名看護(hù)人員正用筆記本電腦來監(jiān)控機(jī)器人護(hù)理人員，后者正為20位老年人提供服務(wù)

但是現(xiàn)在，AI研究人員正在重新思考機(jī)器人融合人類知識的方式。當(dāng)前的趨勢是：不需要那么麻煩。

2017年10月份，DeepMind團(tuán)隊(duì)公布了新的圍棋系統(tǒng)——AlphaGo Zero的細(xì)節(jié)，該系統(tǒng)根本沒有研究人類的下棋經(jīng)驗(yàn)。相反，它直接從研究游戲規(guī)則開始，并與自己對抗。它的第一個(gè)動作完全是隨機(jī)的，而在每場比賽之后，它都對幫助其取勝或?qū)е缕涫〉男轮R進(jìn)行了總結(jié)。

在這些混戰(zhàn)結(jié)束后，AlphaGo Zero與曾經(jīng)擊敗李世石的AlphaGo超人版本進(jìn)行了正面交鋒，并以100：0的戰(zhàn)績完敗對手。

這個(gè)團(tuán)隊(duì)繼續(xù)開發(fā)了AlphaGo家族的另一個(gè)游戲大師，并為其取名AlphaZero。去年12月份，DeepMind的研究人員在科學(xué)網(wǎng)站ArXiv.org上發(fā)表論文指出，經(jīng)過從頭開始的重新設(shè)計(jì)，AlphaZero的表現(xiàn)優(yōu)于AlphaGo Zero。換句話說，它擊敗了曾擊敗過世界上最好圍棋棋手的機(jī)器人。

當(dāng)它獲得國際象棋規(guī)則或日本將棋的規(guī)則時(shí)，AlphaZero也很快學(xué)會了擊敗這些游戲頂級算法的方式。專家們對該項(xiàng)目咄咄逼人、令人感到陌生的風(fēng)格感到驚嘆。丹麥大師彼得·海恩·尼爾森（Peter Heine Nielsen）在接受BBC采訪時(shí)表示：“我一直在想，如果有更高級的物種降落在地球上，他們是如何下國際象棋的。現(xiàn)在我知道了。”

在過去的一年里，在各種各樣的場景中出現(xiàn)了超凡脫世的自學(xué)機(jī)器人，如無極限撲克和《Dota 2》。

當(dāng)然，投資于這些和類似系統(tǒng)的公司比僅僅控制視頻游戲比賽更有野心。像DeepMind這樣的研究團(tuán)隊(duì)希望將類似的方法應(yīng)用到現(xiàn)實(shí)世界中幫助解決實(shí)際問題，比如建造室溫超導(dǎo)體，或者理解將蛋白質(zhì)折疊成有效藥物分子的方式。

當(dāng)然，許多實(shí)踐者希望最終建立起通用人工智能，這是個(gè)定義尚不清楚但卻令人著迷的目標(biāo)：機(jī)器可以像人類那樣思考，并可以幫助解決許多不同類型的問題。

然而，盡管在這些系統(tǒng)中進(jìn)行了大量投資，但目前的技術(shù)能走多遠(yuǎn)還不清楚。華盛頓大學(xué)計(jì)算機(jī)科學(xué)家佩德羅·多明戈斯（Pedro Domingos）說:“我不確定AlphaZero的想法是否能輕易地推廣開來，畢竟游戲是極為特殊的東西。”

許多游戲、國際象棋和圍棋都有一個(gè)特點(diǎn)，就是玩家可以隨時(shí)看到兩邊的棋子。每個(gè)玩家都有關(guān)于游戲狀態(tài)的“完美信息”。無論游戲有多么復(fù)雜，你所需要做的就是從當(dāng)前的情況出發(fā)去思考。然而，很多真實(shí)情況并非如此。

想象一下，讓電腦診斷疾病或進(jìn)行商務(wù)談判。卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士生諾姆·布朗（Noam Brown）表示:“大多數(shù)現(xiàn)實(shí)世界的戰(zhàn)略互動都涉及隱性信息，我覺得這被大多數(shù)AI社區(qū)忽視了。”

布朗擅長的撲克為AI提供了不同的挑戰(zhàn)，因?yàn)槟憧床坏綄κ值呐啤５谶@個(gè)領(lǐng)域，通過與自己競爭來學(xué)習(xí)的機(jī)器現(xiàn)在也達(dá)到了超人的水平。2017年1月份，布朗及其導(dǎo)師托馬斯·桑德霍爾姆（Tuomas Sandholm）創(chuàng)建了名為“Libratus”的項(xiàng)目，在20天的比賽結(jié)束后，他們在競爭對手的領(lǐng)先優(yōu)勢下，以超過170萬美元的優(yōu)勢擊敗了4名職業(yè)撲克選手。

另一款更讓人望而生畏的游戲是《星際爭霸2》（StarCraft II），這是一款擁有大量粉絲的多人在線視頻游戲。玩家選擇一個(gè)團(tuán)隊(duì)組建軍隊(duì)，并在科幻場景中發(fā)動戰(zhàn)爭。但戰(zhàn)爭場景籠罩在迷霧中，只有玩家才能看到他們有士兵或建筑的地方。即使是對你的對手進(jìn)行偵察，這個(gè)過程也充滿了不確定性。

這是一款A(yù)I仍然不能徹底掌控的游戲。影響其成功的障礙包括在一場游戲中動作的絕對數(shù)量，通常可能會達(dá)到成千上萬個(gè)。每個(gè)玩家（無論人類還是機(jī)器）都需要擔(dān)心每次點(diǎn)擊可能帶來的無數(shù)后果。就目前而言，AI還無法在這一領(lǐng)域與頂級人類玩家進(jìn)行針鋒相對的抗衡，但這是一個(gè)目標(biāo)。在2017年8月份，DeepMind與開發(fā)《星際爭霸2》的暴雪娛樂公司合作，發(fā)布了他們所謂幫助AI研究人員征服游戲的工具。

盡管面臨挑戰(zhàn)，《星際爭霸2》的目標(biāo)仍然十分明確，那就是消滅敵人。這是它與國際象棋、圍棋、撲克、《dota 2》以及其他所有游戲的共同之處。在游戲中，你可以贏得勝利。從算法的角度來看，所有問題都需要有個(gè)“目標(biāo)函數(shù)”，即需要尋找的目標(biāo)。當(dāng)AlphaZero下棋時(shí)，這并不太難。AlphaZero的目標(biāo)函數(shù)是將分?jǐn)?shù)最大化，而撲克機(jī)器人的目標(biāo)函數(shù)也很簡單，就是贏更多錢。

然而現(xiàn)實(shí)生活中的情況并不那么簡單。舉例來說，無人駕駛汽車需要一個(gè)更微妙的目標(biāo)函數(shù)，類似于你對精靈解釋自己愿望時(shí)的那種謹(jǐn)慎措辭。比如：及時(shí)將乘客送到正確的目的地，遵守一切法律，在危險(xiǎn)和不確定的情況下適當(dāng)?shù)睾饬咳祟惖纳鼉r(jià)值。多明戈斯說，研究人員如何制定目標(biāo)函數(shù)，這是“將一個(gè)偉大的機(jī)器學(xué)習(xí)研究者與一般的機(jī)器學(xué)習(xí)研究者區(qū)分開來的東西之一。”

想想微軟在2016年3月23日發(fā)布的Twitter聊天機(jī)器人Tay，Tay的目標(biāo)是讓人們參與進(jìn)來，它做到了。多明戈斯稱：“不幸的是，Tay發(fā)現(xiàn)：吸引人們最大化參與的最好方法就是宣泄種族主義言論。”在上線不到一天的時(shí)間內(nèi)，它就被緊急召回。

有些事情并沒有改變，今天主要的游戲機(jī)器人采用的方法依然采用了幾十年前設(shè)計(jì)的策略。多倫多大學(xué)計(jì)算機(jī)科學(xué)家戴維·杜文多（David Duvenaud）說:“這幾乎是過去技術(shù)的爆發(fā)，只是增加了更多的計(jì)算。”

這些策略通常依賴于強(qiáng)化學(xué)習(xí)，一種不干涉的AI技術(shù)。工程師讓機(jī)器探索一個(gè)環(huán)境，并通過不斷的嘗試和錯(cuò)誤來學(xué)習(xí)如何實(shí)現(xiàn)目標(biāo)，而不是用詳細(xì)的指令對算法進(jìn)行微觀管理。在AlphaGo和它的子代發(fā)布之前，DeepMind團(tuán)隊(duì)曾在2013年取得了第一個(gè)巨大的、引人注目的成就，當(dāng)時(shí)他們使用強(qiáng)化學(xué)習(xí)技術(shù)讓一個(gè)機(jī)器人學(xué)會掌控7款A(yù)tari 2600游戲，其中3款達(dá)到專家級別。

這一進(jìn)程仍在繼續(xù)。2月5日，DeepMind發(fā)布了Impala，可以學(xué)習(xí)57款A(yù)tari游戲的AI系統(tǒng)，另外還有30個(gè)由DeepMind在三維空間中構(gòu)建的任務(wù)。在這些游戲中，玩家可以在不同的環(huán)境中漫游，執(zhí)行像打開門或收獲蘑菇這樣的任務(wù)。Impala似乎可以在任務(wù)之間傳遞知識，這意味著花在玩一款游戲上的時(shí)間也能幫助它在其他方面有所提高。

但在更大范圍內(nèi)的強(qiáng)化學(xué)習(xí)，棋盤游戲和多人游戲允許玩家采用更具體的方法。在這里，探索可以采取自我啟發(fā)的形式，在這種情況下，一種算法可以通過不斷地與自己的副本角力，從而獲得戰(zhàn)略優(yōu)勢。

這個(gè)想法可以追溯到幾十年前。在20世紀(jì)50年代，一位名叫亞瑟·塞繆爾（Arthur Samuel）的IBM工程師創(chuàng)建了一個(gè)棋盤游戲程序，該程序是通過將字母與測試方相匹配來學(xué)習(xí)的。在20世紀(jì)90年代，來自IBM的杰拉爾德·特索羅（Gerald Tesauro）開發(fā)出西洋雙陸棋程序，使算法與自身對戰(zhàn)。這個(gè)程序最終達(dá)到了人類專家的水平，設(shè)計(jì)出了非正統(tǒng)但十分有效的策略。

在游戲迭代中，使用“自我啟發(fā)”系統(tǒng)的算法面對同樣相匹配的對手。這意味著策略的改變會導(dǎo)致不同的結(jié)果，從而使算法得到即時(shí)的反饋。OpenAI的研究主管伊爾亞·蘇茨克維爾（Ilya Sutskever）說：“任何時(shí)候你學(xué)到新東西，只要你發(fā)現(xiàn)了一件小事情，你的對手就會立即用它來對付你。”

蘇茨克維爾和美國連續(xù)創(chuàng)業(yè)家伊隆·馬斯克（Elon Musk）共同創(chuàng)立了非營利組織OpenAI，致力于開發(fā)和分享AI技術(shù)，并將其引導(dǎo)到安全的應(yīng)用領(lǐng)域。2017年8月，該組織發(fā)布了《Dota 2》機(jī)器人，控制角色Shadow Fiend（惡魔巫師），并在一對一的戰(zhàn)斗中擊敗了世界上最好的玩家。另一個(gè)OpenAI項(xiàng)目是在相撲比賽中模擬人類互相攻擊，最后它們教自己如何格擋和發(fā)動佯攻。蘇茨克維爾稱，在“自我啟發(fā)”的過程中，你永遠(yuǎn)不能休息，必須不斷進(jìn)步。

但是，“自我啟發(fā)”的舊觀念只是當(dāng)今主流機(jī)器人的一個(gè)組成部分，它還需要一種方式將他們的游戲體驗(yàn)轉(zhuǎn)化為更深層次的理解。國際象棋、圍棋以及像《Dota 2》這樣的視頻游戲，可能性甚至比宇宙中的原子排列方式更多。即使是在整個(gè)生命過程中，機(jī)器與自己的影子進(jìn)行無數(shù)場虛擬競技戰(zhàn)斗，它也不可能碰到每個(gè)場景，并把它記錄下來，以便當(dāng)它再次看到同樣的情況時(shí)，有記錄可查。

加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)家皮特·阿貝爾（Pieter Abbeel）說，要想在這種擁有無數(shù)可能性的海洋中生存，你需要泛化，并捕捉本質(zhì)。IBM的深藍(lán)電腦用其內(nèi)置的國際象棋公式做到了這一點(diǎn)。在有能力評估以前從未見過的棋路后，它可以采取行動和策略來增加獲勝的機(jī)會。然而，近年來，一項(xiàng)新技術(shù)使我們可以完全跳過這個(gè)公式。阿貝爾稱：“現(xiàn)在，突然之間，‘深網(wǎng)’就抓住了這一切。”

在過去的幾年里，深度神經(jīng)網(wǎng)絡(luò)的人氣飆升，它是由一層層的人造“神經(jīng)元”構(gòu)成的，就像煎餅一樣。當(dāng)一層神經(jīng)元放電時(shí)，它們會將信號發(fā)送到下一層，以此類推。通過調(diào)整層與層之間的連接方式，這些網(wǎng)絡(luò)在將輸入轉(zhuǎn)化為相關(guān)輸出時(shí)變得非常棒，即使連接看起來顯得十分抽象。

舉例來說，給它們一個(gè)英語短語，它們可以訓(xùn)練自己把它翻譯成土耳其語。給它們一個(gè)動物收容所的照片，它們就能辨認(rèn)出哪些是貓。或者向它們展示一個(gè)游戲板，它們可以知道自己獲勝的概率有多大。但是，通常情況下，你需要首先給這些網(wǎng)絡(luò)大量的標(biāo)記示例來進(jìn)行訓(xùn)練和實(shí)踐。

這就是為什么“自我啟發(fā)”系統(tǒng)和深層神經(jīng)網(wǎng)絡(luò)如此契合的原因。“自我啟發(fā)”能產(chǎn)生大量的游戲，使深層神經(jīng)網(wǎng)絡(luò)在理論上可以無限地提供它們需要自學(xué)的數(shù)據(jù)。反過來，深層神經(jīng)網(wǎng)絡(luò)提供了一種方法來內(nèi)化“自我啟發(fā)”過程中遇到的經(jīng)驗(yàn)和模式。但是這其中有一個(gè)問題。對于“自我啟發(fā)”系統(tǒng)來說，要想產(chǎn)生有用的數(shù)據(jù)，它們需要一個(gè)更現(xiàn)實(shí)的地方來玩。

加州大學(xué)伯克利分校的博士生切爾西·芬恩（Chelsea Finn）說：“所有這些游戲，所有這些結(jié)果，都是在你可以完美模擬世界的環(huán)境中進(jìn)行的。”芬恩曾使用AI控制機(jī)器人手臂，并從傳感器中解讀數(shù)據(jù)。其他領(lǐng)域并不那么容易被模仿。

例如，無人駕駛汽車在應(yīng)對惡劣天氣或騎單車者時(shí)遇到了困難。或者，它們可能無法捕捉到真實(shí)數(shù)據(jù)中出現(xiàn)的奇異可能性，比如恰好有鳥飛過擋住了汽車攝像頭。芬恩說，對于機(jī)器人手臂來說，最初的模擬提供了基礎(chǔ)物理學(xué)，讓手臂至少學(xué)會了如何學(xué)習(xí)。但是，他們沒有捕捉到接觸表面的細(xì)節(jié)，這意味著像擰開瓶蓋或進(jìn)行復(fù)雜外科手術(shù)的任務(wù)也需要現(xiàn)實(shí)世界的經(jīng)驗(yàn)。

對于那些難以模擬的問題，“自我啟發(fā)”系統(tǒng)并不是很有用。蒙特利爾大學(xué)深度學(xué)習(xí)先驅(qū)約書亞·本吉奧（Yoshua Bengio）在電子郵件中寫道:“在真正完美的環(huán)境模型和學(xué)習(xí)環(huán)境之間存在著巨大的差異，尤其是當(dāng)這個(gè)現(xiàn)實(shí)足夠復(fù)雜的時(shí)候。”但這仍然讓AI研究人員有辦法繼續(xù)前進(jìn)。

很難確定AI何時(shí)能取得游戲霸主地位。你可以選擇卡斯帕羅夫在國際象棋中的失利，或者李世石敗給虛擬對手AlphaGo。另一個(gè)流行的選擇是，2011年美國智力游戲《危險(xiǎn)邊緣》（Jeopardy）冠軍肯·詹寧斯（Ken Jennings）輸給了IBM電腦沃森（Watson）。沃森可以解析游戲的線索，處理文字游戲。兩天的比賽還沒有結(jié)束，詹寧斯就寫道：“首先，我歡迎我們的新電腦霸主。”

沃森似乎被賦予了人類在許多現(xiàn)實(shí)問題上所使用的文書技能。它可以用英語提示，以閃電般的速度翻查相關(guān)文件，找到相關(guān)的信息片段，并找到一個(gè)最好的答案。但七年后，現(xiàn)實(shí)世界繼續(xù)對AI提出了嚴(yán)峻的挑戰(zhàn)。2017年9月份健康雜志《Stat》發(fā)布的報(bào)告顯示，作為沃森腫瘤研究計(jì)劃(Watson for Oncology)的目標(biāo)，研究和設(shè)計(jì)個(gè)性化的癌癥治療方案非常困難。

當(dāng)被要求從AI的角度來比較上述兩種情況時(shí)，本吉奧寫道：“《危險(xiǎn)邊緣》中的問題更容易理解，因?yàn)樗鼈儾恍枰嗟某ＷR。而理解一篇醫(yī)學(xué)文章要難得多。同樣，需要進(jìn)行很多基礎(chǔ)研究。”

盡管游戲很特別，但仍然存在一些類似的現(xiàn)實(shí)問題。DeepMind的研究人員拒絕接受采訪，理由是他們的AlphaZero目前正在接受同行評審。但該研究團(tuán)隊(duì)已經(jīng)表示，它的技術(shù)可能很快就能幫助生物醫(yī)學(xué)研究者，后者想要更多了解蛋白質(zhì)的折疊。

為了做到這一點(diǎn)，他們需要弄清楚組成蛋白質(zhì)扭結(jié)的各種氨基酸是如何折疊成小三維機(jī)器的，其功能取決于它的形狀。這在國際象棋中同樣十分棘手，化學(xué)家們很清楚地知道規(guī)則，可以計(jì)算出特定的場景，但是仍然有很多可能的配置方案，想要了解所有可能性幾乎是不可能的。

但是如果蛋白質(zhì)折疊可以被配置成游戲呢？事實(shí)上，它已經(jīng)存在了。自2008年以來，成千上萬的人類玩家嘗試過在線游戲《Foldit》，用戶可以在其折疊的蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定性和可行性上得分。機(jī)器可以以類似的方式訓(xùn)練自己，也許通過嘗試通用強(qiáng)化學(xué)習(xí)來擊敗它之前的最好成績。

蘇茨克維爾認(rèn)為，強(qiáng)化學(xué)習(xí)和“自我啟發(fā)”也有助于訓(xùn)練對話系統(tǒng)。這將使機(jī)器人能夠通過自言自語的方式進(jìn)行訓(xùn)練，并實(shí)現(xiàn)與人類對話。考慮到專業(yè)的AI硬件正變得越來越快、越來越普及，工程師們將會有動力以游戲的形式提出越來越多的問題。蘇茨克維爾說:“我認(rèn)為，將來自我啟發(fā)和其他消耗大量計(jì)算能力的方式將變得越來越重要。”

但是，如果最終的目標(biāo)是讓機(jī)器盡可能多地完成任務(wù)，即使是自學(xué)成才、通才的棋盤游戲冠軍，比如AlphaZero，也可能有辦法實(shí)現(xiàn)。麻省理工學(xué)院認(rèn)知科學(xué)家喬希·特南鮑姆（Josh Tenenbaum）說:“至少在我看來，你必須看到，真正的思維活動、創(chuàng)造性的思想探索以及我們目前在AI領(lǐng)域所看到的東西之間存在著巨大的鴻溝。這種智能是存在的，但它主要發(fā)生在偉大的AI研究人員的頭腦中。”

谷歌深度學(xué)習(xí)研究員弗朗索瓦·喬萊（Francois Chollet）說：“我要保持小心，不要過高估計(jì)玩這些游戲的重要性，不管是AI還是普通工作。人類不是很擅長游戲，但要記住，非常簡單的專業(yè)工具實(shí)際上可以實(shí)現(xiàn)很多目標(biāo)。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
35041

瀏覽量
279177
人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
48987

瀏覽量
249099

原文標(biāo)題：AI可以在游戲里稱霸，但是解決現(xiàn)實(shí)問題太難了

文章出處：【微信號：AItists，微信公眾號：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

AI能游戲里稱霸,但是如何解決現(xiàn)實(shí)問題還是個(gè)難題

評論