女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AlphaZero一舉登上《科學》雜志封面

jmiy_worldofai ? 來源:lq ? 2018-12-10 14:48 ? 次閱讀

年前,Alphabet 旗下人工智能部門 DeepMind 發布 AlphaZero,稱它可以自學國際象棋、日本將棋和中國圍棋,并且項項都能擊敗世界冠軍。而今天,經過同行評議,AlphaZero 一舉登上《科學》雜志封面。

據此前 DeepMind 在 AlphaZero 的論文中介紹,AlphaZero 使用了完全無需人工特征、無需任何人類棋譜、甚至無需任何特定優化的通用強化學習算法。也就是說,AlphaZero 實質上就是 AlphaGo Zero 的通用化進化版本,它繼續保持了 AlphaGo Zero 中不需要人工特征、利用深度神經網絡從零開始進行強化學習、結合蒙特卡洛樹搜索的特點,并在此基礎上,更新網絡參數,減小網絡估計的比賽結果和實際結果之間的誤差,同時最大化策略網絡輸出動作和蒙特卡洛樹搜索可能性之間的相似度。

然而,在 DeepMind 發布 AlphaZero 之際,AlphaZero 也遭到了某種程度的質疑,例如,一位 AI 研究人員就指出,DeepMind 沒有公開它的 AI 系統源代碼,因此難以檢驗和重復它公布的結果。而如今這項研究成果經過同行評議登上《科學》雜志的首頁,算是得到了證明。有趣的是,AlphaZero 的直接對手——棋手們也紛紛表達了他們的贊許:

例如日本將棋 9 段職業選手、棋史上唯一一位獲得「永世七冠」頭銜的棋士 Yoshiharu Habu 就評價道:

它的一些移動方法,比如將 King 移到棋盤的中心,就違背了日本將棋棋法。從人類的角度來看,AlphaZero 的這種做法似乎已將其置于危險的境地,但令人難以置信的是,它仍然掌控住了棋局。它獨特的下棋風格,讓我們看到了棋法新的可能性。

而前國際象棋世界冠軍 Garry Kasparov 也止不住地稱贊道:

我無法掩飾我的贊許,因為它的下棋風格靈活多變,這跟我自己的風格很像!

一個多世紀以來,象棋一直被用作人類和機器認知的羅塞塔石碑。AlphaZero 以一種獨特的方式,對古代棋盤游戲與前沿科學之間的顯著聯系帶來了新的東西。

其影響遠遠超出了我心愛的棋盤。這些自學成才的專家機器不僅表現得無比出色,而且實際上,我們人類還可以從它們產出的新知識中學習。

正如我們在前面提到的,AlphaZero 是 AlphaGo Zero 的通用化進化版本,而 AlphaGo Zero 又源自于 AlphaGo,接下來我們不妨簡單回顧一下這幾個版本:

最初的 AlphaGo 的工作原理是:

在蒙特卡羅樹搜索(MCTS)的框架下引入兩個卷積神經網絡策略網絡和價值網絡以改進純隨機的蒙特卡羅(Monte Carlo)模擬,并借助監督學習和強化學習訓練這兩個網絡,然后主要靠策略網絡和價值網絡分別預測下一步落子的點以及評估當前的局勢。

而從 AlphaGo 到 AlphaGo Zero,系統的思路和模型結構都得到了大幅度簡化,帶來的是更快的訓練和運行速度,以及更高的棋力。

在更早版本的 AlphaGo 中,策略網絡和價值網絡是兩個不同的深度神經網絡,Zero 版本中是同一個 ResNet 的兩組輸出;

AlphaGo Zero 之前幾個版本中都需要先把局面轉換為高一層的人工特征再作為網絡的輸入、需要先學習人類棋譜再轉變到自我對弈的強化學習、有一個單獨的快速走子網絡進行隨機模擬,而 AlphaGo Zero 則把局面落子情況直接作為網絡的輸入、由隨機的網絡權值直接開始強化學習、舍棄快速走子網絡直接用主要的神經網絡模擬走子。

接著從 AlphaGo Zero 到 AlphaZero,發生的變化主要體現在如下幾個方面:

第一,AlphaGo Zero 會預計勝率,然后優化勝率,其中只考慮勝、負兩種結果;AlphaZero 則會估計比賽結果,然后優化達到預計的結果的概率,其中包含了平局甚至別的一些可能的結果。

第二,由于圍棋規則是具有旋轉和鏡像不變性的,所以專為圍棋設計的 AlphaGo Zero 和通用的 AlphaZero 就有不同的實現方法。AlphaGo Zero 訓練中會為每個棋局做 8 個對稱的增強數據;并且在蒙特卡洛樹搜索中,棋局會先經過隨機的旋轉或者鏡像變換之后再交給神經網絡評估,這樣蒙特卡洛評估就可以在不同的偏向之間得到平均。國際象棋和日本象棋都是不對稱的,以上基于對稱性的方法就不能用了。所以 AlphaZero 并不增強訓練數據,也不會在蒙特卡洛樹搜索中變換棋局。

第三,在 AlphaGo Zero 中,自我對局的棋局是由所有之前的迭代過程中出現的表現最好的一個版本生成的。在每一次訓練迭代之后,新版本棋手的表現都要跟原先的表現最好的版本做對比;如果新的版本能以超過 55% 的勝率贏過原先版本,那么這個新的版本就會成為新的「表現最好的版本」,然后用它生成新的棋局供后續的迭代優化使用。相比之下,AlphaZero 始終都只有一個持續優化的神經網絡,自我對局的棋局也就是由具有最新參數的網絡生成的,不再像原來那樣等待出現一個「表現最好的版本」之后再評估和迭代。這實際上增大了訓練出一個不好的結果的風險。

第四,AlphaGo Zero 中搜索部分的超參數是通過貝葉斯優化得到的。AlphaZero 中直接對所有的棋類使用了同一套超參數,不再對每種不同的棋做單獨的調節。唯一的例外在于訓練中加在先前版本策略上的噪聲的大小,這是為了保證網絡有足夠的探索能力;噪聲的大小根據每種棋類的典型可行動作數目做了成比例的縮放。

將 AlphaGo 發展到 Alpha Zero,DeepMind 無疑是帶給了我們驚喜的。使用人工特征的 AlphaGo Fan 在出山之戰中便全勝打敗樊麾,還發出第一篇論文;運行在 50 塊 TPU 上的 AlphaGo Lee 以 4:1 的戰績擊敗李世石,還創作了紀錄片并上映;接著只用 4 塊 TPU 的 AlphaGo Master 又在烏鎮圍棋峰會上以 3:0 擊敗柯潔,打碎了人類所有擊敗 AlphaGo 幻想;再又有拋棄人工特征和所有人類高手棋局的 AlphaGo Zero 靠自學成功超越了「前輩」AlphaGo Master。而現在,DeepMind 帶來的這個更通用的、能下各種棋類的、而且在圍棋中的表現更上一層樓的通用強化學習模型——「AlphaZero」,則給我們帶來了更上一層的驚喜。

正如此前對AlphaZero 的報道中所總結的那樣:在 AlphaGo 的一路進化中,我們見證了 DeepMind 的工程師們對深度強化學習本質的思考和嘗試,也看到了不斷的優化中帶來的無需先驗知識、降低資源消耗、提高訓練速度等等可喜的技術進步。而本次 AlphaZero 登上《科學》雜志封面,也算是對他們所作出的嘗試和帶來的技術進步的一種回應。接下來DeepMind 還將讓Alpha Zero 進化到什么哪個版本呢?讓我們期待一下吧~

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4806

    瀏覽量

    102717
  • 人工智能
    +關注

    關注

    1804

    文章

    48677

    瀏覽量

    246244
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    11355

原文標題:AlphaZero 榮登《科學》雜志封面

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    天馬榮獲新財富雜志“2024 ESG最佳實踐獎”

    天馬可持續發展?ESG表現再獲認可,上榜2024年新財富雜志最佳上市公司評選“ESG最佳實踐榜單”。
    的頭像 發表于 05-21 14:43 ?204次閱讀

    賽思×三峽集團 | 雙北斗時鐘同步改造方案,筑牢三峽工程北斗授時安全防線

    GPS與北斗混合授時安全隱患重重?賽思雙北斗時鐘同步改造方案一舉搞定!
    的頭像 發表于 04-18 10:58 ?174次閱讀
    賽思×三峽集團 | 雙北斗時鐘同步改造方案,筑牢三峽工程北斗授時安全防線

    曦智科技時隔八年再登《Nature》,光電混合計算架構首次公開

    accelerator with ultralow latency)。這是自八年前曦智科技創始人沈亦晨博士于《自然·光子學》雜志發表封面文章《由納米光學回路實現的深度學習》(Deep
    發表于 04-10 09:50 ?266次閱讀
     曦智科技時隔八年再登《Nature》,光電混合計算架構首次公開

    宏景智駕斬獲汽車行業兩項重磅獎項

    近日,宏景智駕憑借卓越的技術實力和積極的生態合作,一舉斬獲行業內兩項重磅獎項!
    的頭像 發表于 02-25 16:54 ?404次閱讀

    Science封面:新型物質,既可是流體又可是固體

    副標題:3D多鏈結構化材料? 不多說,直接上封面圖。 ? 看完封面,各位讀者應該就會明白這種由美國加州理工學院Chiara Daraio、Wenjie Zhou及勞倫斯·利弗莫爾國家實驗室
    的頭像 發表于 02-08 09:43 ?338次閱讀
    Science<b class='flag-5'>封面</b>:新型物質,既可是流體又可是固體

    兩大AI模型性能提升 登上國際榜單

    近日,由盛大AI團隊研發的模型Watt-tool-70B和Newsbang/homer-72B,登上國際知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt團隊研發的旗艦模型
    的頭像 發表于 01-16 12:01 ?748次閱讀
    兩大AI模型性能提升 <b class='flag-5'>登上</b>國際榜單

    AN84-線性技術雜志電路集,第卷第四集

    電子發燒友網站提供《AN84-線性技術雜志電路集,第卷第四集.pdf》資料免費下載
    發表于 01-09 14:21 ?0次下載
    AN84-線性技術<b class='flag-5'>雜志</b>電路集,第<b class='flag-5'>一</b>卷第四集

    玻色量子亮相2024年《國家科學評論》物理與信息科學前沿論壇

    此前,2024年11月22至24日,由《中國科學雜志社、南方科技大學、鵬城實驗室主辦,南方科技大學物理系、計算機科學與工程系承辦,粵港澳大灣區(廣東)量子科學中心協辦的2024年《國
    的頭像 發表于 11-28 09:48 ?575次閱讀

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    幸得好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅動科學創新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第章人工智能驅動的科學創新學習心得

    周末收到本新書,非常高興,也非常感謝平臺提供閱讀機會。 這是本挺好的書,包裝精美,內容詳實,干活滿滿。 《AI for Science:人工智能驅動科學創新》這本書的第章,作為整
    發表于 10-14 09:12

    是否能將libwebsokets移植到ESP8266上利用libwebsokets進行網絡應用開發?

    使用 lwip開源協議棧,在實現相關的API時是否已經將 libwebsoket融入,如果已經融入,那我做的移植將是多此一舉
    發表于 07-22 06:22

    EVASH Ultra EEPROM:被美國權威雜志評為優秀硬件存儲廠商

    EVASH Ultra EEPROM:被美國權威雜志評為優秀硬件存儲廠商
    的頭像 發表于 07-01 12:53 ?581次閱讀

    科學家研制出款新型柔性X射線探測器

    更低,有望在癌癥治療、機場掃描等領域大顯身手。相關論文發表于最新期《先進科學雜志。 如今市場上的大多數X射線探測器都由硅或鍺等剛性材料制成,這就導致它們笨重、堅硬、耗能高。而且,如果需要覆蓋大面積的話,探
    的頭像 發表于 06-13 06:29 ?563次閱讀

    清華類腦視覺芯片取得重大突破,“天眸芯”登上Nature封面

    電子發燒友網報道(文/李寧遠)5月30日,來自清華大學類腦計算研究中心團隊的類腦互補視覺芯片“天眸芯”登上了《Nature》封面。 文章名為“A vision chip
    的頭像 發表于 06-01 00:54 ?5467次閱讀
    清華類腦視覺芯片取得重大突破,“天眸芯”<b class='flag-5'>登上</b>Nature<b class='flag-5'>封面</b>