女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS首屆多智能體競賽,中國團(tuán)隊展現(xiàn)世界實力

DPVg_AI_era ? 來源:lq ? 2018-12-25 09:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

同隊炸彈人聯(lián)手,在對手的兩側(cè)放炸彈圍堵,將其困在中間地帶后摧毀對手

由谷歌大腦、Facebook、牛津大學(xué)和NYU等聯(lián)合舉辦的NeurIPS首屆多智能體競賽中,中國團(tuán)隊取得Learning組冠軍。基于啟元智能決策平臺訓(xùn)練的獲勝智能體,訓(xùn)練過程沒有人工干預(yù),體現(xiàn)了自動調(diào)參體系的有效性和魯棒性,以及強(qiáng)化學(xué)習(xí)技術(shù)的價值。

近日,國際人工智能頂級大會NeurIPS2018順利落幕。8000多位來自全世界的人工智能研究人員齊聚加拿大蒙特利爾,討論分享過去一年全世界在人工智能的各個領(lǐng)域的最新進(jìn)展。

該會議舉辦了一系列競賽來鼓勵學(xué)術(shù)界和工業(yè)界一起解決最有挑戰(zhàn)性的人工智能難題。作為人工智能領(lǐng)域歷史最悠久的學(xué)術(shù)會議之一,會議成果被視作人工智能領(lǐng)域的研究“風(fēng)向標(biāo)”。

NeurIPS首屆多智能體競賽,中國團(tuán)隊展現(xiàn)世界實力

其中,由谷歌大腦、Facebook、牛津大學(xué)及在游戲AI界久負(fù)盛名的紐約大學(xué)等機(jī)構(gòu)聯(lián)合舉辦多智能體競賽——炸彈人團(tuán)隊賽(The NeurIPS 2018 Pommerman Competition)尤其引人矚目。

多智能體競賽-炸彈人團(tuán)隊賽

來自中國啟元世界的彭鵬博士、中科院計算所助理研究員龐亮博士和北師大的袁鈺峰組成的賽隊,與美國、歐洲、日本、中國的24支一流隊伍進(jìn)行了激烈角逐。

最終,基于啟元決策智能平臺訓(xùn)練的Navocado雙智能體能力穩(wěn)定提升,奪得了Learning組冠軍,展現(xiàn)了來自中國的決策智能團(tuán)隊具備的世界級技術(shù)實力。

啟元世界是一家2017年成立的以認(rèn)知決策智能技術(shù)為核心的公司,由前阿里、Netflix、IBM的科學(xué)家和高管發(fā)起,并擁有伯克利、CMU等知名機(jī)構(gòu)的特聘顧問。團(tuán)隊核心能力以深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、超大規(guī)模并行計算為基礎(chǔ),擁有互聯(lián)網(wǎng)、游戲等眾多領(lǐng)域的成功經(jīng)驗。

炸彈人游戲:考驗多智能體協(xié)作、非完全信息博弈、持續(xù)學(xué)習(xí)等關(guān)鍵技能

決策智能目前是一個世界級的技術(shù)難題,決策過程也是人腦中最復(fù)雜的一種功能。

由于在游戲、交通、電力等領(lǐng)域具備極大的應(yīng)用前景,決策智能近年也成為全球人工智能研究的熱點,DeepMind、Facebook、OpenAI、微軟、亞馬遜科技巨頭都成立了實驗室進(jìn)行相關(guān)研究。

相較于單智能體,多智能體博弈的難度更是指數(shù)級增加。此次NeurIPS多智能體競賽是NeurIPS會議上首次開設(shè)多智能體競賽,將多智能體協(xié)作、非完全信息博弈,以及持續(xù)學(xué)習(xí)等關(guān)鍵問題濃縮到《炸彈人》這款游戲中,鼓勵全世界優(yōu)秀的研發(fā)人員一起參加解決技術(shù)挑戰(zhàn)。

競賽采用激烈雙淘汰機(jī)制 (Double Elimination),25支參賽隊分別提供2個智能體參加2v2對抗賽。參賽隊伍的每個智能體初始都被困在一個封閉的區(qū)間中,智能體只有炸開附近的木箱才能進(jìn)去其他區(qū)域。在幾乎所有障礙物都被清理干凈后,智能體進(jìn)入到對抗階段,所有智能體都可以自由地在全局活動,這個階段智能體的主要目標(biāo)就是炸掉對手。

炸彈人學(xué)會準(zhǔn)確炸箱子,并且通過最短路徑尋路吃增強(qiáng)藥

競賽過程中智能體需要完成的任務(wù)包括:

1)清除障礙物,

2)躲避自己的炸彈火焰(智能體處于封閉區(qū)域),

3)收集裝備,

4)躲避自己和其他人的炸彈火焰(智能體相互對抗階段),

5)放炸彈殺死對手,

6)避免放炸彈殺死隊友。

整個過程,對智能體有效甄別和提取有效信息,同時對未知信息進(jìn)行推理和假設(shè),以及多智能體協(xié)作都提出了很高的技術(shù)要求。

炸彈人主動將炸彈朝對手方向踢出,精確擊潰對手

每個賽隊線下有2個月的時間進(jìn)行模型訓(xùn)練。最終,基于啟元決策智能平臺訓(xùn)練的Navocado戰(zhàn)勝了來自加拿大的Skynet,拿下Learning組冠軍。Skynet的團(tuán)隊來自加拿大近百人規(guī)模的科技公司Borealis.ai。

獲勝關(guān)鍵:分階段自適應(yīng)調(diào)參與獎勵塑性

從對戰(zhàn)過程來看,啟元的Navocado智能體的主動進(jìn)攻能力明顯強(qiáng)于對手。

從Skynet在官網(wǎng)公開的實現(xiàn)方案來看,Skynet模型在決策過程中加入了很多人工干預(yù)(比如限制炸彈人不能往火焰里走),這和Navocado模型在整個訓(xùn)練和決策過程中不加人工干預(yù)、自主學(xué)會各項技能的方式也有較大的差距。

NeurIPS多智能體競賽終局:第600步(視頻中最下欄顯示),Navocado控制的一個炸彈人(黑色臉譜)在最正確的時機(jī)使用踢炸彈的方式將Skynet的一個炸彈人(白色臉譜)炸死。來源:啟元世界

視頻中展示的是Navocado和Skynet爭奪學(xué)習(xí)組冠軍的最后一戰(zhàn)。其中,兩個黑色臉譜的炸彈人屬于Navocado,而兩個白色臉譜的炸彈人屬于Skynet。

從視頻中可以看到,Navocado能夠在不產(chǎn)生多余步數(shù)的情況下,準(zhǔn)確地炸開木箱和收集裝備,而Skynet在這兩方面就做不太好。這也是這局比賽后期Navocado能夠占據(jù)主導(dǎo)的原因。

在第600步(視頻中最下欄顯示),Navocado控制的一個炸彈人在最正確的時機(jī)使用踢炸彈,將Skynet的一個炸彈人炸死。在視頻最后,Navocado控制的另一個炸彈人,同樣通過踢炸彈的方式終結(jié)對手。

Navocado的內(nèi)核模型是A2C,但是其最大的亮點在分階段自適應(yīng)調(diào)參和獎勵塑型的過程。由于問題的復(fù)雜性,普通的訓(xùn)練方式很難滿足Navocado長期成長的需求。

Navocado團(tuán)隊介紹,他們的設(shè)計主要基于元學(xué)習(xí)的思想,將超參搜索 (Hyperparameter Search) 的過程由人工調(diào)參轉(zhuǎn)變?yōu)樽詣诱{(diào)參。這一技術(shù)在AlphaGo的調(diào)優(yōu)過程和Google的AutoML系統(tǒng)中都明顯的體現(xiàn)。

傳統(tǒng)的超參搜索主要有兩種模式:并行搜索和序列化搜索。其中,并行化搜索對計算量要求高,而且效率并不出眾;而序列化搜索則更是需要大量的人工干預(yù),優(yōu)化效果并不穩(wěn)定。

但是,在Navocado的訓(xùn)練過程中,團(tuán)隊通過基于群體競技的方式找出最優(yōu)的超參,從提高算力使用效率和減少人工干預(yù)的角度。

Navocado智能體持續(xù)訓(xùn)練過程中的效果提升曲線

technical report的鏈接: https://arxiv.org/abs/1812.07297

啟元智能決策平臺,體現(xiàn)強(qiáng)化學(xué)習(xí)技術(shù)價值

強(qiáng)化學(xué)習(xí)作為決策智能的核心技術(shù),也是極具挑戰(zhàn)的一種機(jī)器學(xué)習(xí)方法。由于強(qiáng)化學(xué)習(xí)涉及到的鏈路很長,而強(qiáng)化學(xué)習(xí)算法本身對超參十分敏感,學(xué)術(shù)界中各人不同的實現(xiàn)或配置,都很容易導(dǎo)致出現(xiàn)訓(xùn)練結(jié)果不可復(fù)現(xiàn)的現(xiàn)象。強(qiáng)化學(xué)習(xí)技術(shù)在可復(fù)現(xiàn)性、可復(fù)用性和魯棒性方面存在著挑戰(zhàn)。

啟元從2017年起打造的決策智能平臺,在這次賽事奪冠的智能體訓(xùn)練中起到了關(guān)鍵作用。啟元決策智能平臺搭建了支持多智能體博弈的基礎(chǔ)架構(gòu),能夠通過競技的方式實現(xiàn)多智能體持續(xù)學(xué)習(xí)的能力。平臺還支持包括自動化資源調(diào)度和自動調(diào)參的元學(xué)習(xí),使得模型訓(xùn)練更加高效。

啟元世界彭鵬博士介紹,“啟元團(tuán)隊對強(qiáng)化學(xué)習(xí)這個領(lǐng)域都很有Passion。這次我們在NeurIPS多智能體競賽奪冠的智能體,在每個階段的訓(xùn)練過程沒有人工干預(yù),學(xué)習(xí)曲線非常漂亮,進(jìn)一步驗證了這套體系的有效性和魯棒性,驗證了強(qiáng)化學(xué)習(xí)技術(shù)的價值。”

在使用啟元決策智能平臺的過程中,賽隊可以快速地調(diào)度所需資源進(jìn)行任務(wù)部署,配置對戰(zhàn)所需的智能體,并且在訓(xùn)練過程實時觀察不同模型的對戰(zhàn)情況和勝率曲線,從而做出最快的調(diào)整。

圖3:啟元決策智能平臺架構(gòu)

在此次NeurIPS多智能體競賽中,啟元決策智能平臺提供了三大助力:

第一,支持智能體持續(xù)學(xué)習(xí)的能力。

持續(xù)學(xué)習(xí)的能力是智能體訓(xùn)練中關(guān)鍵的一環(huán)。在訓(xùn)練階段,炸彈人競賽中的智能體需要在學(xué)習(xí)新技能的過程中保留過去學(xué)會的技能,才能達(dá)到很高的水平。啟元決策智能平臺通過智能體群體匹配競技的方式實現(xiàn)“自然選擇”,從而達(dá)到持續(xù)學(xué)習(xí)的效果。在競技過程中,強(qiáng)者留存,弱者被淘汰。在弱者被淘汰之后,空出來的位置被強(qiáng)者的克隆體代替,而強(qiáng)者的克隆體則根據(jù)新的超參設(shè)定持續(xù)進(jìn)化。在固定計算資源預(yù)算的情況下,啟元決策智能平臺通過這套機(jī)制在探索新強(qiáng)者 (exploration) 和深挖舊強(qiáng)者 (exploitation) 之間平衡對計算資源的使用情況。

第二,支持復(fù)雜場景的多智能體聯(lián)合訓(xùn)練。

在多智能體博弈問題中,不同智能體之間的相互克制較為常見,其收斂可能性極為復(fù)雜。在炸彈人競賽中,不同隊伍的智能體風(fēng)格迥異,有的善攻,有的善守。基于“鯰魚效應(yīng)”的思想(指透過引入強(qiáng)者,激發(fā)弱者變強(qiáng)的效應(yīng)),啟元決策智能平臺在訓(xùn)練初期引入基于規(guī)則的高階對手,激發(fā)初期較弱的智能體在與強(qiáng)者的對決中學(xué)會各種基本技能,迅速提升變強(qiáng);隨著訓(xùn)練階段的深入,啟元決策智能平臺同時訓(xùn)練多個智能體,使其在激烈的相互對抗中完善自我。

第三,支持基于私有云集群的大規(guī)模、高并發(fā)的模擬和大規(guī)模訓(xùn)練。

啟元決策智能平臺將架構(gòu)圖中所示的多個模塊進(jìn)行組件化,并封裝到了容器中。通過云端自動化的方式管理數(shù)百CPU以及GPU資源并實現(xiàn)容器編排,降低了調(diào)度數(shù)十個炸彈人訓(xùn)練任務(wù)的成本。大規(guī)模、高并發(fā)的模擬計算以及大規(guī)模的訓(xùn)練同時在私有云集群中進(jìn)行。另外,啟元決策智能平臺提供分布式存儲方案,并配置成共享模型池,為炸彈人智能體模型群體的持久化和共享提供支持。

啟元決策智能平臺v0.8版本目前已用于游戲、網(wǎng)絡(luò)智能及仿真等場景中。基于為客戶提供的高附加值服務(wù),啟元世界在2018年商業(yè)化上小試牛刀,即已取得不錯的營收。

2019年,啟元世界計劃發(fā)布第一版啟元決策智能平臺型產(chǎn)品,為更多行業(yè)客戶、終端用戶帶去高體驗的服務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49007

    瀏覽量

    249284
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    302

    瀏覽量

    11077
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122783

原文標(biāo)題:NeurIPS首屆多智能體競賽,中國團(tuán)隊獲Learning組冠軍

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中軟國際入選中國信通院AI Agent智能產(chǎn)業(yè)圖譜1.0

    近日,中國信息通信研究院(以下簡稱“中國信通院”)《AI Agent智能產(chǎn)業(yè)圖譜1.0》正式發(fā)布。該圖譜是國內(nèi)系統(tǒng)性梳理智能
    的頭像 發(fā)表于 07-14 14:55 ?280次閱讀

    軟通天擎展現(xiàn)中國工業(yè)AI硬實力

    在第二屆中國中亞峰會召開之際,由中央廣播電視總臺聯(lián)合中亞五國主流媒體合拍的人文紀(jì)錄片《家園》全球同步播出。該片作為峰會框架下的重要合作成果,以“山水相連命運(yùn)與共”為主線,呈現(xiàn)中國與中亞在科技創(chuàng)新等領(lǐng)域的合作成就。片中,軟通天擎作為中國
    的頭像 發(fā)表于 06-24 14:34 ?296次閱讀

    喜報! | 同星智能入選首屆福布斯中國投資價值初創(chuàng)企業(yè)100系列名單

    喜訊!近日,福布斯中國正式發(fā)布“首屆福布斯中國投資價值初創(chuàng)企業(yè)100系列”榜單,同星智能憑借其卓越的技術(shù)創(chuàng)新能力、廣闊的市場前景以及高成長潛力,成功入選該榜單!“
    的頭像 發(fā)表于 04-18 20:03 ?576次閱讀
    喜報! | 同星<b class='flag-5'>智能</b>入選<b class='flag-5'>首屆</b>福布斯<b class='flag-5'>中國</b>投資價值初創(chuàng)企業(yè)100系列名單

    智能仿真中的統(tǒng)一混合模型框架研究

    隨著GPT大語言模型的成功,越來越多的工作嘗試使用類GPT架構(gòu)的離散模型來表征駕駛場景中的交通參與者行為,從而生成智能仿真。這些方法展現(xiàn)出明顯的性能優(yōu)勢,成為Waymo OpenS
    的頭像 發(fā)表于 04-01 14:31 ?311次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>仿真中的統(tǒng)一混合模型框架研究

    研華科技入選信通院智能應(yīng)用案例

    研華“智慧工廠精益生產(chǎn)管理智能”成功入選中國信通院智能應(yīng)用案例,通過零代碼開發(fā)和模態(tài)分析,
    的頭像 發(fā)表于 01-17 10:06 ?684次閱讀

    SynSense時識科技亮相CES,展現(xiàn)類腦智能“芯”實力

    近日,在萬眾矚目的CES展會上,SynSense時識科技及其旗下iniVation作為全球領(lǐng)先的類腦智能企業(yè),榮耀登臺,向全球觀眾展示了其卓越的“芯”實力。 此次參展,SynSense時識科技帶來
    的頭像 發(fā)表于 01-13 15:37 ?673次閱讀

    比亞迪亮相《中國創(chuàng)新科技盛典》

    近日,比亞迪亮相中央廣播電視總臺首屆中國創(chuàng)新科技盛典》(以下簡稱 央視“科晚”),向全球展現(xiàn)中國汽車科技的磅礴力量。
    的頭像 發(fā)表于 12-30 13:58 ?544次閱讀

    中國氣象局推出“中國天氣小助手”智能

    近日,中國氣象局華風(fēng)氣象傳媒集團(tuán)攜手支付寶,正式推出了首個國家級天氣智能——“中國天氣小助手”。這一創(chuàng)新服務(wù)由中國氣象局提供權(quán)威的氣象數(shù)據(jù)
    的頭像 發(fā)表于 12-02 18:06 ?1564次閱讀

    螞蟻數(shù)科與浙大團(tuán)隊榮獲NeurIPS競賽冠軍

    近日,在機(jī)器學(xué)習(xí)領(lǐng)域的頂級國際會議NeurIPS的特設(shè)競賽中,螞蟻數(shù)科旗下的摩斯聯(lián)合浙江大學(xué)計算機(jī)體系結(jié)構(gòu)實驗室陳文智、魏成坤團(tuán)隊組成的“Morse ARCLab”參賽隊伍憑借出色的表現(xiàn),成功在激烈的競爭中脫穎而出,為
    的頭像 發(fā)表于 11-26 10:27 ?878次閱讀

    冠軍說|第二屆OpenHarmony競賽訓(xùn)練營冠軍團(tuán)隊專訪

    在剛剛結(jié)束的第三屆OpenHarmony技術(shù)大會上 今年的OpenHarmony競賽訓(xùn)練營獲獎團(tuán)隊 舉行了星光熠熠的頒獎儀式 10月11日,經(jīng)過激烈的現(xiàn)場決賽角逐共有10個賽隊脫穎而出 其中來自
    發(fā)表于 10-28 17:11

    AMD贊助支FIRST機(jī)器人競賽團(tuán)隊

    AMD 在 2024 賽季贊助了支 FIRST 機(jī)器人競賽團(tuán)隊。FIRST 機(jī)器人競賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機(jī)器人,同時也讓他們有機(jī)會學(xué)習(xí)重要的商業(yè)和時間管理技能、
    的頭像 發(fā)表于 09-18 09:45 ?860次閱讀

    中國科技企業(yè)競相加碼人工智能領(lǐng)域投資,引領(lǐng)未來科技浪潮

    在當(dāng)今全球科技浪潮中,人工智能(AI)作為引領(lǐng)未來發(fā)展的重要引擎,正以前所未有的速度推動著各行各業(yè)的創(chuàng)新與變革。中國,作為世界第二大經(jīng)濟(jì)和科技創(chuàng)新的重要力量,其科技巨頭們在這場AI
    的頭像 發(fā)表于 08-27 16:48 ?770次閱讀

    TE Connectivity AI Cup 第五屆全球競賽結(jié)果揭曉 中國高校團(tuán)隊連續(xù)兩年奪得桂冠

    中國上海 - 2024 年 7 月 31 日 - 近日,由全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡稱“TE”)主辦的TE AI Cup第五屆全球競賽圓滿收官。來自華南農(nóng)業(yè)大學(xué)
    發(fā)表于 08-01 14:39 ?2657次閱讀
    TE Connectivity AI Cup 第五屆全球<b class='flag-5'>競賽</b>結(jié)果揭曉 <b class='flag-5'>中國</b>高校<b class='flag-5'>團(tuán)隊</b>連續(xù)兩年奪得桂冠

    飛貓榮膺世界物聯(lián)網(wǎng)500強(qiáng):引領(lǐng)行業(yè)創(chuàng)新,展現(xiàn)中國實力

    此次獲獎是公司成長歷程中的重要里程碑,也是中國物聯(lián)網(wǎng)行業(yè)整體實力提升的體現(xiàn)。隨著更多中國企業(yè)的加入,中國有望成為全球物聯(lián)網(wǎng)領(lǐng)域的重要領(lǐng)導(dǎo)者,引領(lǐng)行業(yè)創(chuàng)新與發(fā)展新趨勢。
    的頭像 發(fā)表于 08-01 14:18 ?747次閱讀
    飛貓榮膺<b class='flag-5'>世界</b>物聯(lián)網(wǎng)500強(qiáng):引領(lǐng)行業(yè)創(chuàng)新,<b class='flag-5'>展現(xiàn)</b><b class='flag-5'>中國</b><b class='flag-5'>實力</b>

    偉創(chuàng)力蘇州斬獲客戶施耐德電氣最佳實踐競賽雙金獎

    在日前結(jié)束的施耐德電氣首屆PCBA制造最佳實踐競賽中,偉創(chuàng)力蘇州團(tuán)隊以優(yōu)異的表現(xiàn),一舉奪得“工廠金獎”及“最佳生產(chǎn)效率提升單項金獎”。憑借對卓越制造的不懈追求,蘇州團(tuán)隊目標(biāo)堅定,雷厲風(fēng)
    的頭像 發(fā)表于 07-24 17:39 ?966次閱讀