女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CMU、Facebook聯合打造“賭神”AI,六人德撲擊敗人類

DPVg_AI_era ? 來源:lq ? 2019-09-13 16:51 ? 次閱讀

CMU 和 Facebook 聯合打造的史上最強德州撲克 AI “Pluribus”在六人德州撲克這項復雜游戲中擊敗了頂級人類玩家。今天,Science雜志以封面重磅的形式發表了該研究論文,詳細描述了Pluribus的策略。

前不久,一款名叫 “Pluribus” 的 AI 撲克牌機器人在六人無限注德州撲克這項復雜游戲中,碾壓了人類職業選手!

這是 AI 首次在規模超過兩人的復雜對局中擊敗頂級人類玩家。

“Pluribus” 是CMU 和 Facebook 聯合打造的史上最強德州撲克 AI,重點解決了多人對局環境下的非零和博弈和隱藏信息推理問題,是該領域的一個重大突破。

今天,“Pluribus”的論文更是以封面的形式登上Science雜志!

來自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授,在論文中詳細解讀了“Pluribus”的策略。

作者表示,撲克一直是一個具有挑戰性的問題,過去AI在這類基準測試中取得的成功僅限于兩人參與的游戲。然而,傳統上玩撲克的人不止兩個人。多人撲克是一個公認的AI里程碑。

“Pluribus”AI在六人無限制注德撲中展現了比頂級人類專業玩家更強大的技能。

接下來,新智元帶來這篇論文的解讀,完整論文可點擊文末鏈接查看。

基于MCCFR的“藍圖”策略

三人或三人以上的博弈對博弈論提出了挑戰。對于兩個玩家的零和博弈,存在這樣一種策略,即沒有玩家可以通過切換到不同的策略來提高他們的機會。這種所謂的納什均衡被認為是博弈的一個解。

但對于多人游戲,期望獎勵可能因納什均衡的不同而有所不同。保證收斂到納什均衡的快速算法,例如虛擬遺憾最小化算法(CFR),在多人游戲中可能失效。盡管如此,CFR在一些多人游戲領域仍顯示出良好的經驗表現。

Pluribus首先通過自我游戲(self-play)來學習通用技巧,我們稱之為“藍圖”(blueprint)策略。

然后,在實際游戲中,它根據游戲的當前狀態計算一個實時策略來細化blueprint策略。Pluribus程序通過名為Monte Carlo CFR (MCCFR)的CFR變體學習blueprint策略,并進行一些改進。

Pluribus會反復模擬所有玩家使用相同策略的撲克手牌;在每一手牌之后,它會遞歸地檢查每個決策,并與在相同情況下可能選擇的其他操作相比,評估該決策的預期結果。

為了提高Pluribus中MCCFR算法的效率,作者在訓練的早期階段引入了linear weighted discounting,并在訓練的后期對negative-regret行為進行策略剪枝。

系統中最復雜的部分是實時策略組件。為了處理不完美信息,Pluribus執行嵌套搜索,維護搜索樹的根節點和每個玩家持有的牌的根節點的概率分布,前提是假設所有玩家使用相同的(已知的)策略。

為了有效評估葉節點,Pluribus考慮了blueprint 策略的四種不同變體。

在Abstraction機制中,Pluribus通過將類似的情況打包在一起,減少了關于是否跟注(call)、加注(raise)或棄牌(fold)的決策點的數量。使用蒙特卡羅虛擬遺憾最小化(MCCFR),將撲克游戲中樹搜索的復雜性從一個棘手的問題降低到一個可解決的問題。

真實游戲

Pluribus需要為每個場景提供一個動作(跟注、加注或棄牌)。

抽象游戲

類似的方案,比如高牌9和高牌10一起。

抽象策略

Pluribus使用MCCFR通過操作將每個bucket映射到一個分布。

真實策略

每個方案都根據其bucket的抽象策略映射到操作上的分布。

對于大型復雜的游戲,狀態和動作的抽象可以用來抑制搜索樹的增長。這對于完整的六人無限德州撲克游戲來說是必要的,因為德撲太過復雜而無法直接搜索。

相反,如上面的示意圖所示,Pluribus模擬了一個更簡單的游戲版本,將類似的決策點組合在一起,并消除了一些操作。

“賭神”AI訓練只需144美元

最后,Pluribus的blueprint策略是在64核服務器上在8天內計算出來的,總共使用了12400個CPU核心小時,所需內存小于512 GB。按照當前的云計算費用,這花費了大約144美元。

這與最近其他所有的超級AI里程碑游戲形成了鮮明的對比,那些AI使用了大量的服務器和/或GPU集群。更多的內存和計算可以支持更細粒度的blueprint,這將帶來更好的性能,但也會導致Pluribus使用更多內存或在實時搜索變慢。

研究人員將blueprint策略抽象的大小設置為允許Pluribus在一臺內存不超過128GB的機器上實時運行,同時在內存中存儲blueprint策略的壓縮形式。

由于無限德州撲克的規模和復雜性,整個游戲的blueprint 策略必然是粗粒度的。Pluribus只在第一輪投注(四次投注)中根據這個blueprint策略進行操作,其中決策點的數量足夠少,以至于blueprint策略可以不使用信息抽象,并且在操作抽象中進行了很多操作。

在第一輪之后(甚至在第一輪中,如果對手選擇的賭注大小與blueprint action抽象中的大小完全不同),Pluribus將進行實時搜索,以確定針對當前情況的更好、更細粒度的策略。

結論

self play 的形式與搜索的形式相結合,在完全信息的二人零和博弈中取得了許多引人注目的成功。然而,現實世界中的大多數戰略交互都包含隱藏的信息和兩個以上的參與者。這使得這個問題在理論和實踐上都有很大的不同和困難。

為多人德撲開發一個超級AI是該領域的一個公認的里程碑。在本文中,我們描述了Pluribus,一個AI,能夠在六人無限注德州撲克中擊敗人類專業玩家。

Pluribus的成功表明,盡管對多人博弈的性能缺乏已知的強有力的理論保證,但仍存在大規模、復雜的多人博弈不完全信息設置,在這種情況下,精心構造的self play搜索算法可以生成超越人類的策略。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29533

    瀏覽量

    211715
  • 算法
    +關注

    關注

    23

    文章

    4701

    瀏覽量

    94843
  • Facebook
    +關注

    關注

    3

    文章

    1432

    瀏覽量

    56245

原文標題:Science封面重磅:CMU、Facebook聯合打造“賭神”AI,六人德撲擊敗人類

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA攜手諾和諾借助AI加速藥物研發

    NVIDIA 宣布與諾和諾開展合作,借助創新 AI 應用加速藥物研發。此次合作也將支持諾和諾與丹麥 AI 創新中心 (DCAI) 關于使用 Gefion
    的頭像 發表于 06-12 15:49 ?134次閱讀

    比亞迪座艙接入通義大模型,未來將聯合打造更多AI智能座艙場景

    比亞迪與阿里云一直保持著深度合作,已在多個業務場景廣泛應用通義大模型。 在智能座艙領域,與比亞迪座艙團隊聯合開發,基于通義萬相,比亞迪騰勢上線了“AI壁紙”功能,該功能可根據用戶語音指令自動生成
    的頭像 發表于 06-12 08:52 ?90次閱讀

    大象機器攜手進迭時空推出 RISC-V 全棧開源軸機械臂產品

    全球80多個國家和地區。近日,大象機器聯合進迭時空推出全球首款RISC-V全棧開源軸機器臂“myCobot280RISC-V”,為開發者打造全新的機器
    的頭像 發表于 06-06 16:55 ?260次閱讀
    大象機器<b class='flag-5'>人</b>攜手進迭時空推出 RISC-V 全棧開源<b class='flag-5'>六</b>軸機械臂產品

    地圖攜手雷鳥創新打造新一代AI+AR智能導航解決方案

    近日,高地圖與雷鳥創新RayNeo宣布達成戰略合作,雙方將深度融合人工智能體和空間交互等前沿技術框架,共同打造新一代AI+AR智能導航解決方案。此次合作,標志著高空間計算引擎進一步
    的頭像 發表于 05-26 16:01 ?210次閱讀

    福建移動聯合華為打造AI WAN SPN網絡

    福建移動攜手華為在SPN(Slicing Packet Network,切片分組網)網絡中深度融合AI能力,引入設備級、網絡級、運營級AI節能技術,在釋放網絡效能的同時,引入SPN獨特的跨域自閉
    的頭像 發表于 05-09 17:08 ?332次閱讀

    大象機器攜手進迭時空推出 RISC-V 全棧開源軸機械臂產品

    全球80多個國家和地區。 近日,大象機器聯合進迭時空推出全球首款RISC-V全棧開源軸機器臂“myCobot 280 RISC-V”,為開發者打造全新的機器
    發表于 04-25 17:59

    科技推出AI網絡可視性解決方案

    科技(NYSE: KEYS )宣布推出 AI Insight Brokers, 擴展其是科技Vision網絡數據包代理(NPBs)方案。這些增強型NPB旨在提高AI驅動的網絡安全
    的頭像 發表于 03-26 15:24 ?424次閱讀

    圖為科技與寶計算達成戰略合作 共建AI算力新生態

    ,共同打造“云邊端一體”的智能算力底座及行業大模型解決方案,為智能制造、智慧城市、智慧交通等領域提供高效、普惠的AI基礎設施支撐。 ? 強強聯合:技術互補與生態共建的雙向奔赴 ?? 在抵達寶
    的頭像 發表于 03-26 09:57 ?438次閱讀
    圖為科技與寶<b class='flag-5'>德</b>計算達成戰略合作  共建<b class='flag-5'>AI</b>算力新生態

    移遠通信聯合壹發布全球首款搭載端側大模型的AI具身理療機器

    各行業智能化發展版圖。 3月11日,在第66屆廣州美博會上,壹機器人在移遠通信助力下,正式推出全能王AI具身機器。作為壹全球首款端側大模型AI
    發表于 03-13 11:16 ?738次閱讀
    移遠通信<b class='flag-5'>聯合</b><b class='flag-5'>德</b>壹發布全球首款搭載端側大模型的<b class='flag-5'>AI</b>具身理療機器<b class='flag-5'>人</b>

    移遠通信聯合壹發布全球首款搭載端側大模型的AI具身理療機器

    各行業智能化發展版圖。3月11日,在第66屆廣州美博會上,壹機器人在移遠通信助力下,正式推出全能王AI具身機器。作為壹全球首款端側大模型AI
    的頭像 發表于 03-12 20:24 ?268次閱讀
    移遠通信<b class='flag-5'>聯合</b><b class='flag-5'>德</b>壹發布全球首款搭載端側大模型的<b class='flag-5'>AI</b>具身理療機器<b class='flag-5'>人</b>

    DEKRA凱與聯合電子合作邁上新臺階

    近日,DEKRA凱為聯合汽車電子有限公司(以下簡稱:UAES聯合電子)提供的ISO8800-人工智能與功能安全培訓課程圓滿結束,并在結業儀式上為通過考核的學員代表們頒發了DEKRA
    的頭像 發表于 02-28 15:32 ?445次閱讀

    賽西威攜手高通推出全新AI智能座艙平臺

    賽西威和高通技術公司今日在國際消費電子展上舉行了備受矚目的聯合簽約儀式,推出雙方通力打造賽西威下一代智能座艙平臺G10PH。
    的頭像 發表于 01-13 09:21 ?1097次閱讀

    長城汽車聯手高地圖打造出行聯合創新LAB

    近日,長城汽車與高地圖基于長期良好的合作基礎,聯手打造的“出行聯合創新LAB”正式在保定市長城汽車技術中心揭牌。根據共同約定,雙方將通過出行聯合創新LAB,發揮各自優勢,共同研究、探
    的頭像 發表于 01-07 09:51 ?504次閱讀

    視美泰聯合小冰打造全新“AI數字人工廠”

    AI數字化浪潮席卷全球的今天,人工智能與現實生活的交融已成為時代趨勢。近日,視美泰與小冰強強聯手,共同推出了一套領先的數字解決方案,旨在通過打造數字產品工廠,為千行百業注入全新的
    的頭像 發表于 12-13 16:45 ?995次閱讀
    視美泰<b class='flag-5'>聯合</b>小冰<b class='flag-5'>打造</b>全新“<b class='flag-5'>AI</b>數字人工廠”

    使用NVIDIA Jetson打造機器導盲犬

    Selin Alara Ornek 是一名富有遠見的高中生。她使用機器學習和 NVIDIA Jetson邊緣 AI 和機器人平臺,為視障人士打造了機器導盲犬。
    的頭像 發表于 11-09 13:51 ?657次閱讀