女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對AI來說,為什么麻將比圍棋、德州撲克更難?

XcgB_CINNO_Crea ? 來源:陳年麗 ? 2019-09-03 10:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“我突然想起了一句話,神仙怎么打都是對的。”

“這個 AI 的牌效不是一般鳳凰(有一定實力的玩家)能摸清的,人名字就是 super phoenix(超級鳳凰)。”

“感覺 ai 的打法都不太能被推理完全,這種基于訓練的對某種特征做出的反應對于人類來說就是迷啊…”

這些評論來自于 B 站上一個系列的視頻,視頻主角是一個名為 Suphx(意為 Super Phoenix)的*** AI。2019 年 6 月,有創作者開始制作 Suphx 牌譜的視頻。上傳到 B 站后,引起了不少***愛好者的討論。

在多數評論里,Suphx 被稱為“最強日麻人工智能”。

事實上,不止是國內的 B 站,當時 Suphx 的聲名已經傳遍了日本***界。

神秘的最強日麻 AI

2019 年 3 月起,Suphx 獲批進入專業***平臺“天鳳”。短短四個月內,Suphx 在該平臺瘋狂對戰 5760 次,成功達到十段,從而在日本***界聲名大噪。

***在中國群眾基礎深厚、普及率高,有“國粹”之稱,但民間流行的***規則不一,且競技化程度相對較低,而日本***擁有世界上競技化程度最高的***規則。天鳳則是業界知名的高水平日本***平臺。它吸引了全球近 33 萬名***愛好者,其中不乏大量的專業***選手。

天鳳平臺規定,只有獲批準的 AI 才可以進入“特上房”參與對戰,目前在該房間可以達到的最高段位是十段。另一個房間是“鳳凰房”,最高段位是十一段,僅對七段以上的人類付費玩家開放,目前不允許 AI 參與游戲。

除了 Suphx,還有另外兩個 AI 也獲準進入“特上房”比賽,分別是“爆打”和“NAGA25”。目前,Suphx 是唯一一個達到“特上房”最高段位的 AI。

由于單局***存在著很大的運氣成分,所以天鳳平臺會通過“穩定段位”來衡量一位玩家的真實水平。在 5760 場比賽過后,Suphx 的穩定段位超過了8.7,不僅高于爆打和 NAGA,還超越了頂級人類選手(十段及以上)的整體穩定段位。

這些成就意味著,Suphx 在四個月內成長為了最強日麻 AI。日本***的愛好者和專業參賽選手,紛紛尋找著它背后的開發者,但一無所獲。

(Suphx 的官方社交賬號上,只有簡單的介紹)

直到 8 月 29 日世界人工智能大會舉行,Suphx 的身世才被公諸于世。當天上午,微軟全球執行副總裁、微軟人工智能及微軟研究事業部負責人沈向洋博士對外宣布,Suphx 是微軟亞洲研究院的工作成果,由劉鐵巖博士帶隊研發。

劉鐵巖博士是微軟亞洲研究院副院長,長于深度學習、增強學習、分布式機器學習等領域。他的團隊曾發布了微軟分布式機器學習工具包(DMTK)、微軟圖引擎(Graph Engine)等開源項目。

(微軟亞洲研究院副院長劉鐵巖)對 AI 來說,為什么***比圍棋、***更難?

“2017 年中旬,我們一個研究團隊跟我說要做*** AI。我也不知道能不能成,因為相比象棋、圍棋、***,***的難度更高。而且,他們打***水平都不怎么樣。”微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文對 PingWest 品玩表示。

***的難,在于其屬于“不完美信息游戲”(Imperfect-Information Games),讓計算機擅長的搜索能力無法直接發揮,且具備復雜的獎勵機制。

不完美信息游戲,是指游戲中信息暴露程度低。“圍棋、象棋等棋類游戲,對局雙方可以看到局面的所有信息,屬于完美信息游戲(Perfect-Information Games);而撲克、橋牌、***等游戲,雖然每個參與者都能看到對手打過的牌,但并不知道對手的手牌和游戲的底牌,屬于不完美信息游戲”。

在日本***中,每個玩家有 13 張手牌,另外還有 84 張底牌。對于一個玩家而言,他只知道自己手里的 13 張牌和之前已經打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌。所以,最多的時候一位玩家未知的牌有超過 120 張。

為了更好地解釋不完美信息游戲,劉鐵巖打了個比方:“如果把圍棋這樣的(完美信息)比賽比喻成一顆游戲樹,那像***這樣的比賽就是很多樹組成的森林,參與者并不知道自己在哪棵樹上。”

對于完美信息游戲,通常可以用“狀態空間復雜度”和“游戲樹復雜度”來衡量其游戲難度。

所謂“狀態空間復雜度”,即游戲開始后,棋局進行過程中,所有符合規則的狀態總數量。“例如棋類游戲中,每移動一枚棋子或捕獲一個棋子,就創造了一個新的棋盤狀態,所有這些棋盤狀態構成游戲的狀態空間”。

計算狀態空間復雜度最常用的一種方法是,包含一些不符合規則或不可能在游戲中出現的狀態,從而計算出狀態空間的一個上界(Upper Bound)。例如在估計圍棋狀態數目上界的時候,允許出現棋面全部為白棋或者全部為黑棋的極端情況。

游戲樹復雜度(GTC)代表了所有不同游戲路徑的數目,是一個比狀態空間復雜得多的衡量維度,因為同一個狀態可以對應于不同的博弈順序。

微軟亞洲研究院的博客舉了一個例子:下圖中,兩邊的井字棋游戲都有有兩個 X 和一個 O,屬于同一狀態。但這個狀態可能由兩種不同的方式形成,形成路徑取決于第一個 X 的下子位置。

(井字棋游戲中統一狀態的不同形成過程)

在完美信息棋牌游戲中,不管是狀態空間復雜度,還是游戲樹復雜度,圍棋都遠遠超過其他棋牌類游戲。

而對于不完美信息游戲而言,衡量游戲難度的維度更加復雜,需要在狀態空間復雜度的基礎上引入一個新概念“信息集”。

舉例而言,在撲克游戲中,玩家 A 拿了兩張 K,玩家 B 拿了不同的牌對應不同的狀態;但是從 A 的視角看,這些狀態是不可區分的。

“我們把每組這種無法區分的游戲狀態稱為一個信息集。”劉鐵巖介紹道。

完美信息游戲里所有信息都是已知的,每個信息集只包含一個游戲狀態,因此它的信息集數目與狀態空間數目是相等的。

而不完美信息游戲中,每個信息集包含若干個游戲狀態,因此信息集數目通常小于狀態空間的數目。

與信息集數目匹配的,是信息集的平均大小。這個概念指的是在信息集中平均有多少不可區分的游戲狀態。

據微軟亞洲研究院博客,信息集的數目反映了不完美信息游戲中,所有可能的決策節點的數目,而信息集的平均大小則反映了游戲中每個局面背后隱藏信息的數量。當對手的隱藏狀態非常多時,傳統的搜索算法基本上無從下手。

(圍棋、***、橋牌和***的信息集數目和信息集平均大小對比)

圍棋和***的信息集平均大小遠遠小于橋牌和***。AI 在圍棋和***上的成功很大程度依賴于搜索算法,因為搜索可以最大程度地發揮計算機的計算優勢。

橋牌和***中,由于信息集平均大小比較大,存在著較多隱藏信息,難以直接采用 AlphaGo 等棋盤游戲 AI 常用的蒙特卡洛樹搜索算法。

此外,日本***有著復雜的獎勵機制。日麻一輪游戲共包含 8 局,最后根據 8 局的得分總和進行排名,來形成最終影響段位的點數獎懲。玩家的段位越高,輸掉比賽后扣掉的點數越多,因此有時***高手會策略性輸牌。

劉鐵巖舉例道:“比如,A 玩家已經大比分領先第二名的情況下,在底 8 輪時就會相對保守,確保自己不會輸。”這為構建高超的*** AI 策略帶來了額外的挑戰,AI 需要審時度勢,把握進攻與防守的時機。

Suphx 是如何解決難題的?

項目一開始,劉鐵巖團隊用了一些“基線(Baseline)的解決辦法”——嘗試用 AlphaGo 和***上的方法解一解看看怎么樣。

“***的種種特點決定了,很難直接利用 AlphaGo 等棋盤游戲 AI 常用的蒙特卡洛樹搜索算法。”劉鐵巖強調,“這激勵我們要想出新的點子。”

在一年多的摸索期,劉鐵巖團隊基于深度強化學習技術,并且引入三項新技術來提升強化學習的效果。深度強化學習是深度學習和強化學習的結合。這項技術集合了深度學習在感知問題上強大的理解能力,以及強化學習的決策能力,通常用于解決現實場景中的復雜問題。

在深度強化學習的基礎上,針對非完美信息游戲的特點,劉鐵巖團隊嘗試用“先知教練”技術來提升強化學習的效果。

先知教練技術的基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏信息來引導 AI 模型的訓練方向,使其學習路徑更加清晰、更加接近完美信息意義下的最優路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據。

然而,在訓練模型階段采用的先知教練技術,在真正的實戰中是沒有的,這意味著訓練和實戰間存在著一個 Gap(差距)。

劉鐵巖對 PingWest 品玩表示:“我們不能夠保證一定把那個 Gap 給抹掉,比如說它在訓練階段能夠看到不該看到的東西,實戰中它是永遠看不到的。這個信息的 Gap 我們是控制不了的,但是作為先知教練可以引導*** AI 不會走的太偏太遠,會沿著我們想走的大方向走,。這個能保證訓練過程的平穩性,對深度強化學習是非常重要的。”

針對信息集平均大小比較大這個特點,研究團隊引入了自適應決策,對探索過程的多樣性進行動態調控,讓 Suphx 可以比傳統算法更加充分地試探牌局狀態的不同可能。

另外,對于日本***復雜的獎勵機制,劉鐵巖團隊加入了全盤預測技術。

“這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,并使得 Suphx 可以學會一些具有大局觀的高級技巧。”劉鐵巖解釋道。

總體而言,Suphx 使用的是深度強化學習這個大框架,但又加入了一些創新的技術點:先知教練、自適應決策和全盤預測。

在 2019 年 3 月上線 Suphx 平臺之前,背后這一整套技術已經有了雛形,同時進行了大量的自我博弈。

“Suphx 在線上對戰了 5760 場,但在線下自我博弈將近 2000 萬場。”劉鐵巖對 PingWest 品玩表示,“雖然自我博弈學到的信號數量很多,但是學到更多的是在自己身上怎么提高。5760 場里面我們學到別人打法的風格、以及實戰中遇到的困難應該如何解決。”

劉鐵巖透露,研究團隊計劃過一段時間會有一篇比較深入的科學論文跟大家分享, “在那里面大家會看到更多的細節”。

Suphx 背后的技術可以用在什么地方?

在 AI 進化的過程中,游戲 AI 一直相伴相生。1949 年開始,就有科學家研究算法,讓計算機下國際象棋。雙陸棋、國際跳棋、國際象棋、圍棋等棋盤類游戲,都有人機對戰的蹤影。

1997 年 5 月 11 日,國際象棋 AI 深藍在正常時限的比賽中,首次擊敗了等級分排名世界第一的棋手。這一天成為了人機對戰的里程碑。

在洪小文看來,游戲 AI 對解決現實問題有著重要的研究意義:“現實世界更加復雜,而游戲均有一個清晰的規則、勝負判定條件和行動準則。如果不定規則,大家各做各的,就無法交流。研究也是這樣的,將問題切成小問題,小問題里面規則定清楚,再往前走。”

***這一類不完美的信息游戲,正是現實生活中許多問題的映射。洪小文舉例道:“追女朋友、企業經營、投資,都有大量的你不知道的隱藏信息。”

雖然 Suphx 面世不久,背后的技術還沒有全部應用到實際問題中,但部分技術已經在做嘗試。

“我們和華夏基金以及太平資產合作,做了一些實盤投資的嘗試, 取得了非常好的效果。”劉鐵巖告訴 PingWest 品玩,“我們用歷史交易數據訓練的 AI 模型,到真正市場上會面臨完全不一樣的數據,所以要動態地適應實際場景并做出改變,這個和 Suphx 里面的自適應決策是一脈相承的。”

盡管落地是研究的最終目標,但洪小文認為,純粹的好奇心對研究人員來說更加寶貴:“做這項研究的時候,他們有沒有想過未來可以怎么應用?八成是沒有想,也不應該想,以好奇心驅動的研究是推動整個科研發展的基石。最明顯的例子是,基礎數學很多研究在當時都不見得有應用。”

有意思的是,天鳳平臺 CEO 角田真吾在被問到“為什么會歡迎 AI和人類對弈”時,給出了和洪小文幾乎一樣的措辭——純粹出自于人類的好奇心,

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6686

    瀏覽量

    105846
  • AI
    AI
    +關注

    關注

    88

    文章

    35320

    瀏覽量

    280790

原文標題:華峰測控 | 國內最大半導體測試機供應商改道科創板,上市申請獲受理

文章出處:【微信號:CINNO_CreateMore,微信公眾號:CINNO】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?直接發個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI、騰訊
    發表于 07-09 18:30

    德州儀器宣布與英偉達合作,推動 AI 基礎設施實現高效配電

    上海2025年5月28日?/美通社/ -- TI 技術將助力?NVIDIA 未來面向下一代?AI 數據中心的?800V 高壓直流配電系統 前沿動態 德州儀器?(TI) 今日宣布,正與英偉達
    的頭像 發表于 05-28 16:07 ?242次閱讀

    【「零基礎開發AI Agent」閱讀體驗】+讀《零基礎開發AI Agent》掌握扣子平臺開發智能體方法

    都比較復雜,涉及到的基礎素材很多,而閱讀書籍的人并沒有,所以最好像其他的編程書籍一樣也建立一個素材庫,幫助讀者更好的理解知識并有實際項目的參照價值。 不過總體來說,我還是從這本書中收獲頗豐,對AI
    發表于 05-14 19:51

    基于XIAO RP2040和樹莓派的圍棋棋盤游戲系統設計

    今天小編給大家帶來的是來自mocketech的基于樹莓派和XIAO RP2040的圍棋棋盤娛樂系統,每塊圍棋石都會根據其狀態顯示面部表情,從而便于評估整體比賽情況。即使是不熟悉圍棋規則的人也可以通過這些表情輕松理解游戲。 靈感
    的頭像 發表于 04-29 14:01 ?354次閱讀
    基于XIAO RP2040和樹莓派的<b class='flag-5'>圍棋</b>棋盤游戲系統設計

    登頂!沃飛長空獲評成都硬科技撲克牌“大王”稱號

    近日,作為中西部地區一年一度的硬科技盛會,由成都硬科技科技聯盟、雨前顧問主辦的“2025成都硬科技企業撲克牌”榜單公布,沃飛長空獲評“大王”稱號。此榜單聚焦“鍛造硬科技‘鎮園之寶’”,解碼民營經濟
    的頭像 發表于 04-24 15:23 ?319次閱讀
    登頂!沃飛長空獲評成都硬科技<b class='flag-5'>撲克</b>牌“大王”稱號

    芯盛智能榮登2025成都硬科技企業撲克牌榜單

    近日,以“鍛造硬科技‘鎮園之寶’”為主題的“2025成都硬科技年會”在蓉城盛大啟幕。芯盛智能科技有限公司(以下簡稱“芯盛智能”)憑借在存儲芯片領域的硬核實力與創新突破,榮登“2025成都硬科技企業撲克牌”榜單,并受邀出席頒獎典禮。這一榮譽標志著芯盛智能作為國產存儲產業中堅力量的地位再獲權威認可。
    的頭像 發表于 04-21 11:29 ?549次閱讀

    喜訊丨啟英泰倫入選2025成都硬科技企業撲克牌榜單

    科技企業撲克牌”榜單。經過指標模型評選、線上公眾投票、專家委員會評審三輪篩選,啟英泰倫作為人工智能語音芯片領域的領軍者,成功上榜。“成都硬科技撲克牌”榜單作為成都科技
    的頭像 發表于 04-18 17:23 ?586次閱讀
    喜訊丨啟英泰倫入選2025成都硬科技企業<b class='flag-5'>撲克</b>牌榜單

    AI 時代開啟,企業跟風做 AI 產品是明智之舉?

    AI
    華成工控
    發布于 :2025年04月10日 17:28:44

    【「AI Agent應用與項目實戰」閱讀體驗】書籍介紹

    會追根溯源,讓你有種“大徹大悟”的感覺。 這本書主要講大語言模型的內容,教我們做一個AI Agent應用出來,其實這個東西現在也叫智能體了,他跟我們平常使用大語言模型有個不同點在于他會專注某個領域
    發表于 03-05 20:40

    AI Agent 應用與項目實戰》----- 學習如何開發視頻應用

    再次感謝發燒友提供的閱讀體驗活動。本期跟隨《AI Agent 應用與項目實戰》這本書學習如何構建開發一個視頻應用。AI Agent是一種智能應用,能夠根據用戶需求和環境變化做出相應響應。通常基于深度
    發表于 03-05 19:52

    名單公布!【書籍評測活動NO.55】AI Agent應用與項目實戰

    意外泄露、OpenAI即將推出Operator……似乎過不了多久,AI Agent就像電影中一樣,將接管我們的生活和工作。 那究竟什么是AI Agent呢? 從嚴格的概念上來說AI
    發表于 01-13 11:04

    德州儀器獲16億美元美國芯片補貼

    近日,德州儀器(Texas Instruments)與美國商務部共同宣布了一項重大合作。根據美國《芯片與科學法案》,雙方將達成一項高達16億美元的直接資助協議,旨在支持德州儀器在半導體領域的持續發展
    的頭像 發表于 12-23 13:36 ?683次閱讀

    德州儀器股票分析:增長已經放緩的德州儀器,該買入還是賣出?

    來源:猛獸財經? 作者:猛獸財經 ? ? ? 猛獸財經核心觀點: (1)過去幾周,德州儀器的股價一直在橫盤震蕩。 (2)有跡象表明這家公司的業務發展的不太好。 (3)猛獸財經對德州儀器股價的技術分析
    的頭像 發表于 11-03 12:08 ?1575次閱讀
    <b class='flag-5'>德州</b>儀器股票分析:增長已經放緩的<b class='flag-5'>德州</b>儀器,該買入還是賣出?

    基于迅為RK3568/RK3588開發板的AI圖像識別方案

    https://www.bilibili.com/video/BV1G54y1A7nf/?spm_id_from=333.999.0.0 迅為RK3568/RK3588開發板AI識別演示方案,包括
    發表于 08-28 09:50

    基于迅為RK3588開發板的AI圖像識別方案

    迅為RK3568/RK3588開發板AI識別演示方案包括 01_官方模型測試 02_人臉識別 03_口罩檢測 04_工地防護 05_撲克牌識別 06_手掌關鍵點檢測 07_人臉特征點檢測 https://www.bilibili.com/video/BV1G54y1A7
    發表于 08-13 11:26