人工智能在計算機兵棋推演領域的應用
0 引言
1956 年達特茅斯會議上約翰?麥肯錫首次提出了人工智能(Artificial Intelligence,AI)的概念,當初定義的基本范圍是“用計算機模擬人的邏輯思維”??梢钥闯?,這一定義并沒有包含人類的學習能力、歸納總結能力、決策能力等,可以認為是狹義人工智能范疇。近些年來,隨著模糊邏輯和遺傳算法等技術的成熟,特別是神經網絡的發展及深度學習的興起,人工智能更傾向于指依托計算機運用數學算法模仿人類智力,讓機器“學會”人類的分析、推理、思維乃至決策的能力。
兵棋是一種用于戰爭研究和訓練的工具,有著近 200 年的發展歷史。隨著計算機與信息技術的發展,早期的手工兵棋逐漸演化為現代的計算機兵棋。1980 年代后,計算機兵棋技術蓬勃發展,先后出現了多型軍用和民用的兵棋系統,其中最為著名的當屬美軍的聯合戰區級兵棋系統(JTLS)和聯合沖突戰術兵棋系統(JCATS)。兵棋推演可以在作戰方案優化、訓練教學支撐、作戰試驗評估等領域發揮出較好的作用。
2016 年,人工智能 AlphaGo[1-4]以 4∶1 的戰績戰勝世界圍棋冠軍李世乭;2017 年初,AlphaGo 化名 Master(大師)先后戰勝 15 名世界圍棋冠軍,實現 60 連勝;2017 年 5 月,AlphaGo 再次以 3∶0 的戰績戰勝當今圍棋排名第一的柯潔。人機對抗,尤其在棋類領域的博弈,開始徹底倒向有人工智能支撐的計算機,盡管兵棋非簡單等同于圍棋、象棋,但 AlphaGo 的連續成功,還是激起了我們將人工智能技術深度融合應用于兵棋推演領域的強烈意愿。
1 兵棋特點
兵棋推演的實施過程主要如下:在導演部及導調機構的導控下,由參演人員在想定的戰場環境下,與假定的藍軍部隊進行指揮層面的對抗,完整實現演訓準備、組織實施和總結評估全流程。
1.1 兵棋是棋
與常規棋一樣,兵棋體現了兩個核心因素,(1)規則制定的客觀性;(2)行棋過程的自由性。兵棋系統的基本構成要素主要有棋子、棋盤、規則、骰子(隨機數發生器)、回合以及裁決表。兵棋中的棋子、棋盤、裁決表等都是具象化、數字化、精確化棋的客觀特征體現。兵棋的核心是兵棋規則,包括規定棋子在地圖上如何移動的行棋規則和判定兩支部隊相遇時交戰結果的裁判規則。兵棋的行棋過程又稱為兵棋推演,推演者采取類似博弈的過程輪流行棋,另設裁判者依據裁判規則對場上局勢進行裁定。此外,推演過程中還通過擲骰子模擬戰場上的隨機因素。
1.2 兵棋非“棋”
兵棋推演往往是要展現實際作戰過程,很難通過“下棋”中嚴格的“你來我往”的回合制來全面體現。兵棋推演需要通過以上六個基本要素之間的相互作用,充分體現了實際戰爭過程中的戰場復雜性、戰況緊迫性、戰情隨機性、戰果規律性等,需要能逼真地反映實際作戰過程,陸、海、空、火、天、網等聯合作戰的特點,需要各方根據態勢發展進行不斷地判斷和決策,從而模擬出實際的作戰流程及作戰效果[5-13]。戰爭還有一個顯著的特點就是不可重復性,同樣的基礎對抗條件,在不同的隨機因素影響下會產生完全不同的結果。由此可見,兵棋推演需要模擬的作戰要素繁多,關系錯綜復雜,態勢瞬息萬變,常規的“棋”很難涵蓋完整這么一個復雜系統。
1.3 計算機兵棋
兵棋推演本身對工具支撐并無太多要求,其流行之初也是以手工兵棋為主要手段。傳統手工兵一般以棋子進攻、防御二值描述,采用的是力量對比方式,在增加隨機因素的基礎上,用表格的形式進行裁決以得到交戰結果。
其后,為了節約人力和時間、提高推演效率,體現更復雜的聯合作戰行動模擬效果,開始出現了計算機兵棋。計算機兵棋推演體系采用完善的軍事地理系統軟件,提供規范化的作業平臺,軍事應用人員可以更加聚焦于對抗推演本身,使兵棋推演過程和實際作戰指揮結合得更密切。隨著現代計算機兵棋理念的發展,支撐規模化指揮對抗模擬的復雜兵棋系統,也開始逐步打破傳統兵棋回合制的推演過程,向實時推演轉變。在計算機兵棋推演環境中,作戰兵力的動態性、作戰過程的隨機性、作戰決策的多樣性更能造就兵棋推演環境中的復雜性。
2 深度學習與強化學習
人工智能涉及的關鍵技術十分廣泛,其中神經網絡、強化學習和深度學習技術是其重要的代表。
神經網絡技術從信息處理角度對人腦神經元網絡進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網絡。體現出了卓越的自我學習、反饋聯想、高效尋優的能力特點。而在神經網絡技術基礎上發展起來的深度學習和強化學習對人工智能技術的成熟和推廣起到了重要的作用。
具有感知能力的深度學習(deeplearning, DL)是基于神經網絡上的一種再升級,是一種通過對大量有效樣本的學習,形成對事物特征的提取、分類和解讀的方法。
深度學習通過建立、模擬人腦進行分析學習的神經網絡,模仿人腦的機制來獲取、分析和解釋數據,通過無監督的預訓練,有監督的逐層訓練、微調訓練等過程,逐步提煉出事物內在的關聯關系、結構關系和邏輯關系等。
目前典型的深度學習模型包括:卷積神經網絡、深度置信網絡(deep belief network, DBN)、堆棧自編碼網絡(stacked auto-encoder,SAE)和遞歸神經網絡(recursive neural network,RNN)等。
具有決策能力的強化學習(reinforcement learning,RL)充則分融入了試錯機制,并以此與環境進行信息交互,通過有效累積獎賞的方式來學習到最優策略,這幾乎就是生物有效適應環境的途徑。強化學習系統通常由 4 個基本部分組成:狀態 s,動作 a,狀態轉移概率 Pas,s′和獎賞信號 r。整個策略途徑 π:S→A 被定義為從狀態空間到動作空間的映射,智能算法依據上述策略途徑 π 選擇并執行動作 a。以概率 Pas,s′從當前狀態 s 轉移到下一狀態 s′,過程中與環境進行信息交互,依據接收到的獎賞反饋信號 r,通過值函數估計當前策略途徑π的優劣程度,從而進一步優化調整策略,力求累積最大化的獎賞。目前常用的強化學習方法包括蒙特卡羅、SARSA 學習、策略梯度和自適應動態規劃等。
深度學習具有較強的感知能力,使得從海量原始數據中提取高水平特征數據變成可能,但是缺乏一定的決策能力。而強化學習具有決策能力,又不擅長于感知問題。既然感知和決策是人工智能技術的核心能力體現。
因此,將兩者結合起來,形成優勢互補,就為提高復雜系統的感知決策能力提供了解決思路。這一思路同樣適用于復雜的計算機兵棋領域。
3 人工智能對兵棋推演的影響
人工智能的快速發展,將計算機兵棋的作用從節約人力和時間、提高推演效率、支撐復雜推演提升到了打造指揮對抗領域的智能藍軍和輔助參謀的高度。所謂智能藍軍,就是讓系統充當既定假想“藍軍”“綠軍”參加演習。通過對有限樣本數據的不斷深度學習、強化學習,使得對手變得更加專業、更像假想藍軍,從而實現局部乃至全局的人機對抗。所謂輔助參謀,就是計算機系統充當隱藏于幕后的我方部分指揮力量、參謀力量,實現識別態勢、發布計劃、自主決策、監控行動、調整任務等功能,為我方指揮提供實時精準參謀。
4 問題及解決途徑
人工智能迅猛發展,核心技術突飛猛進。但人工智能技術在計算機兵棋領域的深入發展也存在以下的不確定性,其根源還在“棋”與“戰”固有的巨大差異,還在于如何將全面感知和精準決策的根本目標在兵棋領域實現。
(1)有效樣本的獲取。目前戰術、戰役乃至戰略層級的計算機兵棋平臺百花齊放、層出不窮,先不論其自身的完善性、置信度,就目前基于上述平臺的推演數據而言,基本屬于量多質低的情況。在未能深入、全面研究假想“藍軍”的情況下,其指揮環節的戰術戰法往往就發散為自由發揮的“紅軍”思想。同理,在無逼真“藍軍”模擬的情況下,“紅軍”的指揮思路也更無針對性可言,用于支撐深度學習的數據樣本的有效性和標簽性均難以保證。所以,人工智能技術若想在計算機兵棋領域得以深入發展,需要確立可作為各類標簽數據的基本標準,參透并運用好特定“藍軍”的戰術戰法,生產出涵蓋所需標簽類別的足夠數量數據,用以支撐深度學習。
(2)信息感知與研判。常規棋盤是透明的,是一種典型的開放式信息感知狀態下的博弈。當前的棋面信息對于雙方棋手來說是完全公平和透明的,棋手每走一步,都可以根據當前的盤面信息做出決策。
而戰爭過程并不是全透明的,甚至有時故意假亦真時真亦假,往往會釋放出戰爭迷霧,須要通過綜合情報偵察和分析來獲取有效、真實戰場信息,這決定了兵棋推演完全應該是一種信息非對稱條件下的動態指揮博弈。兵棋推演過程若沒有情報探測、戰場感知等要素的支撐,就無法體現“交戰”雙方在感知層面的手段高低和能力差異。若無法通過強化學習手段讓人工智能逐步掌握剝離戰爭迷霧、獲取有用信息的研判和決策能力,人工智能技術也將無法進一步發揮打造“智能藍軍”和“輔助參謀”的作用。
(3)規則的確定性。一般棋類博弈的規則是確定的、清晰的,規則對于雙方也都是同等的、公平的,對抗的初始條件也是對等的。而在兵棋推演領域,由于對抗雙方實力可能不對等、對抗初始態勢可能不對等,使得對抗的初始條件也不可能按對等來設置。指揮員處理推演過程復雜的實際戰場問題主要依賴于專業訓練和指揮經驗,而專業訓練又依賴于軍事理論知識和戰爭推演經驗的綜合積累。
兵棋自身的復雜性和這種互為因果的重復迭代性決定了兵棋在規則層面也在不斷自我完善,需要不斷將經驗層面的乃至情感層面的積累進一步提煉為可解讀、可執行的推演規則。
推演規則的這種不斷再理解、再完善狀態,會讓人工智能技術在某些特殊情況處理上無所適從,增加了深度強化學習的難度。
5 結語
人工智能技術的發展將計算機兵棋的作用向前進了一大步,使之從條件支撐的角色轉變為深度參與的角色。但其中支撐強大感知和決策能力的深度強化學習技術也還處于不斷發展過程完善過程中。考慮到作戰推演的復雜性,人機結合可能是當前一個比較穩妥的過渡的方式,暫且將人的優勢和機器優勢相結合來解決推演的實際問題。通過不斷摸索、不斷學習,相信在兵棋推演領域人工智能技術將與人的指揮水平形成共同進步的雙贏局面。
-
人工智能
+關注
關注
1806文章
49028瀏覽量
249499 -
數字化
+關注
關注
8文章
9527瀏覽量
63583
原文標題:人工智能在計算機兵棋推演領域的應用
文章出處:【微信號:appic-cn,微信公眾號:集成電路應用雜志】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
利用邊緣計算和工業計算機實現智能視頻分析

評論