久久综合九色综合网站,狼人色合综合网,一级黄色欧美成年人片

美國陸軍面向未來多域作戰(zhàn)概念研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型，該模型提出基于強(qiáng)化學(xué)習(xí)的策略，可有效減少當(dāng)前訓(xùn)練強(qiáng)化學(xué)習(xí)策略的不可預(yù)測(cè)性，使自主智能體能夠推理并適應(yīng)不斷變化的戰(zhàn)場(chǎng)條件。

強(qiáng)化學(xué)習(xí)是智能體（Agent）以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí)，通過與環(huán)境進(jìn)行交互獲得的獎(jiǎng)賞指導(dǎo)行為，目標(biāo)是使智能體獲得最大的獎(jiǎng)賞。強(qiáng)化學(xué)習(xí)技術(shù)具備解決復(fù)雜問題的能力，近年來在如圍棋、象棋和電子游戲等領(lǐng)域有較為長足的發(fā)展。美國陸軍將這種強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用在地面機(jī)器人面臨著兩個(gè)巨大挑戰(zhàn)。首先是算法的限制。在強(qiáng)化學(xué)習(xí)中，策略梯度方法（Policy Gradient Methods）是連續(xù)空間可伸縮算法的基礎(chǔ)，但是現(xiàn)有技術(shù)無法支持更廣泛的決策目標(biāo)，例如風(fēng)險(xiǎn)敏感性、安全約束、對(duì)先驗(yàn)知識(shí)的探索和發(fā)散。其次就是數(shù)據(jù)量的問題。強(qiáng)化學(xué)習(xí)需要大量的樣本復(fù)雜性，而美國陸軍多域作戰(zhàn)概念和下一代戰(zhàn)斗車輛（NGCV）項(xiàng)目目前數(shù)據(jù)匱乏并不支持現(xiàn)有訓(xùn)練機(jī)制。

在陸軍多域作戰(zhàn)概念和NGCV項(xiàng)目中應(yīng)用強(qiáng)化學(xué)習(xí)，訓(xùn)練機(jī)制必須提高連續(xù)空間中的樣本效率和可靠性，ARL通過將現(xiàn)有的策略搜索方案推廣到通用工具，取得了重要突破。研究人員為通用程序開發(fā)了新的策略搜索方案，并且還確定了其樣本復(fù)雜度。由此產(chǎn)生的策略搜索方案減少了獎(jiǎng)勵(lì)積累的波動(dòng)性，形成了對(duì)未知領(lǐng)域的有效探索和先驗(yàn)的機(jī)制。值得注意的是，地面機(jī)器人獲取數(shù)據(jù)的成本很高。減少獎(jiǎng)勵(lì)積累的波動(dòng)性，確保以有效的方式探索未知領(lǐng)域，或者吸收以前的經(jīng)驗(yàn)，都將有助于打破強(qiáng)化學(xué)習(xí)中現(xiàn)行實(shí)踐的樣本效率壁壘。通過減少隨機(jī)抽樣的數(shù)量，可以實(shí)現(xiàn)策略優(yōu)化。

這項(xiàng)研究為強(qiáng)化學(xué)習(xí)中的經(jīng)典策略梯度定理做出了貢獻(xiàn)。裝備有強(qiáng)化學(xué)習(xí)功能的自主機(jī)器人將能夠協(xié)助戰(zhàn)士在未來戰(zhàn)場(chǎng)上進(jìn)行偵察探索和風(fēng)險(xiǎn)評(píng)估。研究人員下一步計(jì)劃在強(qiáng)化學(xué)習(xí)中將更廣泛的決策目標(biāo)納入多主體設(shè)置，并研究強(qiáng)化學(xué)習(xí)主體之間的交互設(shè)置如何在團(tuán)隊(duì)之間產(chǎn)生協(xié)同和對(duì)抗性推理。
責(zé)任編輯：YYX

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
29510

瀏覽量
211646

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

美國陸軍研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型

評(píng)論