將強(qiáng)化學(xué)習(xí)算法應(yīng)用到現(xiàn)實(shí)問題中的一個(gè)障礙就是缺少合適的獎(jiǎng)勵(lì)函數(shù),而設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)又比較困難,因?yàn)橛脩糁荒茏约豪斫馊蝿?wù)的目標(biāo),很難傳達(dá)給強(qiáng)化學(xué)習(xí)智能體。這就引出了智能體和用戶的連接問題(agent alignment problem):我們?nèi)绾蝿?chuàng)建一款符合用戶想法的智能體呢?
近日,DeepMind的新論文Scalable agent alignment via reward modeling: a research direction就提出了一種研究方向,本文對該論文進(jìn)行了概述總結(jié)。簡單來說,本次提出的方法依靠獎(jiǎng)勵(lì)模型的循環(huán)應(yīng)用,通過連接(align)用戶的目的解決復(fù)雜的現(xiàn)實(shí)世界問題。以下是論智對原文的詳細(xì)編譯:
最近幾年,強(qiáng)化學(xué)習(xí)在復(fù)雜的游戲環(huán)境中得到了不錯(cuò)的表現(xiàn),例如雅達(dá)利游戲、圍棋、象棋、Dota 2、星際爭霸II等等,AI智能體在這些復(fù)雜領(lǐng)域的表現(xiàn)甚至超過了人類水平。游戲是開發(fā)和測試機(jī)器學(xué)習(xí)算法的理想平臺(tái),其中有很多挑戰(zhàn)性的任務(wù),需要具備多種認(rèn)知能力才能完成。機(jī)器學(xué)習(xí)研究者可以在云端同時(shí)運(yùn)行數(shù)千個(gè)模擬實(shí)驗(yàn),生成足夠多的訓(xùn)練數(shù)據(jù)供系統(tǒng)學(xué)習(xí)。
重要的是,游戲通常有清晰的目標(biāo),還有可以表現(xiàn)距離目標(biāo)遠(yuǎn)近的分?jǐn)?shù)。分?jǐn)?shù)能為強(qiáng)化學(xué)習(xí)智能體提供有用的獎(jiǎng)勵(lì)函數(shù),當(dāng)選擇了正確的算法或架構(gòu)時(shí),能讓我們獲得快速的反饋。
智能體的連接問題
總的來說,AI的目標(biāo)是不斷具備解決現(xiàn)實(shí)中復(fù)雜問題的能力,從而造福人類。但是現(xiàn)實(shí)生活中的任務(wù)并沒有內(nèi)置的獎(jiǎng)勵(lì)函數(shù)。這樣一來,智能體在任務(wù)中的表現(xiàn)就無法輕易地定義,所以我們需要一種好方法提供反饋,讓智能體確切地了解我們想要什么,從而幫我們實(shí)現(xiàn)目標(biāo)。換句話說,我們想用人類的反饋訓(xùn)練AI系統(tǒng),用這種方法將系統(tǒng)的行為和我們的目標(biāo)聯(lián)系在一起。針對這一目標(biāo),于是”智能體的連接“問題的定義如下:
如何創(chuàng)建能符合人類目標(biāo)的智能體?
連接問題可以在強(qiáng)化學(xué)習(xí)框架中進(jìn)行,只不過其中要接受數(shù)字類型的獎(jiǎng)勵(lì)信號(hào),智能體可以通過交互協(xié)議和用戶進(jìn)行互動(dòng),從而讓用戶將他們的想法傳遞給智能體。該協(xié)議有多種形式,用戶可以提供示范、偏好、最佳行為或者提供獎(jiǎng)勵(lì)函數(shù)。解決智能體連接問題的一種方法就是根據(jù)用戶目標(biāo)作出動(dòng)作。
DeepMind的新論文對這一問題指明了研究方向。基于此前的AI安全性問題和各種相關(guān)研究,我們設(shè)想了這些研究成果能為智能體的連接問題做出哪些幫助。這為了解如何與用戶互動(dòng)打開了新的大門,即從他們的反饋中學(xué)習(xí)并預(yù)測偏好,這些都是更復(fù)雜、更抽象的話題,需要用超越人類水平的方式去理解。
用獎(jiǎng)勵(lì)建模進(jìn)行連接
研究方向的重點(diǎn)是基于獎(jiǎng)勵(lì)建模:我們用用戶反饋訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型,來捕捉他們的意圖。同時(shí),我們還訓(xùn)練了一個(gè)帶有強(qiáng)化學(xué)習(xí)的策略,用來讓獎(jiǎng)勵(lì)最大化。換句話說,我們將“學(xué)習(xí)做什么”從“學(xué)習(xí)怎么做”中分離出來。
獎(jiǎng)勵(lì)建模圖示
例如,在之前的研究中我們教智能體如何根據(jù)用戶的要求進(jìn)行后空翻、根據(jù)目標(biāo)狀態(tài)放置目標(biāo)物體、根據(jù)用戶選擇和專業(yè)玩家示范玩雅達(dá)利游戲。未來,我們想設(shè)計(jì)的算法能夠?qū)W習(xí)適應(yīng)用戶提供反饋的方式(例如使用自然語言)。
擴(kuò)大規(guī)模
長期來看,我們會(huì)擴(kuò)大獎(jiǎng)勵(lì)建模的規(guī)模,將其應(yīng)用于人類難以評估的領(lǐng)域。為了做到這一點(diǎn),我們需要增強(qiáng)用戶衡量輸出的能力。我們討論了如何循環(huán)應(yīng)用獎(jiǎng)勵(lì)建模:我們可以用獎(jiǎng)勵(lì)建模訓(xùn)練智能體,幫助用戶進(jìn)行評估。如果評估過程比做出動(dòng)作更容易,我們就能從簡單的任務(wù)中轉(zhuǎn)移到更復(fù)雜的任務(wù)上。這也可以看作是迭代增強(qiáng)的例子。
循環(huán)獎(jiǎng)勵(lì)建模圖示
例如,假設(shè)我們現(xiàn)在想訓(xùn)練智能體設(shè)計(jì)一款計(jì)算機(jī)芯片,為了檢測一款芯片設(shè)計(jì),我們訓(xùn)練了其他帶有獎(jiǎng)勵(lì)模型的智能體,模擬測試芯片的性能,計(jì)算熱損耗、估計(jì)芯片的使用壽命、尋找安全漏洞等等。最后,智能體的輸出能讓用戶訓(xùn)練出符合要求的智能體。盡管每個(gè)智能體都要解決很多比當(dāng)前機(jī)器學(xué)習(xí)系統(tǒng)更難的任務(wù),但這些任務(wù)會(huì)比設(shè)計(jì)芯片要簡單。因?yàn)樵O(shè)計(jì)一款計(jì)算機(jī)芯片,你要理解每種評估任務(wù),但是反之則不是必要的。在這種情況下,循環(huán)獎(jiǎng)勵(lì)模型可以讓我們的智能體解決更復(fù)雜的任務(wù),同時(shí)保留和用戶目標(biāo)之間的聯(lián)系。
研究挑戰(zhàn)
想將獎(jiǎng)勵(lì)建模擴(kuò)大到復(fù)雜問題中,我們會(huì)遇到一些挑戰(zhàn)。下圖列出了五種主要問題以及可能的解決方法,論文對這些問題進(jìn)行了深入的講解。
這也是智能體匹配問題中最后一個(gè)重要因素:當(dāng)將智能體應(yīng)用在現(xiàn)實(shí)世界中時(shí),我們需要向用戶充分證明我們的智能體的確和用戶目標(biāo)完全匹配。論文中提到了五種不同的方法,幫助用戶增加對智能體的信心:設(shè)計(jì)選擇、測試、可解釋性、正式驗(yàn)證以及理論保證。
結(jié)語
雖然我們相信循環(huán)獎(jiǎng)勵(lì)建模是訓(xùn)練相連智能體的正確方向,但目前我們還不知道它擴(kuò)展的情況如何。幸運(yùn)的是,我們還有一些與智能體連接相關(guān)的研究方向:
模仿學(xué)習(xí)
短期強(qiáng)化學(xué)習(xí)
反向強(qiáng)化學(xué)習(xí)
協(xié)作反向強(qiáng)化學(xué)習(xí)
迭代增強(qiáng)
辯論
智能體基礎(chǔ)
論文中對它們的相似之處和不同點(diǎn)都做了更深介紹。
正如對抗輸入對計(jì)算機(jī)視覺系統(tǒng)的穩(wěn)健性一樣,在復(fù)雜的顯示領(lǐng)域中部署機(jī)器學(xué)習(xí)系統(tǒng)也是未來需要面對的難題。盡管我們會(huì)在擴(kuò)展獎(jiǎng)勵(lì)建模時(shí)遇到挑戰(zhàn),但這些挑戰(zhàn)是可以從中獲取進(jìn)展的具體技術(shù)性問題。從這個(gè)意義上講,我們的研究方向已經(jīng)準(zhǔn)備就緒,可以開展深層強(qiáng)化學(xué)習(xí)智能體的實(shí)證研究了。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8501瀏覽量
134572 -
智能體
+關(guān)注
關(guān)注
1文章
302瀏覽量
11077 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
269瀏覽量
11596
原文標(biāo)題:如何讓智能體了解用戶意圖?DeepMind提出獎(jiǎng)勵(lì)建模
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】操作實(shí)戰(zhàn),開發(fā)一個(gè)編程助手智能體
什么是機(jī)電一體化
機(jī)電一體化系統(tǒng)
熱銷智能會(huì)議平板多媒體教學(xué)一體機(jī)
基于4位單片機(jī)SH66P58的智能體脂秤方案設(shè)計(jì)
如何讓AI符合人類的意圖?如何創(chuàng)建符合用戶意圖的智能體?
如何測試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性
華為鵬城智能體正式發(fā)布,創(chuàng)建數(shù)字經(jīng)濟(jì)樣板城市
數(shù)字花海中蓉城智能體邂逅未來 智能體的奇幻漂流之成都折疊篇
人工智能的倫理智能體應(yīng)用及相關(guān)研究

多智能體路徑規(guī)劃研究綜述
聯(lián)匯科技發(fā)布自主智能體 OmBot 歐姆智能體及 OmBot OS 操作系統(tǒng)

AI智能體逼真模擬人類行為
AI智能體包含哪些組件

評論