編者按:很多現(xiàn)實(shí)中的任務(wù)都有著復(fù)雜的目標(biāo)或者很難詳細(xì)表述出的目標(biāo),這就很難衡量機(jī)器在此任務(wù)上的表現(xiàn)結(jié)果。其中一種解決辦法是,人類通過演示或判斷提供訓(xùn)練信號,但是這種方法在復(fù)雜情況下很容易失效。現(xiàn)在,OpenAI提出了一種方法,能夠?yàn)閺?fù)雜任務(wù)生成訓(xùn)練信號。以下是論智對原文的編譯。
我們提出的技術(shù)稱作迭代擴(kuò)增(iterated amplification),它能讓我們清楚的了解超越了人類能力的復(fù)雜行為和目標(biāo)。與提供標(biāo)簽數(shù)據(jù)或獎勵函數(shù)不同,我們的方法是將一個任務(wù)分解成多個更簡單的小任務(wù)。盡管這一想法還處在初級階段,而且一直在簡單的游戲算法中進(jìn)行了實(shí)驗(yàn),不過我們還是決定分享出它的初期狀態(tài),因?yàn)槲覀冋J(rèn)為它將是保證AI安全非常有用的方法。
論文地址:arxiv.org/abs/1810.08575
如果我們想訓(xùn)練一個機(jī)器學(xué)習(xí)系統(tǒng)執(zhí)行任務(wù),就需要一個訓(xùn)練信號,這是一種衡量系統(tǒng)表現(xiàn)的方法,從而能幫助它更好地學(xué)習(xí)。例如,監(jiān)督學(xué)習(xí)中的標(biāo)簽或強(qiáng)化學(xué)習(xí)中的獎勵都可以看作訓(xùn)練信號。機(jī)器學(xué)習(xí)的組織規(guī)則通常假設(shè)一種訓(xùn)練信號已經(jīng)有現(xiàn)成的了,我們應(yīng)該關(guān)注從中學(xué)習(xí),但是事實(shí)上,訓(xùn)練信號必須從別處得到。如果沒有訓(xùn)練信號,就無法學(xué)習(xí)任務(wù)。如果得到了錯誤的訓(xùn)練信號,就會得到錯誤、甚至危險的行為。所以,提高生成訓(xùn)練信號的能力對學(xué)習(xí)新任務(wù)和AI安全性都是有利的。
目前我們是如何生成訓(xùn)練信號的呢?有時,我們想實(shí)現(xiàn)的目標(biāo)可以用算法進(jìn)行評估,例如在圍棋比賽中計算得分或者是否成功得到了一定的分?jǐn)?shù)。大多數(shù)現(xiàn)實(shí)任務(wù)都不適合算法訓(xùn)練信號,但是通常我們可以通過人類執(zhí)行任務(wù)或判斷AI的性能獲得訓(xùn)練信號。但是大多數(shù)任務(wù)都很復(fù)雜,人類無法進(jìn)行判斷或很好地執(zhí)行,它們可能具有復(fù)雜的轉(zhuǎn)接系統(tǒng)或者有多種安全問題。
迭代擴(kuò)增就是為第二種類型的任務(wù)設(shè)計的生成訓(xùn)練信號的方法。換句話說,雖然人類不能直接進(jìn)行全部任務(wù),但是我們假設(shè)他可以清楚地辨別某種任務(wù)中的各種組成部分。例如,在計算機(jī)的網(wǎng)絡(luò)案例中,人類可以將“保護(hù)服務(wù)器和路由器”的任務(wù)分解成“了解服務(wù)器受到的攻擊”、“了解路由器受到的攻擊”以及“這兩種攻擊如何交互”。另外,我們假設(shè)人類可以完成任務(wù)的一些很小實(shí)例,例如“辨別日志文件中可疑的特定代碼”。如果這些可以實(shí)現(xiàn),那么我們就能通過人類在小任務(wù)上的訓(xùn)練信號搭建大型任務(wù)的訓(xùn)練信號。
在我們實(shí)施迭代擴(kuò)增的過程中,我們首先對小的子任務(wù)進(jìn)行采樣,訓(xùn)練AI系統(tǒng)模擬人類示范完成任務(wù)。之后,我們開始收集稍大型的任務(wù),解決的方法是先讓人們將其分為小部分,經(jīng)過訓(xùn)練的AI就能解決這些小問題。這種方法常用于稍困難的任務(wù)中,其中加入了人類的幫助,作為訓(xùn)練信號來訓(xùn)練AI系統(tǒng)解決多層任務(wù)。之后在解決更復(fù)雜的任務(wù)時,重復(fù)搭建這樣的訓(xùn)練模型即可。如果這一過程可行,最終就能生成一個完全自動的解決復(fù)雜任務(wù)的系統(tǒng),不論初期是否有直接的訓(xùn)練信號。這一過程有點(diǎn)像AlphaGo Zero中使用的expert iteration,只不過expert iteration是對現(xiàn)有的訓(xùn)練信號進(jìn)行強(qiáng)化,而我們的iterated amplification是從零創(chuàng)造訓(xùn)練信號。它還類似于最近的幾種學(xué)習(xí)算法,例如在測試時利用問題分解解決某個任務(wù),但是不同的是它是在沒有先驗(yàn)訓(xùn)練信號的情況下操作的。
實(shí)驗(yàn)
基于此前研究AI辯論的經(jīng)驗(yàn),我們認(rèn)為直接處理超越人類尺度的任務(wù)對一個原型項目來說太難了。同時,利用人類的實(shí)際行為作為訓(xùn)練信號也比較復(fù)雜,所以我們還沒有解決這一點(diǎn)。在我們的第一個實(shí)驗(yàn)中,我們嘗試擴(kuò)大一個算法訓(xùn)練信號,來證明iterated amplification可以在這一簡單的設(shè)置上工作。我們同樣將注意力限制在監(jiān)督學(xué)習(xí)上。
我們在五個不同的玩具算法任務(wù)中測試了這種方法,這些任務(wù)都有直接的算法解決方案,但我們假裝不知道(例如,尋找圖中兩點(diǎn)之間的最短路線),不過,若想把每個片段手動組合起來就需要大量精力。我們使用迭代擴(kuò)增來學(xué)習(xí)只使用片段作為訓(xùn)練信號的直接算法,從而模擬人類知道如何組合解決方法片段、但沒有直接的訓(xùn)練信號的情況。
在這五個任務(wù)中(排列供電、順序分配、通配符搜索、最短路徑查詢以及聯(lián)合查找),結(jié)果與直接通過監(jiān)督學(xué)習(xí)解決的任務(wù)表現(xiàn)相當(dāng)。
擴(kuò)增方法和此前對AI安全的辯論研究有很多相似特征。和辯論相似的是,它也是訓(xùn)練模型在人類無法完成的任務(wù)上直接執(zhí)行或判斷,通過迭代過程讓人類提供間接的監(jiān)督,不過具體方法并不相同。未來,我們會加入人類的反饋機(jī)制。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4367瀏覽量
64164 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8490瀏覽量
134069
原文標(biāo)題:任務(wù)太龐大?OpenAI用“迭代擴(kuò)增”學(xué)習(xí)復(fù)雜任務(wù)
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
探索一種降低ViT模型訓(xùn)練成本的方法
μClinux下實(shí)時任務(wù)的一種實(shí)現(xiàn)方法
得到模擬應(yīng)用設(shè)計經(jīng)驗(yàn)的一種方法
關(guān)于實(shí)時操作系統(tǒng)中任務(wù)間通信的一種方法

一種新的DEA公共權(quán)重生成方法
研究人員提出一種基于哈希的二值網(wǎng)絡(luò)訓(xùn)練方法 比當(dāng)前方法的精度提高了3%
從電路的角度出發(fā),提出了一種新的SOC跨時鐘域同步電路設(shè)計的方法

OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法
OpenAI提出了一種回報設(shè)置方法RND
微軟在ICML 2019上提出了一個全新的通用預(yù)訓(xùn)練方法MASS

一種針對該文本檢索任務(wù)的BERT算法方案DR-BERT
一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

一種基于改進(jìn)的DCGAN生成SAR圖像的方法

評論