在FAIR和蒙特利爾大學(xué)合作的最新研究中,研究人員首次將實(shí)驗(yàn)中將感知、行動(dòng)和使用自然語言交互達(dá)成目標(biāo)這三個(gè)任務(wù)結(jié)合在一起:讓兩個(gè)Bot使用自然語言對話,讓“導(dǎo)游bot”將“游客bot”帶到指定地點(diǎn),而且導(dǎo)航成功率超越了人類。
Facebook讓兩個(gè)Bot自己游紐約,“導(dǎo)游Bot”在模擬的紐約市中導(dǎo)航定位,使用自然語言跟“游客Bot”交流,成功率超過了88%!
這已經(jīng)顯著超越某些“路癡”人類,而且,兩個(gè)Bot還是使用自然語言在交流。
兩個(gè)Bot使用自然語言交流導(dǎo)航定位
在今天最新上傳到arxiv的一篇研究論文中,F(xiàn)acebook人工智能實(shí)驗(yàn)室(FAIR)與蒙特利爾大學(xué)合作,研究人工智能系統(tǒng)如何定位,并比人類更好地傳達(dá)觀測數(shù)據(jù)。
研究人員把他們的實(shí)驗(yàn)成為“Talk the Walk”。在實(shí)驗(yàn)中,他們將游客Bot隨機(jī)放到紐約市的一個(gè)街角,再讓一個(gè)導(dǎo)游Bot將前者引導(dǎo)到2D地圖上的某個(gè)位置。導(dǎo)游Bot知道地圖,也知道目標(biāo)地點(diǎn),但是不知道游客Bot在哪里;游客Bot擁有360°視角,但不知道地圖,也不清楚目標(biāo)地點(diǎn)。
游客和導(dǎo)游必須相互溝通,交流彼此所知道的信息,才能實(shí)現(xiàn)目標(biāo)。
想象一下兩個(gè)Bot的對話:
導(dǎo)游:你好,你在附近嗎?
游客:你好,在我面前是“布魯克斯兄弟”。
導(dǎo)游:這是家商店還是餐館?
游客:這是一家服裝店。
導(dǎo)游:你往地圖西北角的十字路口走。
游客:我身后似乎有一家銀行。
導(dǎo)游:好的,左轉(zhuǎn)然后沿著那條路直行。
...
研究人員表示,Talk the Walk是首個(gè)將所有三個(gè)要素結(jié)合在一起的任務(wù):感知(游客Bot觀察世)、行為(游客Bot在環(huán)境中導(dǎo)航),以及語言交互達(dá)成目標(biāo)(導(dǎo)游Bot為游客Bot提供引導(dǎo)幫助其實(shí)現(xiàn)目標(biāo))。
首次將感知、行動(dòng)和使用自然語言交流達(dá)成目標(biāo)結(jié)合在一起
實(shí)驗(yàn)中使用的街景地圖數(shù)據(jù),是MTurk眾包手動(dòng)收集的幾個(gè)紐約市街區(qū)的360°視圖。這些街景環(huán)境被整合到ParlAI中,這是Facebook的一個(gè)用于訓(xùn)練AI的框架,支持很多任務(wù),包含的數(shù)據(jù)集包括SQuAD,bAbI tasks,MS MARCO,MCTest,WikiQA,WebQuestions等等。
實(shí)驗(yàn)中使用的自然語言數(shù)據(jù),也是MTurk的真人對話,用幾周時(shí)間收集,包含10k成功的導(dǎo)航對話。平均來說,人類需要超過62次行動(dòng)(對話和走路)才能順利到達(dá)目標(biāo)地點(diǎn)。大部分行動(dòng)發(fā)生在游客這邊,平均每次對話44次行動(dòng)。人類導(dǎo)游大約說了9次話(稍微比游客的8次話多一點(diǎn)點(diǎn))。
雖然研究人員的目標(biāo)是讓Bot通過自然語言來處理收集到的信息,但他們發(fā)現(xiàn),當(dāng)Bot使用“合成語言”時(shí),完成任務(wù)的效果更好,因?yàn)楹笳吒蕾囉谑褂酶唵蔚姆杹韨鬟_(dá)信息和位置。這種不那么自然的數(shù)據(jù)通信方式不僅優(yōu)于人類的聊天,還能讓Bot比人在自然語言聊天中更簡單快讀地找到自己的道路。
機(jī)器比人類更擅長導(dǎo)航定位!
Talk The Walk的實(shí)驗(yàn)環(huán)境設(shè)置全部來自現(xiàn)實(shí)世界,因此尤其困難。讓兩個(gè)人用文字描述自己周圍的不熟悉環(huán)境已經(jīng)不容易,何況兩個(gè)Bot?
為了解決這個(gè)問題,研究人員提出了一個(gè)名為MASC(Masked Attention for Spatial Convolution)的機(jī)制,讓Bot能快速從語言模型中解析對方回應(yīng)的關(guān)鍵字的內(nèi)容。Facebook表示,利用該流程可以使正在測試的結(jié)果的準(zhǔn)確性翻倍。
結(jié)果顯示,他們最好的溝通模型(emergent communication model)準(zhǔn)確率幾乎達(dá)到了70%,要顯著優(yōu)于從人類話語中得到最好的定位模型(大約20%),這表明人類很不善于定位,因?yàn)槿祟惒⒉豢偰芎芎玫貍鬟_(dá)自己的觀察和行動(dòng)。
不僅如此,他們最好的定位模型(continuous communication, with MASC, and T = 3)在整個(gè)導(dǎo)航任務(wù)測試中達(dá)到了88.33%的準(zhǔn)確率,超過了人類76.74%的表現(xiàn)。
激動(dòng)人心的新研究方向:用自然語言對話解決現(xiàn)實(shí)世界問題
研究人員表示,這是一項(xiàng)基礎(chǔ)性研究,這次實(shí)驗(yàn)只是初步結(jié)果,還提出了更多的問題等待解決。
“如果你真的想要解決所有人工智能問題,那么你可能要有解決不同子問題的不同模塊或組件,”Facebook AI研究科學(xué)家Douwe Kiela在接受TechCrunch記者采訪時(shí)表示:“從這個(gè)意義上說,這個(gè)問題是一個(gè)真正的挑戰(zhàn)。”
他希望有更多的人參與進(jìn)來與他們共同在這個(gè)激動(dòng)人心的新研究方向上與他們合作。
-
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
56676 -
導(dǎo)航定位
+關(guān)注
關(guān)注
0文章
37瀏覽量
11330 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13654
原文標(biāo)題:兩個(gè)Bot自創(chuàng)新語言!Facebook機(jī)器人紐約自由行導(dǎo)航定位碾壓人類
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論