1 簡介
DeepMind提出的Sparrow,相對于以往的方法,是一種更加有用,準確并且無害的信息檢索對話機器人。
在之前的對話研究中,往往會針對對話的不同方面去設計對應的任務跟模塊,例如知識性,一致性,長期記憶等等,但是Sparrow則不然,它直接根據用戶的用戶的反饋進行學習,這樣能盡可能讓模型對齊真實的用戶行為,而不再需要關注過于瑣碎的諸多對話細節。
圖1: Sparrow測試樣例
2 Sparrow
整個流程是通過Sparrow模型根據當前對話生成多個候選回復,讓用戶去判斷那個回復最好,哪些回復違反了預先設置好的規則,基于用戶的反饋去訓練對應的Reward模型,利用訓練好的Reward模型,用強化學習算法再去優化Sparrow的生成結果。
圖2:Sparrow框架
Reward
Sparrow學習的用戶反饋分為兩種,一種用戶判斷對話是否違背某些預設置好的規則,另一種的是從用戶根據當前對話從個候選答案里選擇最合適的一個。這兩種反饋分為對應兩個不同的模型,Rule reward model跟Preference reward model。
對于Rule reward model,首先需要根據任務自定義對應的一些規則,例如判斷機器人是否在回答用戶問題,話題是否變化等等,規則樣例如下圖所示。在具體訓練數據構造時,用戶在給定對話條件下,還會給某個特定規則,讓用戶有意識的引導機器人去違反對應的規則,然后再由用戶評估機器人回復是否違反對應的規則。
之所以采用這種方式是為了更高效的積累到高質量樣本。用構造好的訓練數據訓練對應的分類模型,判斷機器人回復是否違反對應的規則,每個規則對應一個分類模型,彼此獨立。
圖3:規則示例
對于Preference reward model,在給定當前對話條件下,利用多種方式生成多個候選答案(通過是否引入知識檢索,不同生成模型,不同prompt,不同采樣策略),讓用戶從中選擇最合適的答案。利用這些構造好的數據訓練可以得到對應的分類模型,判斷用戶對于當前回復的傾向。
以下圖為例,共有8個候選答案,其中前四個是不不經過知識檢索直接生成的,后面四個是通過兩個不同的檢索query進行知識檢索,將得到的檢索結果跟當前對話合并再一起后再生成回復的。
圖4: 回復生成流程
Reranking
當上述兩個Reward模型給候選答案生成對應的得分后,通過一個重排機制綜合考慮兩者的得分可以進一步優化對話機器人的性能。
Evidence
前面提及的答案生成是可以通過知識檢索,根據當前上下文生成對應的query,利用Google進行搜索,將得到的結果跟當前對話信息組合,然后再生成對應的回復。之前也寫過一些相關的文章,有興趣可以自行查看文本生成系列之retrieval augmentation(思考篇)。
Reinforcement learning
這里強化學習每一步的狀態是當前的對話上下文,action是具體的token,利用前面提及的rule reward model跟preference reward model來給action打出對應的reward得分,從而優化Sparrow的輸出結果。在強化學習訓練過程中,如果機器人生成的回復reward超過預期的話,就會把當前對話上下文+機器人回復作為新的訓練數據加入到語料中,擴充訓練語料庫。
圖5: 強化學習流程
3 總結
個人認為,Sparrow對話機器人,最大的特色在于直接對用戶的反饋進行學習,那樣就不需要為對話各種瑣碎細節去設計不同的模塊跟任務,把決策權進一步交給模型,讓模型自己去學,而對于那些機器人可能學不好的地方,通過預先定義的規則去構造對應的訓練數據,讓模型自己去補全。By the way, 可以好好期待一波ChatGPT了。
審核編輯:劉清
-
機器人
+關注
關注
213文章
29508瀏覽量
211633
原文標題:對話機器人之Sparrow
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
AI火爆 對話機器人將成為App之后的新入口?
電話機器人顯著提高回款效率,對催收幫助不言而喻。
智能打電話,機器人哪家比較好 如何選擇合適的電銷機器人
電銷機器人的優點
電話機器人:電銷行業精準篩選客戶的利器
華云天下智能電話機器人有哪些優勢?
機器人簡介
機器人系統與控制需求簡介
設計一個能自由行走并且可以與人語音對話機器人的設計資料分享
電話機器人是什么?電銷機器人有什么用?有多少電話機器人品牌?
檢索式智能對話機器人開發實戰案例詳細資料分析概述
外呼對話機器人,自動批量外呼、智能人機對話-漢云

評論