操逼值播视频,日韩中文字幕,在线播放成视频人网站日本

1 簡介

DeepMind提出的Sparrow，相對于以往的方法，是一種更加有用，準確并且無害的信息檢索對話機器人。

在之前的對話研究中，往往會針對對話的不同方面去設計對應的任務跟模塊，例如知識性，一致性，長期記憶等等，但是Sparrow則不然，它直接根據用戶的用戶的反饋進行學習，這樣能盡可能讓模型對齊真實的用戶行為，而不再需要關注過于瑣碎的諸多對話細節。

圖1: Sparrow測試樣例

2 Sparrow

整個流程是通過Sparrow模型根據當前對話生成多個候選回復，讓用戶去判斷那個回復最好，哪些回復違反了預先設置好的規則，基于用戶的反饋去訓練對應的Reward模型，利用訓練好的Reward模型，用強化學習算法再去優化Sparrow的生成結果。

圖2:Sparrow框架

Reward

Sparrow學習的用戶反饋分為兩種，一種用戶判斷對話是否違背某些預設置好的規則，另一種的是從用戶根據當前對話從個候選答案里選擇最合適的一個。這兩種反饋分為對應兩個不同的模型，Rule reward model跟Preference reward model。

對于Rule reward model，首先需要根據任務自定義對應的一些規則，例如判斷機器人是否在回答用戶問題，話題是否變化等等，規則樣例如下圖所示。在具體訓練數據構造時，用戶在給定對話條件下，還會給某個特定規則，讓用戶有意識的引導機器人去違反對應的規則，然后再由用戶評估機器人回復是否違反對應的規則。

之所以采用這種方式是為了更高效的積累到高質量樣本。用構造好的訓練數據訓練對應的分類模型，判斷機器人回復是否違反對應的規則，每個規則對應一個分類模型，彼此獨立。

圖3:規則示例

對于Preference reward model，在給定當前對話條件下，利用多種方式生成多個候選答案（通過是否引入知識檢索，不同生成模型，不同prompt，不同采樣策略），讓用戶從中選擇最合適的答案。利用這些構造好的數據訓練可以得到對應的分類模型，判斷用戶對于當前回復的傾向。

以下圖為例，共有8個候選答案，其中前四個是不不經過知識檢索直接生成的，后面四個是通過兩個不同的檢索query進行知識檢索，將得到的檢索結果跟當前對話合并再一起后再生成回復的。

圖4: 回復生成流程

Reranking

當上述兩個Reward模型給候選答案生成對應的得分后，通過一個重排機制綜合考慮兩者的得分可以進一步優化對話機器人的性能。

Evidence

前面提及的答案生成是可以通過知識檢索，根據當前上下文生成對應的query，利用Google進行搜索，將得到的結果跟當前對話信息組合，然后再生成對應的回復。之前也寫過一些相關的文章，有興趣可以自行查看文本生成系列之retrieval augmentation（思考篇）。

Reinforcement learning

這里強化學習每一步的狀態是當前的對話上下文，ac tion是具體的token，利用前面提及的rule reward model跟preference reward model來給action打出對應的reward得分，從而優化Sparrow的輸出結果。在強化學習訓練過程中，如果機器人生成的回復reward超過預期的話，就會把當前對話上下文+機器人回復作為新的訓練數據加入到語料中，擴充訓練語料庫。

圖5: 強化學習流程

3 總結

個人認為，Sparrow對話機器人，最大的特色在于直接對用戶的反饋進行學習，那樣就不需要為對話各種瑣碎細節去設計不同的模塊跟任務，把決策權進一步交給模型，讓模型自己去學，而對于那些機器人可能學不好的地方，通過預先定義的規則去構造對應的訓練數據，讓模型自己去補全。By the way, 可以好好期待一波ChatGPT了。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器人

機器人

+關注

關注
213

文章
29508

瀏覽量
211633

原文標題：對話機器人之Sparrow

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

對話機器人之Sparrow簡介

評論