4月1 日, 亞馬遜宣布:他們計劃向公眾公開“Topical Chat”數據集,超410萬單詞21萬句子的語料庫將于2019年9月17日發布。
該數據集是為參加Alexa Prize Socialbot Grand Challenge 3競賽的團隊開發的,申請截止日期為2019年5月14日,比賽于2019年9月9日開始。所有參加Alexa Prize競賽的團隊將可以訪問此數據集的擴展版本(擴展主題聊天數據集),其中包括正在進行的集合和注釋的結果。
主題聊天數據集將包含超過210,000個句子(超過4,100,000個單詞),可支持高質量,可重復的研究,將成為研究界公開可用的最大社交對話和知識數據集。
每個語料庫的對話和對話輪次與提供給眾包工作者的知識相關聯,并且所述知識是從與一組實體相關的一系列“非結構化”和“松散結構化”的文本資源中收集的。
亞馬遜高級首席科學家Dilek Hakkani-Tur在博客文章中明確表示,沒有任何語料是與Alexa客戶的互動。
該數據庫是實現基于知識的神經反應生成系統的后續研究,解決其他公開數據集無法解決的自然對話中的難題。這將使研究者可以專注于研究對話中主題和知識選擇方面的轉換,以及如何在對話中融入事實和觀點。
-
數據集
+關注
關注
4文章
1223瀏覽量
25305 -
亞馬遜
+關注
關注
8文章
2692瀏覽量
84478
原文標題:亞馬遜將公布超過最大會話和知識數據集,超400萬字
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
Krea發布Deepseek R1驅動的Chat功能
lmp91200集成的spi沒有MISO,控制器向它寫命令不會返回數據是哪里出了問題?
亞馬遜云科技發布全新數據中心組件
亞馬遜將推出最新人工智能芯片
亞馬遜云未來五年將在意大利投資12億歐元
OpenAI收購chat.com,強化ChatGPT品牌
亞馬遜基于人工智能的Alexa發布計劃延期至明年
Lumen將AI光纖交易鏈接亞馬遜數據中心
亞馬遜逐步關閉Amazon Today服務
亞馬遜云與阿聯酋電訊公司簽署10億美元合作協議
亞馬遜云科技正式推出全球通行計劃 助力軟件企業加速增長和國際化拓展
亞馬遜斥資80億英鎊擴建英國數據中心
亞馬遜云科技啟動"智能家居與智能產品創新加速計劃"

亞馬遜云科技啟動“智能家居與智能產品創新加速計劃”

評論