女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌重磅發布自然問題數據集,包含30萬個自然發生的問題和人工注釋的答案

DPVg_AI_era ? 來源:lq ? 2019-01-25 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,谷歌重磅發布自然問題數據集(Natural Questions),包含30萬個自然發生的問題和人工注釋的答案,16000個示例,并發起基于此數據集的問答系統挑戰賽。有望成為自然語言理解領域的SQuAD!

開放領域問題回答(QA)是自然語言理解(NLU)中的一項基準任務,它的目的是模擬人類如何查找信息,通過閱讀和理解整個文檔來找到問題的答案。

比如,給定一個用自然語言表達的問題“為什么天空是藍色的?”("Why is the sky blue?”),QA系統應該能夠閱讀網頁(例如“天空漫射”的維基百科頁面)并返回正確的答案,即使答案有些復雜和冗長。

然而,目前還沒有可以用于訓練和評估QA模型的大型、公開的自然發生問題(即由尋求信息的人提出的問題)和答案數據集。

這是因為構建用于QA任務的高質量數據集需要大量的真實問題來源,并且需要大量人力來為這些問題尋找正確答案。

為了促進QA領域的研究進展,谷歌今天發布自然問題數據集(Natural Questions, NQ),這是一個用于訓練和評估開放領域問答系統的新的、大規模語料庫,也是第一個復制人類查找問題答案的端到端流程的語料庫。

Natural Questions數據集

NQ的規模非常龐大,包含30萬個自然發生的問題,以及來自Wikipedia頁面的人工注釋答案,用于訓練QA系統。

此外,NQ語料庫還包含16000個示例,每個示例都由5位不同的注釋人提供答案(針對相同的問題),這對于評估所學習的QA系統的性能非常有用。

Natural Questions數據集中的示例

由于回答NQ中的問題比回答瑣碎問題(這些問題對計算機來說已經很容易解決)需要有更深入的理解,谷歌還發起了一項基于此數據集的挑戰賽,以幫助提高計算機對自然語言的理解。

NQ挑戰賽排行榜

NQ數據集包含307K訓練示例、8K開發示例和8K測試示例。

目前,NQ挑戰賽排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成績。在論文中,谷歌證明在長答案選擇任務上的人類的最優成績為87% F1,在短答案選擇任務上人類的最優成績為76%。

來自谷歌搜索的真實問題

NQ是第一個使用自然發生的查詢創建的數據集,并專注于通過閱讀整個頁面來查找答案,而不是從一個短段落中提取答案。

為了創建NQ,我們從用戶提交給Google搜索引擎的真實、匿名、聚合的查詢開始。

然后,我們要求注釋者通過通讀整個維基百科頁面來找到答案,就好像這個問題是他們自己提出的一樣。注釋者需要找到一個長答案和一個短答案,長答案涵蓋推斷問題所需的所有信息,短答案需要用一個或多個實體的名稱簡潔地回答問題。

對NQ語料庫的注釋質量進行評估,顯示準確率達到90%。

注釋包含一個長答案和一個短答案

研究人員在論文《自然問題:問答研究的基準》(Natural Questions: a Benchmark for Question Answering Research)中對數據收集的過程進行了全面描述,論文已發表在《計算語言學協會會刊》(Transactions of the Association for computing Linguistics)。大家也可以在NQ網站上查看更多來自數據集的示例。

自然語言理解挑戰

NQ的目的是使QA系統能夠閱讀和理解完整的維基百科文章,其中可能包含問題的答案,也可能不包含問題的答案。

系統首先需要確定這個問題的定義是否足夠充分,是否可以回答——許多問題本身基于錯誤的假設,或者過于模糊,無法簡明扼要地回答。

然后,系統需要確定維基百科頁面中是否包含推斷答案所需的所有信息。我們認為,相比在知道長答案后在尋找短答案,長答案識別任務——找到推斷答案所需的所有信息——需要更深層次的語言理解。

我們希望NQ的發布以及相關的挑戰賽將有助于推動更有效、更強大的QA系統的開發。我們鼓勵NLU社區參與進來,并幫助縮小目前最先進方法的性能與人類上限之間的巨大差距。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108245
  • 數據集
    +關注

    關注

    4

    文章

    1224

    瀏覽量

    25478
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13659

原文標題:NLP新基準!谷歌重磅發布開放問答數據集,30萬自然提問+人工注釋答案

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    航天宏圖筑牢自然災害安全防線

    自然災害頻發的今天,每一秒的數據滯后都可能意味著生命與財產的巨大損失。如何讓防災減災的決策從“經驗驅動”轉向“數據智能”?航天宏圖用一套“常普常新”的科技解決方案,給出了答案。
    的頭像 發表于 07-14 14:31 ?177次閱讀

    無法將自定義COCO數據導入到OpenVINO? DL Workbench怎么解決?

    JSON包含以下格式注釋的文件:{ \"images\": [], \"annotations\": [] } 創建自定義 COCO 數據。 無法將自定義 COCO
    發表于 03-05 06:02

    啟英泰倫新推出多意圖自然說,重塑離線人機交互新標準!

    自然說多意圖自然說是啟英泰倫新推出的一種離線NLP處理技術,該技術突破以往一次只能說一命令詞的限制,可同時配置多個命令詞,且說法靈活,不需要依照固定的詞條順序。用
    的頭像 發表于 01-03 16:01 ?562次閱讀
    啟英泰倫新推出多意圖<b class='flag-5'>自然</b>說,重塑離線人機交互新標準!

    如何優化自然語言處理模型的性能

    優化自然語言處理(NLP)模型的性能是一多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調參、模型集成與融合等多個環節。以下是一些具體的優化策略: 一、數據預處理優化 文本清洗
    的頭像 發表于 12-05 15:30 ?1724次閱讀

    如何使用自然語言處理分析文本數據

    使用自然語言處理(NLP)分析文本數據是一復雜但系統的過程,涉及多個步驟和技術。以下是一基本的流程,幫助你理解如何使用NLP來分析文本數據
    的頭像 發表于 12-05 15:27 ?1609次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了一種強大的工具,用于從大
    的頭像 發表于 12-05 15:21 ?2004次閱讀

    語音識別與自然語言處理的關系

    人工智能的快速發展中,語音識別和自然語言處理(NLP)成為了兩重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓機器能夠理解、解釋和生成人類語言。這兩項技術
    的頭像 發表于 11-26 09:21 ?1519次閱讀

    自然答案超級植物工廠獲超千萬元天使輪融資

    光合未來旗下子公司“自然答案超級植物工廠”近日宣布,已完成折合總計超千萬元的天使輪融資。本輪融資由“燕趙園林”主導投資,將主要用于啟動光合未來300畝產業園區一期的建設。這也是光合未來體系內的第五次
    的頭像 發表于 11-22 13:59 ?670次閱讀

    什么是LLM?LLM在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理(NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現,標志著我們對語言理解能力的一次飛躍。LLM通過深度學習和海量數據訓練,使得機器能夠以前
    的頭像 發表于 11-19 15:32 ?3698次閱讀

    ASR與自然語言處理的結合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領域的兩重要分支,它們在許多應用中緊密結合,共同構成了自然語言理解和
    的頭像 發表于 11-18 15:19 ?1045次閱讀

    卷積神經網絡在自然語言處理中的應用

    自然語言處理是人工智能領域的一重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展,卷積神經網絡(CNNs)作為一種強大的模型,在圖像識別和語音處理等領域取得了顯著成果
    的頭像 發表于 11-15 14:58 ?818次閱讀

    科技受邀參加北汽人工智能科技日活動

    近日,科技受邀參加了由北汽新能源舉辦的人工智能科技日活動。此次活動匯聚了眾多人工智能領域的領先企業及科研機構,共同探討人工智能技術如何推
    的頭像 發表于 11-13 16:41 ?846次閱讀

    自然語言處理與機器學習的區別

    人工智能的快速發展中,自然語言處理(NLP)和機器學習(ML)成為了兩核心的研究領域。它們都致力于解決復雜的問題,但側重點和應用場景有所不同。 1. 自然語言處理(NLP) 定義:
    的頭像 發表于 11-11 10:35 ?1573次閱讀

    使用LLM進行自然語言處理的優缺點

    自然語言處理(NLP)是人工智能和語言學領域的一分支,它致力于使計算機能夠理解、解釋和生成人類語言。大型語言模型(LLM)是NLP領域的一項重要技術,它們通過深度學習和大量的數據訓練
    的頭像 發表于 11-08 09:27 ?2496次閱讀

    AI智能化問答:自然語言處理技術的重要應用

    自然語言處理(NLP)是人工智能領域的一重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。問答系統作為NLP的一重要應用,能夠精確地解析用戶以
    的頭像 發表于 10-12 10:58 ?1112次閱讀
    AI智能化問答:<b class='flag-5'>自然</b>語言處理技術的重要應用