女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

面向中文搜索的開放域文檔視覺問答任務(wù)解決方案

深度學習自然語言處理 ? 來源:哈工大SCIR ? 作者:齊樂 ? 2022-07-08 11:19 ? 次閱讀

摘要

開放域問答在現(xiàn)實生活中有著廣泛的應(yīng)用,例如搜索引擎、企業(yè)問答、醫(yī)療問答等等。然而,現(xiàn)有開放域問答系統(tǒng)通常需要消耗大量成本針對不同格式的異構(gòu)文檔(如PDF、網(wǎng)頁、掃描文檔等)設(shè)計特定的內(nèi)容抽取算法,預先從文檔中抽取文本內(nèi)容作為系統(tǒng)的信息來源。這不僅限制了現(xiàn)有系統(tǒng)的可擴展能力,還損失了文檔中的布局和視覺信息。為此,本文提出了一個全新的開放域文檔視覺問答任務(wù),直接以異構(gòu)文檔圖像集合為信息來源回答用戶提問,并提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。DuReadervis共包含158K文檔圖像和15K對問答對,主要挑戰(zhàn)包括:1)長文檔理解;2)噪聲干擾;和3)多片段答案抽取。

1. 背景

現(xiàn)有開放域問答系統(tǒng)主要以文本集合作為信息來源回答用戶提問,如圖1所示,現(xiàn)有系統(tǒng)通常需要花費大量成本根據(jù)不同的文檔格式設(shè)計特定的內(nèi)容抽取算法,預先從異構(gòu)文檔中抽取文本內(nèi)容。這無疑限制了開放域問答系統(tǒng)的可擴展(scalable)能力。一個可擴展的問答系統(tǒng)應(yīng)能同時處理各種格式文檔,還可以輕松地遷移到尚未見過的文檔格式中。此外,現(xiàn)有系統(tǒng)由于只抽取了文本內(nèi)容,因此會損失原始文檔中極有價值的布局特征(如字體大小、列表格式或表格格式等)和視覺特征(如文本顏色、圖像等)。

圖1 開放域問答系統(tǒng)通用流程,需要根據(jù)文檔格式和來源設(shè)計不同的內(nèi)容抽取器抽取文本內(nèi)容

2. 開放域文檔視覺問答

為了提升開放域問答系統(tǒng)的可擴展能力,同時充分利用異構(gòu)文檔中的布局和視覺信息,本文提出了一個全新的問答任務(wù),即開放域文檔視覺問答(Open-domain Document Visual Question Answering,Open-domain DocVQA)。該任務(wù)從視覺角度描述異構(gòu)文檔,直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合為信息來源來回答用戶提問。如圖2所示,該任務(wù)通過通用抽取器(如OCR)抽取文檔圖像中的文本內(nèi)容和布局結(jié)構(gòu),然后將這些信息連同文檔圖像的視覺特征應(yīng)用于后續(xù)流程中。

圖2 開放域文檔視覺問答通用流程,將不同格式文檔視為文檔圖像,只需類似于OCR的通用抽取器抽取其中的文本內(nèi)容和布局特征

與開放域問答類似,該任務(wù)也包含兩個階段:

文檔視覺檢索(Document Visual Retrieval,DocVRE):從原始的文檔圖像集合中檢索和問題相關(guān)的小規(guī)模候選文檔圖像集合

文檔視覺問答(Document Visual Question Answering,DocVQA):根據(jù)檢索結(jié)果抽取單個或多個文本片段作為問題答案

3. DuReadervis

為了推動開放域文檔視覺問答的發(fā)展,本文從百度搜索日志中收集用戶向搜索引擎提出的真實問題和相關(guān)網(wǎng)頁并進行了問答對的標注,提出中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。相比于現(xiàn)有的文檔視覺問答數(shù)據(jù)集,DuReadervis的問題面向真實用戶提問,可以滿足開放域的信息搜索需求。此外,DuReadervis中的文檔圖像均來自于互聯(lián)網(wǎng)網(wǎng)頁,包含豐富的文本內(nèi)容和視覺特征以及復雜多樣的布局結(jié)構(gòu),而且DuReadervis需要抽取格式復雜的長答案,如多片段文本型答案、列表型答案和表格型答案。表1對比了DuReadervis和現(xiàn)有文檔視覺問答數(shù)據(jù)集。

表1 DuReadervis與其他文檔視覺問答數(shù)據(jù)集的對比

3.1 數(shù)據(jù)集統(tǒng)計分析

DuReadervis共包含158K文檔圖像和15K問答對,其中訓練集包括11K問答對;開發(fā)集包括1.5K問答對;測試集包括2.5K問答對。

文檔圖像

DuReadervis中的文本內(nèi)容的平均長度和文檔圖像的平均大小要遠超于其他數(shù)據(jù)集,表明DuReadervis中的文檔圖像包含更豐富的文本內(nèi)容和視覺特征。此外,DuReadervis中的文檔圖像來自于17000多個隨機網(wǎng)站,文檔主題和布局結(jié)構(gòu)多樣性高。另一方面,通常情況下網(wǎng)頁中會包含大量的噪聲信息,會對模型理解文檔產(chǎn)生干擾。

問題和答案

現(xiàn)有文檔視覺問答數(shù)據(jù)集中的問題主要為事實類問題。而在DuReadervis中,問題類型同時包含事實類和非事實類問題。本文隨機篩選了200條問題人工進行分類,發(fā)現(xiàn)43%的問題是非事實類問題。DuReadervis中的答案平均長度也要遠長于其他數(shù)據(jù)集中的答案平均長度。此外,DuReadervis的答案格式復雜,包含約40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中,很多答案都是不連續(xù)的,需要抽取多片段答案。

表2 數(shù)據(jù)集統(tǒng)計特征

3.2 數(shù)據(jù)集挑戰(zhàn)

總體而言,DuReadervis的主要挑戰(zhàn)包括以下三點:

長文檔理解:DuReadervis中的文檔圖像均轉(zhuǎn)換自互聯(lián)網(wǎng)頁面,包含更長的文本內(nèi)容、更豐富的視覺特征和復雜的布局結(jié)構(gòu);

噪聲干擾:來自于網(wǎng)頁的文檔圖像中會包含大量噪聲信息,例如廣告、相關(guān)推薦等,增大了文檔圖像的理解難度;

多片段答案抽取:DuReadervis中的答案格式更加復雜,包含文本、列表和表格型答案,需要模型抽取多片段長答案。

3.3 數(shù)據(jù)集樣例

傳統(tǒng)的開放域問答系統(tǒng)可以通過設(shè)計特殊的內(nèi)容抽取算法可以很好地去除表格外的噪聲干擾,但提取的文本內(nèi)容很難保留表格的布局結(jié)構(gòu),系統(tǒng)很難得知不同單元格文本內(nèi)容間的語義關(guān)聯(lián)。相比之下,開放域文檔視覺問答系統(tǒng)則可以通過表格的布局特征更輕松地建模單元格文本內(nèi)容間的語義關(guān)聯(lián),通過“站點”這一列標題找到問題的答案。

4. 基線方法

本文為DuReadervis提出了一個基線方法。該方法包括三部分:

基于PaddleOCR的通用內(nèi)容抽取:利用PaddleOCR技術(shù)從文檔圖像中抽取文本內(nèi)容和布局結(jié)構(gòu)作為系統(tǒng)輸入;

基于BM25的文檔視覺檢索:根據(jù)抽取出的文本內(nèi)容構(gòu)建檢索庫,再利用BM25算法檢索相關(guān)文檔圖像;

基于層次化LayoutXLM的文檔視覺問答:為了從候選文檔圖像中抽取問題答案,本文提出了層次化LayoutXLM模型。如圖4所示,該模型利用層次化建模的方式建模DuReadervis中的長文本內(nèi)容,并通過基于CRF的序列標注算法抽取多片段答案。其中,LayoutXLM[4]是以文本、布局和視覺特征為輸入的面向多語言跨模態(tài)文檔的預訓練模型。

圖4 層次化LayoutXLM模型架構(gòu)

5. 實驗

5.1 實驗設(shè)置

為了驗證所提方法的有效性,本文在文檔視覺問答和開放域文檔視覺問答任務(wù)上進行了實驗,將層次化LayoutXLM與基于純文本預訓練模型的層次化RobertaXLM[5]以及層次化BERT[6]進行對比。其中,在開放域文檔視覺問答實驗中,本文使用BM25算法檢索回與問題最相關(guān)的文檔圖像進行答案抽取。兩個任務(wù)的評價指標均為F1和Rouge-L。

5.2 實驗結(jié)果

如表3和表4所示,相比于基于純文本預訓練模型的方法,層次化LayoutXLM的性能有明顯提高,然而其整體性能仍與人類表現(xiàn)有一定差距。這表明,一方面布局結(jié)構(gòu)和視覺特征有助于模型理解文檔圖像,另一方面無論是文檔視覺問答亦或是開放域文檔視覺問答均有著較大的提升空間。

6. 結(jié)論

本文為了提高開放域問答系統(tǒng)的可擴展能力,使其可以用較低的成本以不同格式的異構(gòu)文檔作為其信息來源,提出了一個全新的開放域文檔視覺問答任務(wù),直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合來回答用戶提問。為了推動該任務(wù)的發(fā)展,本文提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis,包含158K文檔圖像和15K問答對。DuReadervis包含三個挑戰(zhàn):1)長文檔理解;2)噪聲干擾;3)多片段答案抽取。同時,本文提出了一個基線系統(tǒng)并進行了實驗,實驗結(jié)果表明現(xiàn)有基線系統(tǒng)和人類表現(xiàn)仍有一定差距,開放域文檔視覺問答任務(wù)仍有較大的提升空間。除研究目的外,開放域文檔視覺問答的相關(guān)技術(shù)已初步應(yīng)用于諸如汽車、電子、銀行等行業(yè)的問答系統(tǒng)中,并在飛槳AI Studio上開放。

審核編輯:郭婷


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 汽車電子
    +關(guān)注

    關(guān)注

    3035

    文章

    8256

    瀏覽量

    169553
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25284

原文標題:ACL2022 | 面向中文真實搜索場景的開放域文檔視覺問答數(shù)據(jù)集

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    中科曙光助力中航結(jié)算公司構(gòu)建私文檔智能問答系統(tǒng)

    近日,中航結(jié)算公司(中國航空結(jié)算有限責任公司)依托曙光AI解決方案提供的強勁算力,協(xié)同DeepAI深算智能引擎快速適配、調(diào)優(yōu)、上線DeepSeek大模型業(yè)務(wù)平臺。基于DeepSeek底座,中航結(jié)算公司構(gòu)建了以RAG增強檢索為核心的私
    的頭像 發(fā)表于 03-19 15:40 ?403次閱讀

    EtherCAT總線PCIe運動控制卡在多吸嘴上下料的視覺飛拍解決方案

    正運動多吸嘴上下料的視覺飛拍解決方案
    的頭像 發(fā)表于 02-11 09:57 ?399次閱讀
    EtherCAT總線PCIe運動控制卡在多吸嘴上下料的<b class='flag-5'>視覺</b>飛拍<b class='flag-5'>解決方案</b>

    OpenAI免費開放ChatGPT搜索功能

    近日,OpenAI宣布了一項重大決策:向所有用戶免費開放ChatGPT搜索功能。這一舉措無疑將為用戶帶來更加高效、智能的搜索體驗。 與谷歌等傳統(tǒng)搜索引擎的收錄模式相比,ChatGPT
    的頭像 發(fā)表于 02-06 14:35 ?443次閱讀

    機器視覺運動控制一體機在LED燈噴膠解決方案

    正運動LED燈視覺噴膠解決方案
    的頭像 發(fā)表于 01-17 11:08 ?386次閱讀
    機器<b class='flag-5'>視覺</b>運動控制一體機在LED燈噴膠<b class='flag-5'>解決方案</b>

    機器視覺運動控制一體機在視覺SCARA天地蓋貼合的解決方案

    正運動視覺SCARA天地蓋貼合的解決方案
    的頭像 發(fā)表于 01-07 10:09 ?364次閱讀
    機器<b class='flag-5'>視覺</b>運動控制一體機在<b class='flag-5'>視覺</b>SCARA天地蓋貼合的<b class='flag-5'>解決方案</b>

    Litera Drafting:幫助改進發(fā)布文檔的方式(十)

    產(chǎn)品介紹 contentCrawler是一種光學字符識別(OCR)和文檔壓縮解決方案,可識別資源庫中不可搜索文檔,并將其轉(zhuǎn)換為大小可控、可進行文本
    的頭像 發(fā)表于 01-06 10:57 ?329次閱讀

    構(gòu)建高效搜索解決方案,Elasticsearch &amp; Kibana 的完美結(jié)合

    前言 構(gòu)建高效搜索解決方案,F(xiàn)lexusX 服務(wù)器與 Elasticsearch & Kibana 的完美結(jié)合,為企業(yè)帶來云端搜索新體驗。FlexusX 實例以其卓越性能與靈活擴展性,確保高并發(fā)搜索
    的頭像 發(fā)表于 12-27 13:48 ?346次閱讀
    構(gòu)建高效<b class='flag-5'>搜索解決方案</b>,Elasticsearch &amp; Kibana 的完美結(jié)合

    面向NXP i.MX8處理器的電源解決方案

    電子發(fā)燒友網(wǎng)站提供《面向NXP i.MX8處理器的電源解決方案.pdf》資料免費下載
    發(fā)表于 12-24 15:53 ?0次下載
    <b class='flag-5'>面向</b>NXP i.MX8處理器的電源<b class='flag-5'>解決方案</b>

    安森美機器視覺系統(tǒng)解決方案

    機器視覺廣泛應(yīng)用于工業(yè)領(lǐng)域,涵蓋眾多應(yīng)用場景。在制造業(yè)中,利用機器視覺執(zhí)行的任務(wù)有:對子組件進行最終檢查,查驗零件有無潛在制造缺陷等等。在自動化領(lǐng)域,機器視覺在引導機器人方面發(fā)揮著重要
    的頭像 發(fā)表于 11-14 09:53 ?653次閱讀
    安森美機器<b class='flag-5'>視覺</b>系統(tǒng)<b class='flag-5'>解決方案</b>

    HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))本地搜索方案概述

    一、概述 本地搜索是在HarmonyOS歸一化搜索特性,開發(fā)者將應(yīng)用/元服務(wù)內(nèi)的功能和內(nèi)容通過意圖框架共享到HarmonyOS,即可實現(xiàn)“一步搜索,內(nèi)容直達”。 二、典型場景 以“音樂垂
    發(fā)表于 11-06 10:59

    TE一站式解決方案,助您“”見未來

    在汽車電子系統(tǒng)中, “”的概念源于車輛功能的不斷增加和電子電氣架構(gòu)的迭代升級。傳統(tǒng)的分布式控制架構(gòu)難以高效管理眾多功能,因此,車輛系統(tǒng)逐漸被劃分為不同的“功能”(如動力、車身
    的頭像 發(fā)表于 11-04 10:20 ?578次閱讀

    面向功能安全應(yīng)用的汽車開源操作系統(tǒng)解決方案

    在SAE 2024國際汽車安全大會上,Elektrobit的Linux專家王紅燕在操作系統(tǒng)與芯片技術(shù)的分論壇上為大家?guī)砹恕?b class='flag-5'>面向功能安全應(yīng)用的汽車開源操作系統(tǒng)解決方案”主題演講。
    的頭像 發(fā)表于 09-27 09:21 ?816次閱讀
    <b class='flag-5'>面向</b>功能安全應(yīng)用的汽車開源操作系統(tǒng)<b class='flag-5'>解決方案</b>

    面向熱插拔應(yīng)用的 I2C 解決方案

    電子發(fā)燒友網(wǎng)站提供《面向熱插拔應(yīng)用的 I2C 解決方案.pdf》資料免費下載
    發(fā)表于 09-09 10:03 ?3次下載
    <b class='flag-5'>面向</b>熱插拔應(yīng)用的 I2C <b class='flag-5'>解決方案</b>

    基于VPLC7機器視覺運動控制一體機的UVW視覺對位解決方案

    UVW視覺對位解決方案
    的頭像 發(fā)表于 08-01 09:54 ?803次閱讀
    基于VPLC7機器<b class='flag-5'>視覺</b>運動控制一體機的UVW<b class='flag-5'>視覺</b>對位<b class='flag-5'>解決方案</b>

    尋找低功耗、寬溫的開關(guān)解決方案?Standex Electronics干簧開關(guān)是您的理想選擇!

    尋找低功耗、寬溫的開關(guān)解決方案?Standex Electronics干簧開關(guān)是您的理想選擇!
    的頭像 發(fā)表于 06-12 13:24 ?3255次閱讀
    尋找低功耗、寬溫<b class='flag-5'>域</b>的開關(guān)<b class='flag-5'>解決方案</b>?Standex Electronics干簧開關(guān)是您的理想選擇!