摘要
開放域問答在現(xiàn)實生活中有著廣泛的應(yīng)用,例如搜索引擎、企業(yè)問答、醫(yī)療問答等等。然而,現(xiàn)有開放域問答系統(tǒng)通常需要消耗大量成本針對不同格式的異構(gòu)文檔(如PDF、網(wǎng)頁、掃描文檔等)設(shè)計特定的內(nèi)容抽取算法,預先從文檔中抽取文本內(nèi)容作為系統(tǒng)的信息來源。這不僅限制了現(xiàn)有系統(tǒng)的可擴展能力,還損失了文檔中的布局和視覺信息。為此,本文提出了一個全新的開放域文檔視覺問答任務(wù),直接以異構(gòu)文檔圖像集合為信息來源回答用戶提問,并提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。DuReadervis共包含158K文檔圖像和15K對問答對,主要挑戰(zhàn)包括:1)長文檔理解;2)噪聲干擾;和3)多片段答案抽取。
1. 背景
現(xiàn)有開放域問答系統(tǒng)主要以文本集合作為信息來源回答用戶提問,如圖1所示,現(xiàn)有系統(tǒng)通常需要花費大量成本根據(jù)不同的文檔格式設(shè)計特定的內(nèi)容抽取算法,預先從異構(gòu)文檔中抽取文本內(nèi)容。這無疑限制了開放域問答系統(tǒng)的可擴展(scalable)能力。一個可擴展的問答系統(tǒng)應(yīng)能同時處理各種格式文檔,還可以輕松地遷移到尚未見過的文檔格式中。此外,現(xiàn)有系統(tǒng)由于只抽取了文本內(nèi)容,因此會損失原始文檔中極有價值的布局特征(如字體大小、列表格式或表格格式等)和視覺特征(如文本顏色、圖像等)。
圖1 開放域問答系統(tǒng)通用流程,需要根據(jù)文檔格式和來源設(shè)計不同的內(nèi)容抽取器抽取文本內(nèi)容
2. 開放域文檔視覺問答
為了提升開放域問答系統(tǒng)的可擴展能力,同時充分利用異構(gòu)文檔中的布局和視覺信息,本文提出了一個全新的問答任務(wù),即開放域文檔視覺問答(Open-domain Document Visual Question Answering,Open-domain DocVQA)。該任務(wù)從視覺角度描述異構(gòu)文檔,直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合為信息來源來回答用戶提問。如圖2所示,該任務(wù)通過通用抽取器(如OCR)抽取文檔圖像中的文本內(nèi)容和布局結(jié)構(gòu),然后將這些信息連同文檔圖像的視覺特征應(yīng)用于后續(xù)流程中。
圖2 開放域文檔視覺問答通用流程,將不同格式文檔視為文檔圖像,只需類似于OCR的通用抽取器抽取其中的文本內(nèi)容和布局特征
與開放域問答類似,該任務(wù)也包含兩個階段:
文檔視覺檢索(Document Visual Retrieval,DocVRE):從原始的文檔圖像集合中檢索和問題相關(guān)的小規(guī)模候選文檔圖像集合
文檔視覺問答(Document Visual Question Answering,DocVQA):根據(jù)檢索結(jié)果抽取單個或多個文本片段作為問題答案
3. DuReadervis
為了推動開放域文檔視覺問答的發(fā)展,本文從百度搜索日志中收集用戶向搜索引擎提出的真實問題和相關(guān)網(wǎng)頁并進行了問答對的標注,提出中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。相比于現(xiàn)有的文檔視覺問答數(shù)據(jù)集,DuReadervis的問題面向真實用戶提問,可以滿足開放域的信息搜索需求。此外,DuReadervis中的文檔圖像均來自于互聯(lián)網(wǎng)網(wǎng)頁,包含豐富的文本內(nèi)容和視覺特征以及復雜多樣的布局結(jié)構(gòu),而且DuReadervis需要抽取格式復雜的長答案,如多片段文本型答案、列表型答案和表格型答案。表1對比了DuReadervis和現(xiàn)有文檔視覺問答數(shù)據(jù)集。
表1 DuReadervis與其他文檔視覺問答數(shù)據(jù)集的對比
3.1 數(shù)據(jù)集統(tǒng)計分析
DuReadervis共包含158K文檔圖像和15K問答對,其中訓練集包括11K問答對;開發(fā)集包括1.5K問答對;測試集包括2.5K問答對。
文檔圖像
DuReadervis中的文本內(nèi)容的平均長度和文檔圖像的平均大小要遠超于其他數(shù)據(jù)集,表明DuReadervis中的文檔圖像包含更豐富的文本內(nèi)容和視覺特征。此外,DuReadervis中的文檔圖像來自于17000多個隨機網(wǎng)站,文檔主題和布局結(jié)構(gòu)多樣性高。另一方面,通常情況下網(wǎng)頁中會包含大量的噪聲信息,會對模型理解文檔產(chǎn)生干擾。
問題和答案
現(xiàn)有文檔視覺問答數(shù)據(jù)集中的問題主要為事實類問題。而在DuReadervis中,問題類型同時包含事實類和非事實類問題。本文隨機篩選了200條問題人工進行分類,發(fā)現(xiàn)43%的問題是非事實類問題。DuReadervis中的答案平均長度也要遠長于其他數(shù)據(jù)集中的答案平均長度。此外,DuReadervis的答案格式復雜,包含約40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中,很多答案都是不連續(xù)的,需要抽取多片段答案。
表2 數(shù)據(jù)集統(tǒng)計特征
3.2 數(shù)據(jù)集挑戰(zhàn)
總體而言,DuReadervis的主要挑戰(zhàn)包括以下三點:
長文檔理解:DuReadervis中的文檔圖像均轉(zhuǎn)換自互聯(lián)網(wǎng)頁面,包含更長的文本內(nèi)容、更豐富的視覺特征和復雜的布局結(jié)構(gòu);
噪聲干擾:來自于網(wǎng)頁的文檔圖像中會包含大量噪聲信息,例如廣告、相關(guān)推薦等,增大了文檔圖像的理解難度;
多片段答案抽取:DuReadervis中的答案格式更加復雜,包含文本、列表和表格型答案,需要模型抽取多片段長答案。
3.3 數(shù)據(jù)集樣例
傳統(tǒng)的開放域問答系統(tǒng)可以通過設(shè)計特殊的內(nèi)容抽取算法可以很好地去除表格外的噪聲干擾,但提取的文本內(nèi)容很難保留表格的布局結(jié)構(gòu),系統(tǒng)很難得知不同單元格文本內(nèi)容間的語義關(guān)聯(lián)。相比之下,開放域文檔視覺問答系統(tǒng)則可以通過表格的布局特征更輕松地建模單元格文本內(nèi)容間的語義關(guān)聯(lián),通過“站點”這一列標題找到問題的答案。
4. 基線方法
本文為DuReadervis提出了一個基線方法。該方法包括三部分:
基于PaddleOCR的通用內(nèi)容抽取:利用PaddleOCR技術(shù)從文檔圖像中抽取文本內(nèi)容和布局結(jié)構(gòu)作為系統(tǒng)輸入;
基于BM25的文檔視覺檢索:根據(jù)抽取出的文本內(nèi)容構(gòu)建檢索庫,再利用BM25算法檢索相關(guān)文檔圖像;
基于層次化LayoutXLM的文檔視覺問答:為了從候選文檔圖像中抽取問題答案,本文提出了層次化LayoutXLM模型。如圖4所示,該模型利用層次化建模的方式建模DuReadervis中的長文本內(nèi)容,并通過基于CRF的序列標注算法抽取多片段答案。其中,LayoutXLM[4]是以文本、布局和視覺特征為輸入的面向多語言跨模態(tài)文檔的預訓練模型。
圖4 層次化LayoutXLM模型架構(gòu)
5. 實驗
5.1 實驗設(shè)置
為了驗證所提方法的有效性,本文在文檔視覺問答和開放域文檔視覺問答任務(wù)上進行了實驗,將層次化LayoutXLM與基于純文本預訓練模型的層次化RobertaXLM[5]以及層次化BERT[6]進行對比。其中,在開放域文檔視覺問答實驗中,本文使用BM25算法檢索回與問題最相關(guān)的文檔圖像進行答案抽取。兩個任務(wù)的評價指標均為F1和Rouge-L。
5.2 實驗結(jié)果
如表3和表4所示,相比于基于純文本預訓練模型的方法,層次化LayoutXLM的性能有明顯提高,然而其整體性能仍與人類表現(xiàn)有一定差距。這表明,一方面布局結(jié)構(gòu)和視覺特征有助于模型理解文檔圖像,另一方面無論是文檔視覺問答亦或是開放域文檔視覺問答均有著較大的提升空間。
6. 結(jié)論
本文為了提高開放域問答系統(tǒng)的可擴展能力,使其可以用較低的成本以不同格式的異構(gòu)文檔作為其信息來源,提出了一個全新的開放域文檔視覺問答任務(wù),直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合來回答用戶提問。為了推動該任務(wù)的發(fā)展,本文提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis,包含158K文檔圖像和15K問答對。DuReadervis包含三個挑戰(zhàn):1)長文檔理解;2)噪聲干擾;3)多片段答案抽取。同時,本文提出了一個基線系統(tǒng)并進行了實驗,實驗結(jié)果表明現(xiàn)有基線系統(tǒng)和人類表現(xiàn)仍有一定差距,開放域文檔視覺問答任務(wù)仍有較大的提升空間。除研究目的外,開放域文檔視覺問答的相關(guān)技術(shù)已初步應(yīng)用于諸如汽車、電子、銀行等行業(yè)的問答系統(tǒng)中,并在飛槳AI Studio上開放。
審核編輯:郭婷
-
汽車電子
+關(guān)注
關(guān)注
3035文章
8256瀏覽量
169553 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25284
原文標題:ACL2022 | 面向中文真實搜索場景的開放域文檔視覺問答數(shù)據(jù)集
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
中科曙光助力中航結(jié)算公司構(gòu)建私域文檔智能問答系統(tǒng)
OpenAI免費開放ChatGPT搜索功能
Litera Drafting:幫助改進發(fā)布文檔的方式(十)
構(gòu)建高效搜索解決方案,Elasticsearch & Kibana 的完美結(jié)合

面向NXP i.MX8處理器的電源解決方案

安森美機器視覺系統(tǒng)解決方案

HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))本地搜索方案概述
TE一站式解決方案,助您“域”見未來
面向功能安全應(yīng)用的汽車開源操作系統(tǒng)解決方案

面向熱插拔應(yīng)用的 I2C 解決方案

尋找低功耗、寬溫域的開關(guān)解決方案?Standex Electronics干簧開關(guān)是您的理想選擇!

評論