引言
本文介紹了復(fù)旦大學(xué)數(shù)據(jù)智能與社會計算實驗室(Fudan DISC)在Findings of ACL 2021上錄用的一篇關(guān)于論辯挖掘的工作:Leveraging Argumentation Knowledge Graph for Interactive Argument Pair Identification,通過構(gòu)建論辯領(lǐng)域的知識圖譜并融合其中的相關(guān)知識,提升互動論點對識別任務(wù)的準確性。
互動論點對識別(Interactive Argument Pair Interaction)是對話式論辯挖掘研究領(lǐng)域中的一個核心任務(wù)。現(xiàn)有對于互動論點對識別的研究將其視為句子匹配問題,并且在很大程度上依賴于文本信息來計算文本相似性。然而,論點之間的互動通常會涉及論題的背景知識,并需要知識概念之間的推理,這超出了文本相似度層面的信息。
在本文中,我們提出利用外部知識來增強交互式論點對的識別。我們從在線論壇中不同主題的討論語料中構(gòu)建論辯知識圖譜。在此基礎(chǔ)上,被引用論點和回復(fù)論點之間的交互便可被表示為知識圖譜中的推理路徑。在實際中,我們利用圖卷積網(wǎng)絡(luò) (GCN) 來學(xué)習(xí)知識圖中的概念實體表示,并使用基于 Transformer 的編碼器來學(xué)習(xí)推理路徑的表示。
最后,采用信息對齊網(wǎng)絡(luò)來捕獲概念信息(實體級和路徑級)和文本信息的交互。實驗結(jié)果表明,我們的模型在基準數(shù)據(jù)集中達到了最先進的性能。進一步的實驗分析證明了我們模型通過知識圖譜中的概念路徑來執(zhí)行知識推理的合理性及有效性。
研究背景
論辯挖掘旨在分析論辯性文本中的語義和邏輯結(jié)構(gòu)。目前論辯挖掘的研究方向大致可以分為單篇式論辯(Monological Argumentation)以及對話式論辯(Dialogical Argumentation)。
二者的主要區(qū)別在于,單篇式論辯的研究對象通常為單篇式的論辯場景,如學(xué)生議論文、公開演講等一整篇論辯性文章或一段論辯文本,相關(guān)的任務(wù)包括論辯部件預(yù)測、說服力評估和論辯總結(jié)等;而對話式論辯的研究對象通常為辯論賽或者在線論壇場景下,由持有不同觀點的多方參與者之間的互動所產(chǎn)生的文本,相關(guān)任務(wù)包含互動論點對識別、抽取等。
現(xiàn)有對于互動論點對識別的研究將其視為句子匹配問題,并且在很大程度上依賴于文本信息來計算文本相似性。雖然相關(guān)深度學(xué)習(xí)模型取得了一定的判別效果,但對于互動論點對中真正具有互動關(guān)系的概念實體的利用程度仍有不足,也就是說該任務(wù)需要超出文本相似度的知識信息。
兩條現(xiàn)有模型無法正確識別的互動論點對示例。在第一個例子中,兩句論點之間的聯(lián)系由“president”和“Obama”以及“John Boehner”和“speaker of the house”所構(gòu)建,這屬于自然語言中常見的常識類知識;而在第二個例子中,兩句論點之間的聯(lián)系則需要通過“global warming”導(dǎo)致“sea level”提高來體現(xiàn),這段推理過程中所出現(xiàn)的關(guān)系為論辯領(lǐng)域中所特有的因果聯(lián)系。
因此,我們希望在互動論點對識別的任務(wù)中融入上述兩類知識,來提升該任務(wù)上模型的效果,并提供更直接的可解釋性。具體做法上,本文構(gòu)建了論辯領(lǐng)域的知識圖譜,并以圖譜中推理路徑的方式來融合相關(guān)知識。在模型層面,本文通過使用圖卷積網(wǎng)絡(luò)(GCN)編碼相關(guān)實體,并使用Transformer編碼器編碼相關(guān)推理路徑,再將這兩個級別的概念編碼與文本編碼進行信息對齊,從而完成對于互動論點對識別任務(wù)的增強。
圖譜構(gòu)建
原始圖譜構(gòu)建
本文在Tan等人所構(gòu)建的CMV文本數(shù)據(jù)集的基礎(chǔ)上,采用OpenIE來抽取出其中的(實體、關(guān)系、實體)三元組,將所有的實體作為節(jié)點,所有的關(guān)系作為邊,得到了原始的知識圖譜。該階段中加入的知識對應(yīng)于研究背景中提到的第二類知識——因果聯(lián)系。該階段的圖譜統(tǒng)計信息如下圖所示。
概念對齊
為了進一步提升我們所構(gòu)建的圖譜質(zhì)量,同時也為了加入研究背景中所提到的第一類常識知識,本文在得到上述原始圖譜后,進行了概念對齊操作。對于兩個知識圖譜中的實體,如果它們在Wiikipedia中的搜索結(jié)果相同,則將它們之間加入”等價“的實體關(guān)系。概念對齊后的知識圖譜相關(guān)統(tǒng)計信息如下圖所示。結(jié)果顯示概念對齊后,圖譜的連通性明顯增加,稀疏性的問題得到了一定程度上的解決。
方法描述
本文提出了將論辯圖譜知識融入互動論點對識別任務(wù)的模型框架。該框架主要包含三個模塊,文本編碼器、概念編碼器以及信息對齊網(wǎng)絡(luò)。
論點對文本信息建模
給定一對候選引用-回復(fù)論點對,我們將其拼接后通入BERT句子對分類模型,取出其中的[CLS]符號的表示即可得到論點對的文本層面表示。
論點對概念信息建模
給定一對候選引用-回復(fù)論點對的上下文,我們抽取出其中所包含的概念實體,接下來從實體和路徑兩個層面進行概念信息建模。
2.1 實體級別
我們采用平均池化的BERT詞向量得到每個節(jié)點的初始化表示,接著使用二層GCN網(wǎng)絡(luò)來對每個節(jié)點信息進行匯總?cè)诤希瑥亩玫搅嗣總€提及的實體的概念表示。
2.2 路徑級別
在本文中,推理路徑定義為論辯雙方所提到的概念實體對之間在知識圖譜中經(jīng)過遍歷而順次連接得到的序列。在得到上述實體的表示后,我們從圖譜中枚舉出雙方所有的概念實體對之間的最短路徑,再經(jīng)過Transformer編碼器來對其進行編碼表示,進而得到了每條推理路徑的表示
信息對齊網(wǎng)絡(luò)
得到基于每個實體以及每條路徑的概念表示之后,我們構(gòu)建了信息對齊網(wǎng)絡(luò)來將不同的實體以及路徑匯總得到概念層面的總表示。具體來說,我們利用文本信息表示來對所有的推理路徑進行注意力池化匯總得到推理路徑的總表示,在利用推理路徑總表示來對所有的實體進行注意力池化匯總得到概念實體的總表示。
在得到以上文本和概念層面的總表示后,我們將這些維度的特征拼接并通過一個線性層,來預(yù)測當前候選論點對成為互動論點對的匹配分數(shù),從而得到最終的判別結(jié)果。
實驗
互動論點對識別性能
下表展示了在互動論點對識別數(shù)據(jù)集上的各模型性能。實驗結(jié)果顯示本文提出的模型在P@1和MRR指標上均優(yōu)于已有模型,一方面體現(xiàn)在文本信息建模方面,預(yù)訓(xùn)練模型BERT的性能超過了之前最先進的DVAE模型;另一方面體現(xiàn)在上下文信息建模方面,通過融入論辯圖譜對于論點概念的編碼表示的組件超過了之前的層次化CNN上下文建模給模型所帶來的提升。
消融實驗
下表展示了本文所提模型的消融實驗,從結(jié)果中可以發(fā)現(xiàn)三個主要模塊中對模型性能影響最大的是文本信息編碼;在概念編碼中對于模型性能提升最明顯的是路徑編碼器。
進一步分析
本文對于得到的知識圖譜中推理路徑進行了進一步探究,主要分為四個子實驗:
(a)概念對連通性:實驗顯示對于存在互動關(guān)系的正確論點對以及不存在互動關(guān)系的負樣本,雙方概念中存在推理路徑(即聯(lián)通)的實體對分別占54%和41%,即連通性對于判斷是否存在互動關(guān)系有一定判別作用;
(b)推理路徑長度分布:實驗顯示在正確論點對中的推理路徑平均長度會略低于負樣本中的推理路徑,即更長的推理路徑傾向于出現(xiàn)在無關(guān)的論點對中;
(c)推理路徑中的關(guān)系分布:我們通過統(tǒng)計出現(xiàn)在所有推理路徑中的關(guān)系,并應(yīng)用一些詞典資源(如+/-EffectWordnet/Connotation Frames等)對關(guān)系進行分類,結(jié)果顯示在所有推理路徑中,常識知識的關(guān)系和因果知識的關(guān)系占比非常接近,各占了所有關(guān)系的40%左右;
(d)路徑長度截斷:本文通過對路徑長度做限制,去掉超過限制長度的推理路徑并重復(fù)實驗,結(jié)果顯示對于互動論點對識別的任務(wù),當推理路徑的長度限制設(shè)置在4的時候達到最好效果,經(jīng)分析這可能是推理路徑數(shù)量(路徑長度越大路徑數(shù)越多)和推理路徑質(zhì)量(路徑長度越小越有可能為正樣本中的路徑)之間的權(quán)衡。
總結(jié)
本文提出了一個模擬人類辯論推理過程的模型框架。具體實踐中,我們首先從在線辯論論壇ChangeMyView出發(fā),利用OpenIE工具、詞典資源和Wikipedia相關(guān)API進行概念對齊,構(gòu)建了一個對話式辯論領(lǐng)域的知識圖譜。
接著利用基于路徑的圖模型對辯論雙方的概念對之間的推理路徑進行編碼,并將概念信息與預(yù)先訓(xùn)練好的語言模型BERT獲得的語義信息進行對齊。在互動論點對識別任務(wù)上的實驗表明該模型能夠有效、透明地利用外部知識,進一步關(guān)于推理路徑的實驗也顯示出基于我們構(gòu)建的知識圖譜所生成的推理路徑具有較高的質(zhì)量。
編輯:jq
-
編碼器
+關(guān)注
關(guān)注
45文章
3775瀏覽量
137147 -
ACL
+關(guān)注
關(guān)注
0文章
61瀏覽量
12355
原文標題:基于論辯圖譜的互動論點對識別
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
智慧教室互動平板:賦能未來教育的新利器

HDJF-5A超聲波局部放電檢測儀使用時域信號波形與PRPD圖譜

AR互動與傳統(tǒng)的交互方式相比更加豐富多元

維智科技入選2025年泰伯智庫數(shù)字孿生城市產(chǎn)業(yè)鏈圖譜
軟通動力入選《人工智能數(shù)據(jù)標注產(chǎn)業(yè)圖譜》
HarmonyOS Next元服務(wù)蒹葭動卡體驗互動
HarmonyOS Next元服務(wù)大學(xué)之道動卡互動
58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈圖譜

大屏數(shù)字互動墻軟件 液晶拼接屏互動軟件 LED大屏交互軟件

物體識別桌 AR物體識互動桌 電容屏實物識別漫游桌
物體識別交互軟件 AR實物識別桌軟件 電容物體識別桌
智能玩具用離線語音識別芯片有什么優(yōu)勢

評論