PaddleNLP v2.3帶來兩大重磅能力:
-
通用信息抽取統一建模技術UIE開源!
-
文心大模型ENRIE輕量級模型及一系列產業范例實踐開源!
01
通用信息抽取
在金融、政務、法律、醫療等眾多行業中,大量文檔信息需要進行數字化及結構化處理,而人工處理方式往往費時費力,且容易產生錯誤。信息抽取技術能很好地解決這個問題。信息抽?。↖nformation Extraction,IE)指的是從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出的文本處理技術。

圖:信息抽取應用場景示例
隨著企業智能化轉型的加速,信息抽取技術被廣泛應用于各行各業的文本處理中。舉個例子,在政務場景下,市政工作人員需要處理各類市民電話投訴事件,很難從長篇累牘的投訴內容中一眼就找到需要的信息,而信息抽取技術則可以快速提取出投訴報告中的被投訴方、事件發生時間、地點、投訴事件等信息,使得工作人員能夠快速掌握投訴要點,大幅提升處理效率。
信息抽取是NLP技術落地中必不可少的環節,然而當前市面上的信息抽取工具大多基于傳統算法構建,偏向學術研究,對實際使用并不友好。產業級信息抽取面臨著多種挑戰:
-
領域多樣:領域之間知識遷移難度高,如通用領域知識很難遷移到垂類領域,垂類領域之間的知識很難相互遷移;
-
任務多樣:針對實體、關系、事件等不同的信息抽取任務,需要開發不同的模型,開發成本和機器資源消耗都很大;
-
數據獲取&標注成本高:部分領域數據稀缺,難以獲取,且領域專業性使得數據標注門檻高。
針對以上難題,中科院軟件所和百度共同提出了一個大一統諸多任務的通用信息抽取技術UIE(Universal Information Extraction),在實體、關系、事件和情感等4個信息抽取任務、13個數據集的全監督、低資源和少樣本設置下,UIE均取得了SOTA性能,這項成果發表在ACL 2022[1]。
飛槳PaddleNLP結合文心大模型中的知識增強NLP大模型ERNIE 3.0,發揮了UIE在中文任務上的強大潛力,開源了首個面向通用信息抽取的產業級技術方案,不需要標注數據(或僅需少量標注數據),即可快速完成各類信息抽取任務:
-
多任務統一建模
傳統技術方案下,針對不同的抽取任務,需要構建多個IE模型。各個模型單獨訓練,數據和知識不共享。一個公司可能需要管理眾多IE模型。而在UIE方案下,單個模型解決所有信息抽取需求,包括但不限于實體、關系、事件、評價維度、觀點詞、情感傾向等信息抽取,降低開發成本和機器成本。

圖:傳統方案 vs UIE統一建模方案
UIE是一個大一統諸多任務的開放域信息抽取技術方案,直接上圖:

通過構建結構化模式提示器(SSI,Structural Schema Instructor),UIE能夠對不同的信息抽取目標進行統一編碼,從而實現多任務的統一建模。
簡單來說,UIE借鑒近年來火熱的Prompt概念,將希望抽取的Schema信息轉換成“線索詞”(Schema-based Prompt)作為模型輸入的前綴,使得模型理論上能夠適應不同領域和任務的Schema信息,并按需抽取出線索詞指向的結果,從而實現開放域環境下的通用信息抽取。例如上圖中,假如我們希望從一段文本中抽取出“人名”的實體和“工作于”的關系,便可以構造[spot] person [asso] work for的前綴,連接要抽取的目標文本[text] ,作為整體輸入到UIE中。
-
零樣本抽取和少樣本快速遷移能力
UIE開創了基于Prompt的信息抽取多任務統一建模方式,通過大規模多任務預訓練學習的通用抽取能力,可以實現不限定行業領域和抽取目標,零樣本快速冷啟動。例如在金融領域客戶收入證明信息抽?。ㄏ聢D左)中,無需訓練數據,即可全部抽取正確。針對復雜抽取需求,標注少量數據微調即完成任務適配,大大降低標注門檻和成本。例如醫療報告結構化(下圖中)和報銷單信息抽?。ㄏ聢D右)中,僅標注了幾條樣本,F1值就取得大幅提升,真是太實用了!

圖:實體抽取零樣本和小樣本效果展示
除實體抽取任務外,在金融、醫療、互聯網三大自建測試集的關系、事件抽取任務上進行實驗,標注少樣本也可帶來顯著的效果提升,尤其在金融、醫療等專業垂類領域上效果突出,例如,在金融領域的事件抽取任務上,僅僅標注5條樣本,F1值提升了25個點!也就是說,即使模型在某些case或某些場景下表現欠佳,人工標幾個樣本,丟給模型后就會有大幅的效果提升。

說明:0-shot表示無訓練數據直接預測,5-shot表示基于5條標注數據進行模型微調。uie-tiny和uie-base分別表示6層和12層的UIE模型。
UIE強大的小樣本學習能力是行業大規模落地的關鍵,目前已通過了大量的業務驗證:
-
在金融領域,某銀行使用UIE實現了智能營銷場景下的標簽抽取和內容推薦系統,在線上推薦業務中,AUC提升14%;
-
在醫療領域,UIE實現對電子病歷、醫療書籍進行癥狀、疾病、檢驗指標等關鍵信息抽取,助力百度智慧醫療業務迅速殺入國內第一梯隊;
-
在法律領域,抽取裁判文書中的犯罪事件主體、事件經過、罪名等信息,建立刑事大數據分析系統,僅用60條數據進行模型微調,F1達到94.36%;
-
在政務領域,識別市民投訴電話中的投訴對象、地點等關鍵信息,快速聚合相似事件、智能分發,有效提升了事件處理率,目前,UIE已上線到多個城市的政務系統中。
-
在電商零售領域,某大型家電零售企業借助UIE實現了評論觀點抽取、情感傾向預測,搭建了完整的服務智能化評分系統,準確率和召回率均達到90%+。服務評分的智能化,使得該企業客服運營人力減少40%,負面問題處理率從60%飆升至100%,售后的差評率整體降低70%。
-
便捷易用
這么酷炫的技術能力,如何快速應用到業務中呢?
通過調用paddlenlp.Taskflow API即可實現零樣本(zero-shot)抽取多種類型的信息:
話不多說,直接上代碼,上效果!
#實體抽取
frompprintimportpprint
frompaddlenlpimportTaskflow
schema=['時間','選手','賽事名稱']#Definetheschemaforentityextraction
ie=Taskflow('information_extraction',schema=schema)
pprint(ie("2月8日上午北京冬奧會自由式滑雪女子大跳臺決賽中中國選手谷愛凌以188.25分獲得金牌!"))#Betterprintresultsusingpprint
>>>
[{'時間':[{'end':6,'probability':0.9857378532924486,'start':0,'text':'2月8日上午'}],
'賽事名稱':[{'end':23,'probability':0.8503089953268272,'start':6,'text':'北京冬奧會自由式滑雪女子大跳臺決賽'}],
'選手':[{'end':31,'probability':0.8981548639781138,'start':28,'text':'谷愛凌'}]}]
僅用三行代碼就實現了精準實體抽取!
再來試試更困難的事件抽取任務,看看效果如何?
#事件抽取
schema={'地震觸發詞':['地震強度','時間','震中位置','震源深度']}#Definetheschemaforeventextraction
ie.set_schema(schema)#Resetschema
ie('中國地震臺網正式測定:5月16日06時08分在云南臨滄市鳳慶縣(北緯24.34度,東經99.98度)發生3.5級地震,震源深度10千米。')
>>>
[{'地震觸發詞':
[{'end':58,'probability':0.9987181623528585,'start':56,'text':'地震',
'relations':
{'地震強度':[{'end':56,'probability':0.9962985320905915,'start':52,'text':'3.5級'}],
'時間':[{'end':22,'probability':0.9882578028575182,'start':11,'text':'5月16日06時08分'}],
'震中位置':[{'end':50,'probability':0.8551417444021787,'start':23,'text':'云南臨滄市鳳慶縣(北緯24.34度,東經99.98度)'}],
'震源深度':[{'end':67,'probability':0.999158304648045,'start':63,'text':'10千米'}]}
}]
}]
同樣易用而精準!對于復雜目標,可以標注少量數據(Few-shot)進行模型訓練,以進一步提升效果。PaddleNLP打通了從數據標注-訓練-部署全流程,方便大家進行定制化訓練。
是不是迫不及待想試用一下?戳以下鏈接即可立馬體驗??梢?strong>STAR收藏,不會走丟~:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
02
文心大模型ERNIE輕量級模型開源
PaddleNLP開源的信息抽取能力背后,除了大一統信息抽取技術UIE外,還得益于文心產業級知識增強大模型——文心ERNIE 3.0的底座支撐。我們知道,知識對于信息抽取任務至關重要。而文心ERNIE 3.0不僅參數量大,還吸納了千萬級別實體的知識圖譜,可以說是中文NLP方面最有“知識量”的SOTA底座。
文心ERNIE 3.0在機器閱讀理解、文本分類、語義相似度計算等60多項任務中取得最好效果,并在30余項小樣本和零樣本任務上刷新基準。通過百度首創的在線蒸餾技術,通過“一師多徒”、“多代傳承”的方式實現了效果顯著的模型壓縮方案。

近日,這個6層中文SOTA預訓練模型也開源了!此外,PaddleNLP v2.3還提供了該模型完整的推理部署工具鏈,包含PaddleSlim裁剪量化壓縮方案、Paddle Inference CPU、GPU高性能推理部署和Paddle Serving服務化部署能力,可以做到精度無損的情況下實現8.8倍的加速提升,一站式滿足多場景的產業部署需求。
為了推動NLP技術快速大規模落地到產業界,PaddleNLP還針對產業高頻場景,打通了數據準備-模型訓練-模型調優-推理部署端到端全流程,推出一系列基于文心大模型的產業范例:如語音工單信息抽取、說明書問答、產品評論情感分析、語義檢索系統等…
ERNIE 3.0輕量級模型:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0
看到這里的小伙伴一定發現了,PaddleNLP其實是一個集前沿預訓練模型、開箱即用工具集和產業系統方案于一身的NLP萬能法寶。自開源以來,PaddleNLP不斷獲得科研和產業界朋友的認可和喜愛,頻頻現身GitHub和Papers With Code榜單。

審核編輯 :李倩
-
數字化
+關注
關注
8文章
9294瀏覽量
63095
原文標題:首創基于Prompt的產業級信息抽取能力,這個開源工具用心了!
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
ZSKY 2301-20V-2.3A-155K塑料封裝MOSFETS規格書
ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術手冊
ZSKY-2302-20V-2.3A 155K N溝道MOSFET技術手冊
用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

天合光能榮獲2025年“北極星杯”兩大獎項
PSMN2R3-100SSE N溝道100V、2.3 mOhm MOSFET規格書

ADS112U04在2.3V~3.3V之間的IDCA的精度是怎么樣的?
浪潮信息源2.0大模型與百度PaddleNLP全面適配
Skydel GNSS模擬器引擎發布兩大全新功能

評論