作者簡介
作者:gaojing
針對于知識圖譜基礎知識,領域應用和學術前沿趨勢進行介紹。
知識圖譜介紹
知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關系。是融合了認知計算、知識表示與推理、信息檢索與抽取、自然語言處理、Web技術、機器學習與大數據挖掘等等方向的交叉學科。人工智能是以傳統符號派與目前流行的深度神經網路為主,如下圖所示,知識圖譜發展史。
知識圖譜發展史
知識表示與深度學習表示
各大公司布局知識圖譜
補充其中還包括國內的京東與美團(美團的AI大腦,數十億知識圖譜構建)
知識圖譜應用模式(來之美團的Ai大會報告)
知識圖譜技術鏈
知識圖譜賦能
知識圖譜應用非常廣泛,目前主要應用到搜索引擎、智能問答、大數據分析、語言翻譯和語言理解及輔助設備互聯(Iot領域),如下圖所示,知識圖譜在搜索引擎的應用。
通用知識圖譜與垂直領域知識圖譜對比
相比較DBpedia、Yago、Wikidata、百度和谷歌等通用知識圖譜,+特定領域內的知識圖譜在知識表示、知識結構、知識質量及知識應用更高的要求(關于領域知識圖譜與通用知識圖譜之間的問題可以查看復旦肖仰華)。
國內外知識圖譜項目
國外:早期的常識知識庫Cyc、WordNet、ConceptNet等;互聯網知識圖譜,主要有FreeBase、DBpedia、Schema、Wikidata 、BableNet、Microsofot ConceptGraph,醫療領域Linked Life Data等
國內:中文知識圖譜OpenKG,CN-DBpedia,中醫藥知識圖譜,阿里電商知識圖譜、美團知識圖譜、XLore(清華大學)、Belief-Eigen(中科院)、PKUPie(北京大學),開放類的中文百科知識圖譜,zhishi.me
知識圖譜技術模塊
知識表示
如何利用計算符號運算來表示人腦中的知識和推理過程,知識表示主要有兩種,基于離散符號的知識表示法和基于連續向量的知識表示。
基于離散符號的知識表示法
RDF(Triple-based Assertion Model) 三元組模型,構建方式主要是主-謂-賓有向標記圖和RDFS(simple Vocabularty and schema)
OWL(Web Ontology language):是一種W3C開發的網路本體語言,用于對本體進行語義描述。
SPARQL(Protocol and RDF Query Language) :RDF的查詢語言,支持主流圖形數據庫。下圖URI/IRI為主要網絡協議,主要數據存儲格式是RDF與XML
基于連續向量的知識表示
KG embedding 主要是KG中實體與關系映射到一個低維的向量空間,主要的方法有張量分解、NN、距離模型(現有的詞向量模型基于連續向量空間來表示)(Embedding projector)
兩種方法對比
知識抽取
KG中知識抽取主要從結構化、半結構化、結構化數據中轉為三元組表示的標準知識形態。
主要處理流程
實體抽取(NER命名實體識別)
目的是識別文本中指定類別的實體,主要包括人 名、 地名、 機構名、 專有名詞等的任務“ 姚明(Yao Ming),1980年9月12日出生于上海市徐匯區,祖籍江蘇省蘇州市吳江區震澤鎮,前中國職業籃球運動員,司職中鋒,現任中職聯公司董事長兼總經理“。如下圖所示,命名實體識別主要包含兩個部分:實體邊界識別與實體分類。傳統方法(HMM(隱馬爾科夫模型) CRF(條件隨機場) SVM、最大熵分類模型等方法進行處理。現在能采用深度學習,比如CNNRNNLSTM及LSTM-CRF。采用的工具可以有Jiagu、jieba、Stanford CoreNLP等。
實體鏈接
目的是將實體提及與知識庫中對應實體進行鏈接 ,主要解決實體名的歧義性與多樣性問題,是文本中實體名指向真實世界實體的任務。傳統模型是計算實體提及與知識庫中實體的相似度,并選取特定的實體提及的目標實體,比如“蘋果發布新的手機‘IphoneX11’”,[蘋果(水果)、蘋果(電影)、蘋果(公司)等候選實體],主要使用包括實體統計信息、名字統計信息、上下文詞語分布、實體關聯度、文章主題等信息,同時,考慮到一段文本中實體之間的相互關聯,相關的全局推理算法也被提出來尋找全局最優決策。目前深度學習方法,構建多類型多模態上下文及知識的統一表示,并建模不同信息、不同證據之間的相互交互 通過將不同類型的信息映射到相同的特征空間,并提供高效的端到端訓練算法。包括多源異構證據的向量表示學習、以及不同證據之間相似度的學習等工作[Ganea & Hofmann, 2017] [Gupta et al., 2017] [Sil et al 2018] 。開源工具dexter2
實體關系抽取
實體關系抽取是知識圖譜構建與信息提取的關鍵環節,主要提取兩個或者多個實體之間的某種聯系。格式,三元組(實體1,關系,實體2),"北京是中國的首都、政治中心和文化中心 "中實體關系可以表示為(中國、首都、北京)(中國 政治中心 北京)(中國 文化中心 北京)。
限定關系抽取:采用弱監督/監督機器學習進行預定義的實體關系知識抽取,一般為多分類問題,可以直接抽取三元組關系。一般會采用基于特征向量的方法、基于核函數的方法和基于神經網絡的方法 。
開發域關系抽取:預先不進行預定義,系統本身自動抽取實體之間的關系,一般采用無監督學習方法進行自動提取實體之間的關系(三元組)。缺點是抽取的知識缺乏語義化、很難做歸一化處理,弱監督學習可以自動生成大規模的訓練醫療庫,但是會產生噪音數據。
事件關系抽取
識別文本中關于事件的信息,并以結構化的形式呈現,核心概念包括:事件描述、事件觸發詞(動詞或者名詞)、事件元素(實體、時間和屬性等表達語義的細粒度單位組成)、元素角色(角色在某件事情上面的語義關系)、事件類型(事件元素和觸發詞決定事件的類別),如下圖所示
基于模式匹配的方法:對于某一個事件的識別與抽取是在一些模式的指導下進行的,主要有兩個步驟:模式獲取和模式匹配,有可分為基于人工標注語料和弱監督學習
基于機器學習的方法:把事件建模成多分類問題,可以分為基于特征、基于結構和基于神經網路。
基于特征:該方法多用管道式事件抽取
基于結構預測:將事件結構看做是依存樹結構預測。基于結構感知機的聯合模型可同時完成觸發詞與事件元素識別的兩個子任務。
基于神經網路:利用RNN進行事件檢測及聯合模型與RNN相結合進行預測觸發詞和事件元素
基于弱監督:在學術上,[Chen and Ji, 2009] [Liao and Grishman, 2011a; 2011b] [Liu et.al., 2016b] 等,但是由于該方法無法直接映射到結構化數據中,無法直接構建三元組。
中文事件抽取
中文與英文事件抽取區別較大,主要是缺乏統一、公認的事件語料庫及公開評測系統(上海大學CEC(Chinese Event Corpus))
知識融合
知識融合是指合并兩個知識圖譜,本體可以讓用戶非常方便和靈活的根據自己的業務建立或者修改數據模型。通過數據映射技術建立本體中術語和不同數據源抽取知識中詞匯的映射關系,進而將不同數據源的數據融合在一起。同時不同源的實體可能會指向現實世界的同一個客體,這時需要使用實體匹配將不同數據源相同客體的數據進行融合。不同本體間也會存在某些術語描述同一類數據,那么對這些本體間則需要本體融合技術把不同的本體融合。
知識融合-異構問題
語言層不匹配:RDF OWL OWL2等本體語言之間不兼容。
實體對齊問題:由于多源、異構、跨語言知識圖譜差異性較大,比如結構化不可比、實體名稱表述差別較大、外部工具不穩定等,可訓練數據較少。方法:可以基于圖神經網路的實體結構語義表示及匹配(關于知識融合中實體對齊在學術上有很多研究)
知識存儲
知識圖譜的知識存儲一般是采用圖形數據庫進行存儲,主要有兩種圖數據模型:RDF圖和屬性圖
查詢語言:RDF圖---SPARQL;屬性圖:Cypher 和 Gremlin
常見知識圖譜存儲方式
基于關系數據庫的存儲方案
主要是三元組表(3store)、水平表(DLDB)、屬性表(JENA)、垂直劃分(SW-Store)、DB2RDF和六重索引(RDFX-3X、Hexastore)
面向RDF的三元組數據庫
Jena RDF4J RDF-3X gStore
原生圖數據庫
Neo4j
分布式圖形數據庫 JanusGraph
OrientDB
Cayley
圖形數據庫對比
來之DB-Engiens圖引擎和美團知識圖譜報告,美團采用JanusGraph分布式圖形引擎
知識推理
根據已有的知識圖譜中的事實或者關系推斷出新的事實與關系,一般是考察實體、關系和圖譜結構三個方面的信息特征
基于演繹的知識圖譜推理
基于歸納的知識圖譜推理
基于圖結構
基于規則學習
基于表示學習
新的方法
時序法
基于強化學習
基于圖神經網路
開源工具
Jena和Drools
知識圖譜構建流程
主要介紹主流的知識圖譜構建流程,實體圖譜的構建主要有自底向上、自頂向下和二則混合的方法,如下圖所示,分別為自底向上和自頂向下
自底向上
自頂向下
知識圖譜整體構建流程
審核編輯:黃飛
-
網絡協議
+關注
關注
3文章
273瀏覽量
21993 -
數據存儲
+關注
關注
5文章
997瀏覽量
51612 -
人工智能
+關注
關注
1804文章
48701瀏覽量
246468 -
深度學習
+關注
關注
73文章
5554瀏覽量
122478 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7922
原文標題:知識圖譜入門系列
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
KGB知識圖譜基于傳統知識工程的突破分析
KGB知識圖譜技術能夠解決哪些行業痛點?
知識圖譜的三種特性評析
知識圖譜是什么?與傳統知識表示的區別
知識圖譜已經取得了哪些學術與技術成果,產業與應用發生了哪些變化?
一文帶你讀懂知識圖譜
知識圖譜劃分的相關算法及研究

知識圖譜在工程應用中的關鍵技術、應用及案例

通用知識圖譜構建技術的應用及發展趨勢

什么是知識圖譜?人工智能世界知識圖譜的發展

評論