知識圖譜嵌入(KGE)是一種利用監(jiān)督學(xué)習(xí)來學(xué)習(xí)嵌入以及節(jié)點和邊的向量表示的模型。它們將“知識”投射到一個連續(xù)的低維空間,這些低維空間向量一般只有幾百個維度(用來表示知識存儲的內(nèi)存效率)。向量空間中,每個點代表一個概念,每個點在空間中的位置具有語義意義,類似于詞嵌入。
一個好的KGE 應(yīng)該具有足夠的表現(xiàn)力來捕獲 KG 屬性,這些屬性解決了表示關(guān)系的獨特邏輯模式的能力。并且KG 可以根據(jù)要求添加或刪除一些特定屬性。KGE算法可分為兩類:
- 翻譯距離模型 (translation distance models),如TransE、TransH、TransR、TransD等。
- 語義匹配模型 (semantic matching models),如DistMult。
以下是常見的KGE 模型在捕獲關(guān)系類型方面的比較,我們將對這些常見的模型進(jìn)行比較
翻譯距離模型
TransE
提出了一種基于翻譯的知識圖譜嵌入模型,可以捕獲多關(guān)系圖中的翻譯方差不變性現(xiàn)象。知識圖譜中的事實是用三元組 ( h , l , t ) 表示的,transE算法的思想非常簡單,它受word2vec平移不變性的啟發(fā),希望h + l ≈ t h+l≈th+l≈t。
這里的l1/l2是范數(shù)約束。
TransE的偽代碼如下:
TransE多次在大規(guī)模知識圖譜方面表現(xiàn)出良好的性能。但是它不能有效地捕獲復(fù)雜的關(guān)系,如一對多和多對多。
TransH
TransH根據(jù)關(guān)系為每個實體提供不同的表示向量。TransH的工作原理是為每個關(guān)系發(fā)布一個完全獨立的特定于關(guān)系的超平面,這樣與它關(guān)聯(lián)的實體僅在該關(guān)系的上下文中具有不同的語義。TransH將實體嵌入向量h和t投影到映射向量W?方向的超平面(關(guān)系特定)。
其中D?表示關(guān)系特定的平移向量,h和t的計算方法如下:
TransH 在一定程度上解決了復(fù)雜關(guān)系問題。它采用相同的向量特征空間。
TransR
TransR的理念與TransH非常相似。但它引入了特定于關(guān)系的空間,而不是超平面。實體表示為實體空間R?中的向量,每個關(guān)系都與特定空間R?相關(guān)聯(lián),并建模為該空間中的平移向量。給定一個事實,TransR首先將實體表示h和t投影到關(guān)系r特定的空間中:
這里M?是一個從實體空間到r的關(guān)系空間的投影矩陣,評分函數(shù)定義為
它能夠?qū)?fù)雜的關(guān)系建模。但是每個關(guān)系需要O(dk)個參數(shù)。沒有TransE/TransH的簡單性和效率。
TransD
TransD是TransR的改進(jìn)。它采用映射矩陣,為頭部和尾部實體生成兩個獨立的映射矩陣。它使用兩個嵌入向量來表示每個實體和關(guān)系。第一個嵌入向量表示實體和關(guān)系的語義,第二個嵌入向量生成兩個動態(tài)投影矩陣,如下圖所示。
評分函數(shù)如下:
下表是總結(jié)所有翻譯距離模型的對比
語義匹配模型
RESCAL
RESCAL將每個實體與一個向量相關(guān)聯(lián),捕獲其潛在語義。每個關(guān)系都表示為一個矩陣,它模擬了潛在因素之間的成對相互作用。事實(h,r,t)的分?jǐn)?shù)由雙線性函數(shù)定義。
其中h,t∈R?是實體的向量表示,M?∈R?*?是與該關(guān)系相關(guān)的矩陣。這個分?jǐn)?shù)捕獲了h和t的所有分量之間的成對相互作用,每個關(guān)系需要O(d2)個參數(shù),并進(jìn)一步假設(shè)所有 M? 在一組通用的 rank-1 指標(biāo)上分解。
它最大的問題是計算復(fù)雜且成本高。
TATEC
TATEC模型不僅有三種相互關(guān)系,它還包含雙向交互,例如實體和關(guān)系之間的交互。評分函數(shù)為
其中D是所有不同關(guān)系共享的對角矩陣。
DistMult
通過將M?限制為對角矩陣,DistMult簡化了RESCAL。對于每個關(guān)系r,引入一個向量r∈r?,并要求M?= diag(r),評分函數(shù)如下:
DistMult優(yōu)點就是計算簡單,成本低。但是因為模型過于簡化,只能處理對稱關(guān)系。對于一般kg來說,它不夠強大。
Holographic Embeddings(HolE)
HolE結(jié)合了RESCAL的表達(dá)能力和DistMult的效率和簡單性。它將實體和關(guān)系重新表示為R?中的向量。給定一個事實(h,r,t),通過使用循環(huán)相關(guān)操作,首先將實體表示組合成h*t∈r?:
采用*的主要目的是利用壓縮張量積形式的復(fù)合表示的降低復(fù)雜性。HolE利用了快速傅里葉變換,可以通過以下方式進(jìn)一步加速計算過程:
HolE每個關(guān)系只需要O(d)個參數(shù),這比RESCAL更有效。但是HolE不能對不對的稱關(guān)系建模,但在一些研究論文中,把它與擴展形式HolEX混淆了,HolEX能夠處理不對稱關(guān)系。
Complex Embeddings (ComplEx)
Complex通過引入復(fù)值嵌入來擴展DistMult,以便更好地建模非對稱關(guān)系。在ComplEx中,實體和關(guān)系嵌入h,r,t不再位于實空間中,而是位于復(fù)空間中,例如C?。
這個評分函數(shù)不再對稱,來自非對稱關(guān)系的事實可以根據(jù)所涉及實體的順序獲得不同的分?jǐn)?shù)。作為共軛對稱施加于嵌入的特殊情況,HolE可以被包含在ComplEx中。
ANALOGY 擴展了RESCAL,可以進(jìn)一步對實體和關(guān)系的類推屬性建模。它采用了雙線性評分函數(shù)。
DistMult, HolE和ComplEx都可以作為特殊情況在ANALOGY上實現(xiàn)。
以下是語義匹配模型的對比總結(jié):
Deep Scoring Functions
對于深度學(xué)習(xí)進(jìn)步,還出現(xiàn)了基于深度學(xué)習(xí)的評分函數(shù)
ConvE
ConvE是第一個使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來預(yù)測知識圖譜中缺失環(huán)節(jié)的模型之一。與完全連接的密集層不同,cnn可以通過使用很少的參數(shù)學(xué)習(xí)來幫助捕獲復(fù)雜的非線性關(guān)系。ConvE在多個維度上實現(xiàn)了不同實體之間的本地連接。
concat為連接運算符,*表示卷積,e?和e?分別負(fù)責(zé)主題單元和關(guān)系單元的二維重塑。
ConvE不能捕獲三元嵌入的全局關(guān)系
ConvKB
ConbKB使用1D卷積來保留TransE的解釋屬性,捕獲實體之間的全局關(guān)系和時間屬性。該方法將每個三元網(wǎng)絡(luò)嵌入為三段網(wǎng)絡(luò),并將其饋送到卷積層,實現(xiàn)事實的維類之間的全局連接。
其中Ω(過濾器集),e(權(quán)重向量)表示共享參數(shù)。
HypER
HypER將每個關(guān)系的向量嵌入通過密集層投影后完全重塑,然后調(diào)整每層中的一堆卷積通道權(quán)重向量關(guān)系,這樣可以有更高的表達(dá)范圍和更少的參數(shù)。
vec是將一個向量重新塑造為一個矩陣,非線性f是ReLU。
模型的空間復(fù)雜度和時間復(fù)雜度的比較
-
嵌入式系統(tǒng)
+關(guān)注
關(guān)注
41文章
3664瀏覽量
130877 -
向量機
+關(guān)注
關(guān)注
0文章
166瀏覽量
21134 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
369瀏覽量
12183
發(fā)布評論請先 登錄
KGB知識圖譜基于傳統(tǒng)知識工程的突破分析
KGB知識圖譜技術(shù)能夠解決哪些行業(yè)痛點?
知識圖譜的三種特性評析
KGB知識圖譜通過智能搜索提升金融行業(yè)分析能力
一種融合知識圖譜和協(xié)同過濾的混合推薦模型

知識圖譜劃分的相關(guān)算法及研究

知識圖譜與訓(xùn)練模型相結(jié)合和命名實體識別的研究工作

Fudan DISC實驗室將分享三篇關(guān)于知識圖譜嵌入模型的論文

規(guī)則引導(dǎo)的知識圖譜聯(lián)合嵌入方法
知識圖譜嵌入的Translate模型匯總(TransE,TransH,TransR,TransD)

知識圖譜Knowledge Graph構(gòu)建與應(yīng)用
知識圖譜:知識圖譜的典型應(yīng)用

知識圖譜與大模型結(jié)合方法概述

評論