圖模型由節點和邊組成。節點表示實體或概念,邊則由屬性或關系構成。
實體指的是具有可區別性且獨立存在的某種事物,如某一個人、某一個城市、某一種植物、某一種商品等,是圖模型中的最基本元素;
概念是對特征的組合而形成的知識單元,主要指集合、類別、對象類型、事物的種類,例如人物、地理等;
屬性主要指描述實體或概念的特征或特性,例如人員的國籍、生日等。
我們以“哲學家”為例設計圖模型,如圖5-13所示。
▲圖5-13 圖模型示例
圖模型構建包含幾個關鍵步驟,如圖5-14所示。
▲圖5-14 企業圖模型構建步驟
第一步:業務場景定義
業務場景決定信息涵蓋范圍,以及信息顆粒度的表示。
以支撐業務連續性為例,因為不可抗力的影響,部分區域的供應商工廠無法正常生產和發貨,涉及的信息包括供應商的信息、產能、元器件及內部物料、合同和客戶信息,要求能夠根據用戶輸入的當前物料儲備和合同狀態,獲取影響內部物料、產品、合同交付和客戶的清單和范圍。
這種應用涉及對產品目錄和配置的解讀,需要對收集的信息進行最小采購器件的抽取。
信息顆粒度在圖模型建設中是個不可忽視的問題,根據應用場景決定信息顆粒度以及圖模型的精確性與有效性。比如手機,有品牌、型號、批次,直至手機整機。同樣的信息范圍,顆粒度越細,圖模型應用越廣泛,關系越豐富,但冗余越多,知識消費越低效。信息顆粒度的原則是“能滿足業務應用的最粗顆粒度”。
第二步:信息收集
信息的選取要考慮兩個方面的內容。
與應用場景直接相關的信息。例如,判斷不可抗力供應中斷影響的范圍,直接相關的信息有物料信息、產品配置、合同信息等。
與應用場景間接相關,但可輔助理解問題的信息。這包括企業信息、專業領域信息、行業信息以及開放域信息。
第三步:圖建模
相同的數據可以有若干種模式的定義,良好的模式可以減少數據冗余,提高實體識別的準確率,在建模的過程中,要結合數據特點與應用場景來完成。同樣的數據從不同的視角可以得出不同的圖模型。
第四步:實體、概念、屬性、關系的標注
企業圖模型中涉及的實體和概念可分為三類:
公共類,如人名、機構名、地名、公司名、時間等;
企業類,如業務術語、企業部門等;
行業類,如金融行業、通信行業等。
第五步:實體和概念的識別
企業圖模型中實體、概念的識別可將業務輸入與數據資產中已有的信息作為種子,運用命名實體識別(NER)的方法擴展出新實體概念,經業務確認后,列入實體、概念庫。
第六步:屬性識別與關系識別
企業圖模型中的屬性與關系一般是根據業務知識在模式層設計時定義,屬性與關系相對穩定,其擴展場景不是很多。
企業圖模型的存儲技術要綜合考慮應用場景、圖模型中節點和聯接的數量、邏輯的復雜度、屬性的復雜度,以及性能要求。一般建議采用混合存儲方式,用圖數據庫存儲關系,關系型數據庫或鍵值對存儲屬性。偏重邏輯推理的應用場景用RDF的存儲方式,偏重圖計算的應用場景選擇屬性圖的存儲方式。發揮兩類數據存儲和讀寫的各自優勢。
知識計算主要是根據圖譜提供的信息得到更多隱含的知識,如通過模式層以及規則推理技術可以獲取數據中存在的隱含信息。知識計算涉及三大關鍵技術:圖挖掘計算、基于本體的推理、基于規則的推理。圖挖掘計算是基于圖論的相關算法,實現對圖譜的探索和挖掘。圖挖掘計算主要分為如下6類。
圖遍歷:知識圖譜構建完之后可以理解為是一張很大的圖,可以去查詢和遍歷這個圖,要根據圖的特點和應用場景進行遍歷。
圖里面經典的算法,如最短路徑。
路徑的探尋,即根據給定兩個實體或多個實體去發現它們之間的關系。
權威節點的分析,這在社交網絡分析中使用較多。
族群分析。
相似節點的發現。
圖挖掘計算如圖5-15所示。
▲圖5-15 圖模型示例
圖挖掘計算在當前的應用場景中,基于業務連續性,通過查詢遍歷圖模型,識別影響節點和影響范圍,基于最短路徑,輔助決策物流線路,在企業中的應用較為普遍。
圖模型在企業中的價值,很大程度上取決于企業基于對象節點可以構建多完善的關系,這個關系的構建是一個逐步完善的過程,基于業務場景不斷補充和完善關系,這就是圖模型的優勢。
當形成一個足夠完善的企業級圖模型后,領域分段的業務場景應用只需要裁剪部分節點和關系,就可以滿足業務的需求,達到快速響應業務需求、降低開發成本的目的。
責任編輯人:CC
-
節點
+關注
關注
0文章
222瀏覽量
24994
發布評論請先 登錄
普源示波器DHO800系列電源噪聲測試的5個關鍵步驟

普源示波器DHO5108電源噪聲測試的5個關鍵步驟

集成電路版圖設計的基本概念和關鍵步驟
線束設計的關鍵步驟和應用

硬件電路調試高效指南,關鍵步驟與方法揭秘
小白學大模型:構建LLM的關鍵步驟

如何使用Python構建LSTM神經網絡模型
建設智慧醫院的關鍵步驟都有哪幾點
掃描模型前模型檢查的注意事項
光伏行業數字化轉型的關鍵步驟有哪些?

評論