企業(yè)數據集成是將不同來源的數據整合在一個數據庫中的過程,即異構數據之間的同步。將不同種類,不同版本的數據庫、文件、Mail等之間進行同步。由于不同的數據源定義屬性時命名規(guī)則不同,存入的數據格式、取值方式、單位都會有不同。因此即便兩個值代表的業(yè)務意義相同,也不代表存在數據庫中的值就是相同的。因此需要數據入庫前進行集成,去冗余,保證數據質量。數據集成可以認為是ETL(BI上的定義為:抽取——轉換——清洗——過濾——加載);但更強調自動化過程管理。
在實現機制上,應包括常見的集成模式:Split/Merge/Route/PS等;另外還應該具備建模(元數據管理)和治理(Governace)功能。
數據集成有什么意義呢?
數據集成意義主要是實現數據中心,例如企業(yè)級SID;或者遺留系統(tǒng)在數據層面的集成。在建立全局SID的基礎上,可以構建很多有意義的東西:例如Portal/CMS,報表,數據搜索,挖掘等等,這些可以概括地稱為BI,即商業(yè)智能。
因此,數據集成有兩個層面的意義:
1)操作層面
2)分析層面
數據集成的實現步驟:
1.界定數據交互的項別與內容,如:PDM系統(tǒng)和ERP系統(tǒng)之間的BOM數據;
2.指定數據交互周期,一天一次,還是一周一次;
3.選擇交互方式,通過數據庫,還是中間件技術來交互;
4.由ODS數據交互調度程序實現數據上載或是由外圍系統(tǒng)自行實現數據下載,從而實現數據的集成。
數據集成會出現的問題:
1.數據重復
檢查數據重復一般需要通過主要關鍵詞,最好對主要關鍵詞進行優(yōu)化,過濾重復數據。在數據結構盡量調研每個字段的含義,拆分或整合。重復數據入庫,不僅會給日后的數據關聯(lián)造成極大的影響,也會影響數據分析與挖掘的效果,應盡量避免。
2.數據沖突
數據沖突就是兩個數據源中同樣的數據,但是取值記錄的不一樣。造成這種情況除了有人工誤入,還有可能是因為貨幣計量的方法不同,匯率不同,稅收水平不同、評分體系不同等等原因。
對待數據沖突問題,就需要對實際的業(yè)務知識有一定的理解。同時,對數據進行調研,盡量明確造成沖突的原因。如果數據的沖突實在無法避免,就要考慮沖突數據是否都要保留、是否要進行取舍,如何取舍等。
審核編輯 黃昊宇
-
數據庫
+關注
關注
7文章
3901瀏覽量
65777 -
ETL
+關注
關注
0文章
22瀏覽量
9555 -
數據集成
+關注
關注
0文章
55瀏覽量
9336
發(fā)布評論請先 登錄
基于網關的PLC數據采集與MES系統(tǒng)集成方案
hyper vm,hyper vm是什么工具呢

企業(yè)AI解決方案包括哪些內容
戴爾數據湖倉助力企業(yè)數字化轉型
可與MES系統(tǒng)集成的數據采集監(jiān)控平臺
PLM系統(tǒng)適合哪些類型企業(yè)使用?PLM系統(tǒng)適用領域分析
宜科電子如何實現OT與IT數據融合集成
圍繞APS為中心與ERP、MES、PLM/PDM、SRM、WMS/TMS的多系統(tǒng)集成

MES系統(tǒng)的數據集成方法
萬界星空科技MES數據的集成方式

萬界星空科技 MES數據的集成平臺

評論