數(shù)據(jù)倉庫是什么
數(shù)據(jù)倉庫,英文名稱為DataWarehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲,出于分析性報(bào)告和決策支持目的而創(chuàng)建。為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。
數(shù)據(jù)倉庫的特點(diǎn)
1.主題性
數(shù)據(jù)倉庫是一般從用戶實(shí)際需求出發(fā),將不同平臺的數(shù)據(jù)源按設(shè)定主題進(jìn)行劃分整合,與傳統(tǒng)的面向事務(wù)的操作型數(shù)據(jù)庫不同,具有較高的抽象性。面向主題的數(shù)據(jù)組織方式,就是在較高層次對分析對象數(shù)據(jù)的一個(gè)完整、統(tǒng)一并一致的描述,能完整及統(tǒng)一地刻畫各個(gè)分析對象所涉及的有關(guān)企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。
2.集成性
數(shù)據(jù)倉庫中存儲的數(shù)據(jù)大部分來源于傳統(tǒng)的數(shù)據(jù)庫,但并不是將原有數(shù)據(jù)簡單的直接導(dǎo)入,而是需要進(jìn)行預(yù)處理。這是因?yàn)槭聞?wù)型數(shù)據(jù)中的數(shù)據(jù)一般都是有噪聲的、不完整的和數(shù)據(jù)形式不統(tǒng)一的。這些“臟數(shù)據(jù)”的直接導(dǎo)入將對在數(shù)據(jù)倉庫基礎(chǔ)上進(jìn)行的數(shù)據(jù)挖掘造成混亂。“臟數(shù)據(jù)”在進(jìn)入數(shù)據(jù)倉庫之前必須經(jīng)過抽取、清洗、轉(zhuǎn)換才能生成從面向事務(wù)轉(zhuǎn)而面向主題的數(shù)據(jù)集合。數(shù)據(jù)集成是數(shù)據(jù)倉庫建設(shè)中最重要,也是最為復(fù)雜的一步。
3.穩(wěn)定性
數(shù)據(jù)倉庫中的數(shù)據(jù)主要為決策者分析提供數(shù)據(jù)依據(jù)。決策依據(jù)的數(shù)據(jù)是不允許進(jìn)行修改的。即數(shù)據(jù)保存到數(shù)據(jù)倉庫后,用戶僅能通過分析工具進(jìn)行查詢和分析,而不能修改。數(shù)據(jù)的更新升級主要都在數(shù)據(jù)集成環(huán)節(jié)完成,過期的數(shù)據(jù)將在數(shù)據(jù)倉庫中直接篩除。
4.動態(tài)性
數(shù)據(jù)倉庫數(shù)據(jù)會隨時(shí)間變化而定期更新,不可更新是針對應(yīng)用而言,即用戶分析處理時(shí)不更新數(shù)據(jù)。每隔一段固定的時(shí)間間隔后,抽取運(yùn)行數(shù)據(jù)庫系統(tǒng)中產(chǎn)生的數(shù)據(jù),轉(zhuǎn)換后集成到數(shù)據(jù)倉庫中。隨著時(shí)間的變化,數(shù)據(jù)以更高的綜合層次被不斷綜合,以適應(yīng)趨勢分析的要求。當(dāng)數(shù)據(jù)超過數(shù)據(jù)倉庫的存儲期限,或?qū)Ψ治鰺o用時(shí),從數(shù)據(jù)倉庫中刪除這些數(shù)據(jù)。關(guān)于數(shù)據(jù)倉庫的結(jié)構(gòu)和維護(hù)信息保存在數(shù)據(jù)倉庫的元數(shù)據(jù)(Metadata)中,數(shù)據(jù)倉庫維護(hù)工作由系統(tǒng)根據(jù)其中的定義自動進(jìn)行或由系統(tǒng)管理員定期維護(hù)。
數(shù)據(jù)倉庫的基本架構(gòu)
數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(DecisionSupport)。其實(shí)數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何的數(shù)據(jù),數(shù)據(jù)來源于外部,并且開放給外部應(yīng)用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。因此數(shù)據(jù)倉庫的基本架構(gòu)主要包含的是數(shù)據(jù)流入流出的過程,可以分為三層——源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用:
從圖中可以看出數(shù)據(jù)倉庫的數(shù)據(jù)來源于不同的源數(shù)據(jù),并提供多樣的數(shù)據(jù)應(yīng)用,數(shù)據(jù)自上而下流入數(shù)據(jù)倉庫后向上層開放應(yīng)用,而數(shù)據(jù)倉庫只是中間集成化數(shù)據(jù)管理的一個(gè)平臺。
數(shù)據(jù)倉庫的數(shù)據(jù)來源
數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)轉(zhuǎn)換和流動都可以認(rèn)為是ETL(抽取Extra,轉(zhuǎn)化Transfer,裝載Load)的過程,ETL是數(shù)據(jù)倉庫的流水線,也可以認(rèn)為是數(shù)據(jù)倉庫的血液,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉庫日常的管理和維護(hù)工作的大部分精力就是保持ETL的正常和穩(wěn)定。
數(shù)據(jù)倉庫的數(shù)據(jù)存儲
數(shù)據(jù)倉庫并不需要儲存所有的原始數(shù)據(jù),同時(shí)數(shù)據(jù)倉庫需要儲存部分細(xì)節(jié)數(shù)據(jù)。簡單地解釋下:
a.為什么不需要所有原始數(shù)據(jù)?數(shù)據(jù)倉庫面向分析處理,但是某些源數(shù)據(jù)對于分析而言沒有價(jià)值或者其可能產(chǎn)生的價(jià)值遠(yuǎn)低于儲存這些數(shù)據(jù)所需要的數(shù)據(jù)倉庫的實(shí)現(xiàn)和性能上的成本。比如我們知道用戶的省份、城市足夠,至于用戶究竟住哪里可能只是物流商關(guān)心的事,或者用戶在博客的評論內(nèi)容可能只是文本挖掘會有需要,但將這些冗長的評論文本存在數(shù)據(jù)倉庫就得不償失;
b.為什么要存細(xì)節(jié)數(shù)據(jù)?細(xì)節(jié)數(shù)據(jù)是必需的,數(shù)據(jù)倉庫的分析需求會時(shí)刻變化,而有了細(xì)節(jié)數(shù)據(jù)就可以做到以不變應(yīng)萬變。如果我們只存儲根據(jù)某些需求搭建起來的數(shù)據(jù)模型,那么顯然對于頻繁變動的需求會手足無措;
數(shù)據(jù)倉庫基于維護(hù)細(xì)節(jié)數(shù)據(jù)的基礎(chǔ)上在對數(shù)據(jù)進(jìn)行處理,使其真正地能夠應(yīng)用于分析。主要包括三個(gè)方面:
1.數(shù)據(jù)的聚合
這里的聚合數(shù)據(jù)指的是基于特定需求的簡單聚合(基于多維數(shù)據(jù)的聚合體現(xiàn)在多維數(shù)據(jù)模型中),簡單聚合可以是網(wǎng)站的總Pageviews、Visits、UniqueVisitors等匯總數(shù)據(jù),也可以是Avg.timeonpage、Avg.timeonsite等平均數(shù)據(jù),這些數(shù)據(jù)可以直接地展示于報(bào)表上。
2.多維數(shù)據(jù)模型
多維數(shù)據(jù)模型提供了多角度多層次的分析應(yīng)用,比如基于時(shí)間維、地域維等構(gòu)建的銷售星形模型、雪花模型,可以實(shí)現(xiàn)在各時(shí)間維度和地域維度的交叉查詢,以及基于時(shí)間維和地域維的細(xì)分。所以數(shù)據(jù)倉庫面向特定群體的數(shù)據(jù)集市都是基于多維數(shù)據(jù)模型進(jìn)行構(gòu)建的。
3.業(yè)務(wù)模型
這里的業(yè)務(wù)模型指的是基于某些數(shù)據(jù)分析和決策支持而建立起來的數(shù)據(jù)模型,比如我之前介紹過的用戶評價(jià)模型、關(guān)聯(lián)推薦模型、RFM分析模型等,或者是決策支持的線性規(guī)劃模型、庫存模型等;同時(shí),數(shù)據(jù)挖掘中前期數(shù)據(jù)的處理也可以在這里完成。
數(shù)據(jù)倉庫的數(shù)據(jù)應(yīng)用
報(bào)表展示
報(bào)表幾乎是每個(gè)數(shù)據(jù)倉庫的必不可少的一類數(shù)據(jù)應(yīng)用,將聚合數(shù)據(jù)和多維分析數(shù)據(jù)展示到報(bào)表,提供了最為簡單和直觀的數(shù)據(jù)。
即時(shí)查詢
理論上數(shù)據(jù)倉庫的所有數(shù)據(jù)(包括細(xì)節(jié)數(shù)據(jù)、聚合數(shù)據(jù)、多維數(shù)據(jù)和分析數(shù)據(jù))都應(yīng)該開放即時(shí)查詢,即時(shí)查詢提供了足夠靈活的數(shù)據(jù)獲取方式,用戶可以根據(jù)自己的需要查詢獲取數(shù)據(jù)。
數(shù)據(jù)分析
數(shù)據(jù)分析大部分基于構(gòu)建的業(yè)務(wù)模型展開,當(dāng)然也可以使用聚合的數(shù)據(jù)進(jìn)行趨勢分析、比較分析、相關(guān)分析等,而多維數(shù)據(jù)模型提供了多維分析的數(shù)據(jù)基礎(chǔ);同時(shí)從細(xì)節(jié)數(shù)據(jù)中獲取一些樣本數(shù)據(jù)進(jìn)行特定的分析也是較為常見的一種途徑。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘用一些高級的算法可以讓數(shù)據(jù)展現(xiàn)出各種令人驚訝的結(jié)果。數(shù)據(jù)挖掘可以基于數(shù)據(jù)倉庫中已經(jīng)構(gòu)建起來的業(yè)務(wù)模型展開,但大多數(shù)時(shí)候數(shù)據(jù)挖掘會直接從細(xì)節(jié)數(shù)據(jù)上入手,而數(shù)據(jù)倉庫為挖掘工具諸如SAS、SPSS等提供數(shù)據(jù)接口。
元數(shù)據(jù)
數(shù)據(jù)倉庫環(huán)境中一個(gè)重要方面是元數(shù)據(jù)。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。只要有程序和數(shù)據(jù),元數(shù)據(jù)就是信息處理環(huán)境的一部分。但是在數(shù)據(jù)倉庫中,元數(shù)據(jù)扮演一個(gè)新的重要角色。也正因?yàn)橛辛嗽獢?shù)據(jù),可以最有效地利用數(shù)據(jù)倉庫。元數(shù)據(jù)使得最終用戶/DSS分析員能夠探索各種可能性。
元數(shù)據(jù)在數(shù)據(jù)倉庫的上層,并且記錄數(shù)據(jù)倉庫中對象的位置。典型地,元數(shù)據(jù)記錄:
程序員所知的數(shù)據(jù)結(jié)構(gòu)。
DSS分析員所知的數(shù)據(jù)結(jié)構(gòu)。
數(shù)據(jù)倉庫的源數(shù)據(jù)。
數(shù)據(jù)加入數(shù)據(jù)倉庫時(shí)的轉(zhuǎn)換。
數(shù)據(jù)模型。
數(shù)據(jù)模型和數(shù)據(jù)倉庫的關(guān)系。
抽取數(shù)據(jù)的歷史記錄。
數(shù)據(jù)倉庫用途
信息技術(shù)與數(shù)據(jù)智能大環(huán)境下,數(shù)據(jù)倉庫在軟硬件領(lǐng)域、Internet和企業(yè)內(nèi)部網(wǎng)解決方案以及數(shù)據(jù)庫方面提供了許多經(jīng)濟(jì)高效的計(jì)算資源,可以保存極大量的數(shù)據(jù)供分析使用,且允許使用多種數(shù)據(jù)訪問技術(shù)。
開放系統(tǒng)技術(shù)使得分析大量數(shù)據(jù)的成本趨于合理,并且硬件解決方案也更為成熟。在數(shù)據(jù)倉庫應(yīng)用中主要使用的技術(shù)如下:
并行
計(jì)算的硬件環(huán)境、操作系統(tǒng)環(huán)境、數(shù)據(jù)庫管理系統(tǒng)和所有相關(guān)的數(shù)據(jù)庫操作、查詢工具和技術(shù)、應(yīng)用程序等各個(gè)領(lǐng)域都可以從并行的最新成就中獲益。
分區(qū)
分區(qū)功能使得支持大型表和索引更容易,同時(shí)也提高了數(shù)據(jù)管理和查詢性能。
數(shù)據(jù)壓縮
數(shù)據(jù)壓縮功能降低了數(shù)據(jù)倉庫環(huán)境中通常需要的用于存儲大量數(shù)據(jù)的磁盤系統(tǒng)的成本,新的數(shù)據(jù)壓縮技術(shù)也已經(jīng)消除了壓縮數(shù)據(jù)對查詢性能造成的負(fù)面影響。
數(shù)據(jù)倉庫的五大好處
1、提供加強(qiáng)的商業(yè)智能(BI)
利用從各種數(shù)據(jù)源提供的數(shù)據(jù),管理人員和高管們將不再需要憑著有限的數(shù)據(jù)或他們的直覺做出商業(yè)決策。此外,“數(shù)據(jù)倉庫及相關(guān)商業(yè)智能(BI)可直接用于包括市場細(xì)分、庫存管理、財(cái)務(wù)管理、銷售這樣的業(yè)務(wù)流程中。”
2、可節(jié)省時(shí)間
因?yàn)闃I(yè)務(wù)用戶可以在一個(gè)地方快速訪問許多數(shù)據(jù)源,他們就在關(guān)鍵方案上迅速做出知情的決策,而不會用浪費(fèi)寶貴的時(shí)間從多種數(shù)據(jù)源中檢索數(shù)據(jù)。
不僅如此,業(yè)務(wù)主管們可以在很少或者根本沒有IT的支持下自己查詢數(shù)據(jù)—節(jié)約了更多的時(shí)間和資金。這意味著商業(yè)用戶不需要等待IT的出現(xiàn)就能生成報(bào)表,而那些在IT努力工作的人員可以做他們最好該做事情—維持業(yè)務(wù)的運(yùn)行。
3、能提高數(shù)據(jù)的質(zhì)量和一致性
一個(gè)數(shù)據(jù)倉庫的實(shí)施包括將數(shù)據(jù)從眾多的數(shù)據(jù)源系統(tǒng)中轉(zhuǎn)換成共同的格式。由于每個(gè)來自各個(gè)部門的數(shù)據(jù)被標(biāo)準(zhǔn)化了,每個(gè)部門將會產(chǎn)生與所有其它部門符合的結(jié)果。所以你可以對你數(shù)據(jù)的準(zhǔn)確性更有信心。而準(zhǔn)確的數(shù)據(jù)是強(qiáng)大的商業(yè)決策的基礎(chǔ)。
4、能提供歷史的智慧
一個(gè)數(shù)據(jù)倉庫儲存了大量的歷史數(shù)據(jù),所以你可以通過分析不同的時(shí)期和趨勢來做出對未來的預(yù)測。這些數(shù)據(jù)通常不能被存儲在一個(gè)交易型的數(shù)據(jù)庫里或用來從一個(gè)交易系統(tǒng)中生成報(bào)表。
5、能創(chuàng)建高的投資回報(bào)率
最后,最值得一提的是投資回報(bào)率。已經(jīng)安裝了數(shù)據(jù)倉庫和完善了商業(yè)智能(BI)系統(tǒng)的企業(yè)比沒有在商業(yè)智能(BI)系統(tǒng)和數(shù)據(jù)倉庫投資的企業(yè)能產(chǎn)生更多的利潤和節(jié)約更多的資金。而這應(yīng)該成為高級管理層快速加入到數(shù)據(jù)倉庫這個(gè)潮流中的足夠理由。
數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別
簡而言之,數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。
數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。
數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計(jì),數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì)。
數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì),它的兩個(gè)基本的元素是維表和事實(shí)表。維是看問題的角度,比如時(shí)間,部門,維表放的就是這些東西的定義,事實(shí)表里放著要查詢的數(shù)據(jù),同時(shí)有維的ID。
單從概念上講,有些晦澀。任何技術(shù)都是為應(yīng)用服務(wù)的,結(jié)合應(yīng)用可以很容易地理解。以銀行業(yè)務(wù)為例。數(shù)據(jù)庫是事務(wù)系統(tǒng)的數(shù)據(jù)平臺,客戶在銀行做的每筆交易都會寫入數(shù)據(jù)庫,被記錄下來,這里,可以簡單地理解為用數(shù)據(jù)庫記帳。數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺,它從事務(wù)系統(tǒng)獲取數(shù)據(jù),并做匯總、加工,為決策者提供決策的依據(jù)。比如,某銀行某分行一個(gè)月發(fā)生多少交易,該分行當(dāng)前存款余額是多少。如果存款又多,消費(fèi)交易又多,那么該地區(qū)就有必要設(shè)立ATM了。
顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計(jì)算。事務(wù)系統(tǒng)是實(shí)時(shí)的,這就要求時(shí)效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數(shù)據(jù)庫只能存儲很短一段時(shí)間的數(shù)據(jù)。而分析系統(tǒng)是事后的,它要提供關(guān)注時(shí)間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的,匯總計(jì)算起來也要慢一些,但是,只要能夠提供有效的分析數(shù)據(jù)就達(dá)到目的了。
數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫”。那么,數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫比較,有哪些不同呢?讓我們先看看W.H.Inmon關(guān)于數(shù)據(jù)倉庫的定義:面向主題的、集成的、與時(shí)間相關(guān)且不可修改的數(shù)據(jù)集合。
“面向主題的”:傳統(tǒng)數(shù)據(jù)庫主要是為應(yīng)用程序進(jìn)行數(shù)據(jù)處理,未必按照同一主題存儲數(shù)據(jù);數(shù)據(jù)倉庫側(cè)重于數(shù)據(jù)分析工作,是按照主題存儲的。這一點(diǎn),類似于傳統(tǒng)農(nóng)貿(mào)市場與超市的區(qū)別—市場里面,白菜、蘿卜、香菜會在一個(gè)攤位上,如果它們是一個(gè)小販賣的;而超市里,白菜、蘿卜、香菜則各自一塊。也就是說,市場里的菜(數(shù)據(jù))是按照小販(應(yīng)用程序)歸堆(存儲)的,超市里面則是按照菜的類型(同主題)歸堆的。
“與時(shí)間相關(guān)”:數(shù)據(jù)庫保存信息的時(shí)候,并不強(qiáng)調(diào)一定有時(shí)間信息。數(shù)據(jù)倉庫則不同,出于決策的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明時(shí)間屬性。決策中,時(shí)間屬性很重要。同樣都是累計(jì)購買過九車產(chǎn)品的顧客,一位是最近三個(gè)月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的。
“不可修改”:數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉庫反映的是歷史信息,并不是很多數(shù)據(jù)庫處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫例如電信計(jì)費(fèi)數(shù)據(jù)庫甚至處理實(shí)時(shí)信息)。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是極少或根本不修改的;當(dāng)然,向數(shù)據(jù)倉庫添加數(shù)據(jù)是允許的。
數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大部分?jǐn)?shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的。可以說,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。
所以主要區(qū)別在于:
(1)數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。
(2)數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。
(3)數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余。
(4)數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì)。
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3900瀏覽量
65772
發(fā)布評論請先 登錄
數(shù)據(jù)倉庫的基本架構(gòu)及架構(gòu)圖介紹

什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的優(yōu)勢分析
多版本數(shù)據(jù)倉庫模型設(shè)計(jì)
統(tǒng)計(jì)行業(yè)數(shù)據(jù)倉庫構(gòu)建及應(yīng)用
電信數(shù)據(jù)倉庫設(shè)計(jì)
OLAP在電信數(shù)據(jù)倉庫中的設(shè)計(jì)
數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別
保護(hù)MySQL數(shù)據(jù)倉庫的最佳實(shí)踐
數(shù)據(jù)倉庫是什么_數(shù)據(jù)倉庫有什么特點(diǎn)_數(shù)據(jù)庫和數(shù)據(jù)倉庫區(qū)別分析

如何建設(shè)企業(yè)級數(shù)據(jù)倉庫_多維數(shù)據(jù)庫模型的設(shè)計(jì)你知道多少

評論