大數據簡介
大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
?
大數據特征
容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;
種類(Variety):數據類型的多樣性;
速度(Velocity):指獲得數據的速度;
可變性(Variability):妨礙了處理和有效地管理數據的過程。
真實性(Veracity):數據的質量
復雜性(Complexity):數據量巨大,來源多渠道
價值(value):合理運用大數據,以低成本創造高價值
數據挖掘技術分類及應用
數據挖掘技術概況
基于Internet的全球信息系統的發展使我們擁有了前所未有的豐富數據。大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一是信息過量,難以消化;第二是信息真假難以辨識;第三是信息安全難以保證;第四是信息形式不一致,難以統一處理。數據豐富、知識貧乏已經成為一個典型問題。Data Mining(數據挖掘)的目的就是有效地從海量數據中提取出需要的答案,實現“數據-〉信息-〉知識-〉價值”的轉變過程。
(數據挖掘)是指用非平凡的方法從海量的數據中抽取出潛在的、有價值的知識(模型或規則)的過程。該術語還有其他一些同義詞:數據庫中的知識發現 、信息抽取 、信息發現 、智能數據分析 、探索式數據分析( 、信息收獲 、數據考古 等。
Data Mining(數據挖掘)是數據庫研究、開發和應用最活躍的一個分支,是多學科的交叉領域,它涉及數據庫技術、人工智能、機器學習、神經網絡、數學、統計學、模式識別、知識庫系統、知識獲取、信息提取、高性能計算、并行計算、數據可視化等多方面知識。
數據挖掘技術從一開始就是面向應用的,它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。例如加拿大BC省電話公司要求加拿大SimonFraser大學KDD研究組,根據其擁有十多年的客戶數據,總結、分析并提出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優惠政策。這樣一來,就把人們對數據的應用,從低層次的末端查詢操作,提高到為各級經營決策者提供決策支持。這種需求驅動力,比數據庫查詢更為強大。同時,這里所說的數據挖掘,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發現結果。因此數據挖掘的研究成果是很講求實際的。
?
數據挖掘技術應用
數據挖掘技術可以為決策、過程控制、信息管理和查詢處理等任務提供服務,一個有趣的應用范例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動數據挖掘工具,對數據庫中的大量數據進行分析后,意外發現,跟尿布一起購買最多的商品竟是啤酒。為什么兩件風馬牛不相及的商品會被人一起購買?原來,太太們常叮囑她們的丈夫,下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了兩瓶啤酒。既然尿布與啤酒一起購買的機會最多,商店就將它們擺放在一起,結果,尿布與啤酒的銷售量雙雙增長。這里,數字挖掘技術功不可沒。一般來說,數據挖掘的應用有電信:流失;銀行:聚類(細分),交叉銷售;百貨公司/超市:購物籃分析(關聯規則);保險:細分,交叉銷售,流失(原因分析);信用卡: 欺詐探測,細分;電子商務:網站日志分析;稅務部門:偷漏稅行為探測;警察機關:犯罪行為分析;醫學:醫療保健。具體如下:
電子政務的數據挖掘
建立電子化政府,推動電子政務的發展,是電子信息技術應用到政府管理的必然趨勢。實踐經驗表明,政府部門的決策越來越依賴于對數據的科學分析。發展電子政務,建立決策支持系統,利用電子政務綜合數據庫中存儲的大量數據,通過建立正確的決策體系和決策支持模型,可以為各級政府的決策提供科學的依據,從而提高各項政策制定的科學性和合理性,以達到提高政府辦公效率、促進經濟發展的目的。為此,在政府決策支持方面,需要不斷
吸納新的信息處理技術,而數據挖掘正是實現政府決策支持的核心技術。以數據挖掘為依托的政府決策支持系統,將發揮重要的作用。
電子政務位于世界各國積極倡導的“信息高速公路”五個領域(電子政務、電子商務、遠程教育、遠程醫療、電子娛樂)之首,說明政府信息化是社會信息化的基礎。電子政務包括政府的信息服務、電子貿易、電子化政府、政府部門重構、群眾參與政府五個方面的內容。將網絡數據挖掘技術引入電子政務中,可以大大提高政府信息化水平,促進整個社會的信息化。具體體現在以下幾個方面:
1)政府的電子貿易 在服務器以及瀏覽器端日志記錄的數據中隱藏著模式信息,運用網絡用法挖掘技術可以自動發現系統的訪問模式和用戶的行為模式,從而進行預測分析。例如,通過評價用戶對某一信息資源瀏覽所花費的時間,可以判斷出用戶對何種資源感興趣;對日志文件所收集到的域名數據,根據國家或類型進行分類分析;應用聚類分析來識別用戶的訪問動機和訪問趨勢等。這項技術已經有效地運用在政府電子貿易中。
2)網站設計 通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網站信息,如采用自動歸類技術實現網站信息的層次性組織;同時可以結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網站信息推送服務以及個人信息的定制服務,吸引更多的用戶。
3)搜索引擎 網絡數據挖掘是目前網絡信息檢索發展的一個關鍵。如通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網絡信息的分類瀏覽與檢索;同時,通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進行提問擴展,提高用戶的檢索效果;另外,運用網絡內容挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。
4)決策支持 為政府重大政策出臺提供決策支持。如,通過對網絡各種經濟資源的挖掘,確定未來經濟的走勢,從而制定出相應的宏觀經濟調控政策。
市場營銷的數據挖掘
數據挖掘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。
商業消費信息來自市場中的各種渠道。例如,每當我們用信用卡消費時,商業企業就可以在信用卡結算過程收集商業消費信息,記錄下我們進行消費的時間、地點、感興趣的商品或服務、愿意接收的價格水平和支付能力等數據;當我們在申辦信用卡、辦理汽車駕駛執照、填寫商品保修單等其他需要填寫表格的場合時,我們的個人信息就存入了相應的業務數據庫;企業除了自行收集相關業務信息之外,甚至可以從其他公司或機構購買此類信息為自己所用。
這些來自各種渠道的數據信息被組合,應用超級計算機、并行處理、神經元網絡、模型化算法和其他信息處理技術手段進行處理,從中得到商家用于向特定消費群體或個體進行定向營銷的決策信息。這種數據信息是如何應用的呢?舉一個簡單的例子,當銀行通過對業務數據進行挖掘后,發現一個銀行帳戶持有者突然要求申請雙人聯合帳戶時,并且確認該消費者是第一次申請聯合帳戶,銀行會推斷該用戶可能要結婚了,它就會向該用戶定向推銷用于購買房屋、支付子女學費等長期投資業務,銀行甚至可能將該信息賣給專營婚慶商品和服務的公司。數據挖掘構筑競爭優勢。
在市場經濟比較發達的國家和地區,許多公司都開始在原有信息系統的基礎上通過數據挖掘對業務信息進行深加工,以構筑自己的競爭優勢,擴大自己的營業額。美國運通公司(American Express)有一個用于記錄信用卡業務的數據庫,數據量達到54億字符,并仍在隨著業務進展不斷更新。運通公司通過對這些數據進行挖掘,制定了“關聯結算(Relation ship Billing)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。再如,居住在倫敦的持卡消費者如果最近剛剛乘英國航空公司的航班去過巴黎,那么他可能會得到一個周末前往紐約的機票打折優惠卡。
基于數據挖掘的營銷,常常可以向消費者發出與其以前的消費行為相關的推銷材料。卡夫(Kraft)食品公司建立了一個擁有3000萬客戶資料的數據庫,數據庫是通過收集對公司發出的優惠券等其他促銷手段作出積極反應的客戶和銷售記錄而建立起來的,卡夫公司通過數據挖掘了解特定客戶的興趣和口味,并以此為基礎向他們發送特定產品的優惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產品食譜。美國的讀者文摘(Reader‘s Digest)出版公司運行著一個積累了40年的業務數據庫,其中容納有遍布全球的一億多個訂戶的資料,數據庫每天24小時連續運行,保證數據不斷得到實時的更新,正是基于對客戶資料數據庫進行數據挖掘的優勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業雜志、書刊和聲像制品的出版和發行業務,極大地擴展了自己的業務。
基于數據挖掘的營銷對我國當前的市場競爭中也很具有啟發意義,我們經常可以看到繁華商業街上一些廠商對來往行人不分對象地散發大量商品宣傳廣告,其結果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。如果搞家電維修服務的公司向在商店中剛剛購買家電的消費者郵寄維修服務廣告,賣特效藥品的廠商向醫院特定門診就醫的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。
零售業中的數據挖掘
通過條形碼、編碼系統、銷售管理系統、客戶資料管理及其它業務數據中,可以收集到關于商品銷售、客戶信息、貨存單位及店鋪信息等的信息資料。數據從各種應用系統中采集,經條件分類,放到數據倉庫里,允許高級管理人員、分析人員、采購人員、市場人員和廣告客戶訪問,利用DM工具對這些數據進行分析,為他們提供高效的科學決策工具。如對商品進行購物籃分析,分析那些商品顧客最有希望一起購買。如被業界和商界傳誦的經典----Wal-Mart的 “啤酒和尿布”,就是數據挖掘透過數據找出人與物間規律的典型。在零售業應用領域,利用DW、DM會在很多方面有卓越表現:
1. 了解銷售全局:通過分類信息——按商品種類、銷售數量、商店地點、價格和日期等了解每天的運營和財政情況,對銷售的每一點增長、庫存的變化以及通過促銷而提高的銷售額都可了如指掌。零售商店在銷售商品時,隨時檢查商品結構是否合理十分重要,如每類商品的經營比例是否大體相當。調整商品結構時需考慮季節變化導致的需求變化、同行競爭對手的商品結構調整等因素。
2. 商品分組布局:分析顧客的購買習慣,考慮購買者在商店里所穿行的路線、購買時間和地點、掌握不同商品一起購買的概率;通過對商品銷售品種的活躍性分析和關聯性分析,用主成分分析方法,建立商品設置的最佳結構和商品的最佳布局。
3. 降低庫存成本:通過數據挖掘系統,將銷售數據和庫存數據集中起來,通過數據分析,以決定對各個商品各色貨物進行增減,確保正確的庫存。數據倉庫系統還可以將庫存信息和商品銷售預測信息,通過電子數據交換(EDI)直接送到供應商那里,這樣省去商業中介,而且由供應商負責定期補充庫存,零售商可減少自身負擔。
4. 市場和趨勢分析:利用數據挖掘工具和統計模型對數據倉庫的數據仔細研究,以分析顧客的購買習慣、廣告成功率和其它戰略性信息。利用數據倉庫通過檢索數據庫中近年來的銷售數據,作分析和數據挖掘,可預測出季節性、月銷售量,對商品品種和庫存的趨勢進行分析。還可確定降價商品,并對數量和運作作出決策。
有效的商品促銷:可以通過對一種廠家商品在各連鎖店的市場共享分析,客戶統計以及歷史狀況的分析,來確定銷售和廣告業務的有效性。通過對顧客購買偏好的分析,確定商品促銷的目標客戶,以此來設計各種商品促銷的方案,并通過商品購買關聯分析的結果,采用交叉銷售和向上銷售的方法,挖掘客戶的購買力,實現準確的商品促銷。
銀行業的數據挖掘
金融事務需要搜集和處理大量的數據,由于銀行在金融領域的地位、工作性質、業務特點以及激烈的市場競爭決定了它對信息化、電子化比其它領域有更迫切的要求。利用數據挖掘技術可以幫助銀行產品開發部門描述客戶以往的需求趨勢,并預測未來。美國商業銀行是發達國家商業銀行的典范,許多地方值得我國學習和借鑒。
數據挖掘技術在美國銀行金融領域應用廣泛。金融事務需要搜集和處理大量數據,對這些數據進行分析,發現其數據模式及特征,然后可能發現某個客戶、消費群體或組織的金融和商業興趣,并可觀察金融市場的變化趨勢。商業銀行業務的利潤和風險是共存的。為了保證最大的利潤和最小的風險,必須對帳戶進行科學的分析和歸類,并進行信用評估。Mellon銀行使用數據挖掘軟件提高銷售和定價金融產品的精確度,如家庭普通貸款。零售信貸客戶主要有兩類,一類很少使用信貸限額(低循環者),另一類能夠保持較高的未清余額(高循環者)。每一類都代表著銷售的挑戰。低循環者代表缺省和支出注銷費用的危險性較低,但會帶來極少的凈收入或負收入,因為他們的服務費用幾乎與高循環者的相同。銀行常常為他們提供項目,鼓勵他們更多地使用信貸限額或找到交叉銷售高利潤產品的機會。高循環者由高和中等危險元件構成。高危險分段具有支付缺省和注銷費用的潛力。對于中等危險分段,銷售項目的重點是留住可獲利的客戶并爭取能帶來相同利潤的新客戶。但根據新觀點,用戶的行為會隨時間而變化。分析客戶整個生命周期的費用和收入就可以看出誰是最具創利潛能的。
Mellon銀行認為“根據市場的某一部分進行定制”能夠發現最終用戶并將市場定位于這些用戶。但是,要這么做就必須了解關于最終用戶特點的信息。數據挖掘工具為Mellon銀行提供了獲取此類信息的途徑。Mellon銀行銷售部在先期數據挖掘項目上使用Intelligence Agent尋找信息,主要目的是確定現有Mellon用戶購買特定附加產品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測的模型。據銀行官員稱:數據挖掘可幫助用戶增強其商業智能,如交往、分類或回歸分析,依賴這些能力,可對那些有較高傾向購買銀行產品、服務產品和服務的客戶進行有目的的推銷。該官員認為,該軟件可反饋用于分析和決策的高質量信息,然后將信息輸入產品的算法。數據挖掘還有可定制能力。
美國Firstar銀行使用數據挖掘工具,根據客戶的消費模式預測何時為客戶提供何種產品。Firstar銀行市場調查和數據庫營銷部經理發現:公共數據庫中存儲著關于每位消費者的大量信息,關鍵是要透徹分析消費者投入到新產品中的原因,在數據庫中找到一種模式,從而能夠為每種新產品找到最合適的消費者。數據挖掘系統能讀取800到1000個變量并且給它們賦值,根據消費者是否有家庭財產貸款、賒帳卡、存款證或其它儲蓄、投資產品,將它們分成若干組,然后使用數據挖掘工具預測何時向每位消費者提供哪種產品。預測準客戶的需要是美國商業銀行的競爭優勢。
證券業的數據挖掘
其典型應用包括有:
1、客戶分析
建立數據倉庫來存放對全體客戶、預定義客戶群、某個客戶的信息和交易數據,并通過對這些數據進行挖掘和關聯分析,實現面向主題的信息抽取。對客戶的需求模式和盈利價值進行分類,找出最有價值和盈利潛力的客戶群,以及他們最需要的服務,更好地配置資源,改進服務,牢牢抓住最有價值的客戶。
通過對客戶資源信息進行多角度挖掘,了解客戶各項指標(如資產貢獻、忠誠度、盈利率、持倉比率等),掌握客戶投訴、客戶流失等信息,從而在客戶離開券商之前,捕獲信息,及時采取措施挽留客戶。
2、咨詢服務
根據采集行情和交易數據,結合行情分析,預測未來大盤走勢,并發現交易情況隨著大盤變化的規律,并根據這些規律做出趨勢分析,對客戶針對性進行咨詢。
3、風險防范
通過對資金數據的分析,可以控制營業風險,同時可以改變公司總部原來的資金控制模式,并通過橫向比較及時了解資金情況,起到風險預警的作用。
4、經營狀況分析
通過數據挖掘,可以及時了解營業狀況、資金情況、利潤情況、客戶群分布等重要的信息。并結合大盤走勢,提供不同行情條件下的最大收益經營方式。同時,通過對各營業部經營情況的橫向比較,以及對本營業部歷史數據的縱向比較,對營業部的經營狀況作出分析,提出經營建議。
電信業的數據挖掘
電信業已經迅速地從單純的提供市話和長話服務演變為綜合電信服務,如語音、傳真、尋呼、移動電話、圖像、電子郵件、計算機和WEB數據傳輸以及其他的數據通信服務。電信、計算機網絡、因特網和各種其他方式的的通信和計算的融合是目前的大勢所趨。而且隨著許多國家對電信業的開放和新興計算與通信技術的發展,電信市場正在迅速擴張并越發競爭激烈。因此,利用數據挖掘技術來幫助理解商業行為、確定電信模式、捕捉盜用行為、更好地利用資源和提高服務質量是非常有必要的。分析人員可以對呼叫源、呼叫目標、呼叫量和每天使用模式等信息進行分析還可以通過挖掘進行盜用模式分析和異常模式識別,從而可盡早的發現盜用,為公司減少損失。
移動通信領域的數據挖掘
針對信息化的應用,移動通信行業信息化進程得到巨大發展和廣泛應用,運營網絡系統、綜合業務系統、計費系統、辦公自動化等系統的相繼使用,為計算機應用系統的運行積累了大量的歷史數據。但在很多情況下,這些海量數據在原有的作業系統中是無法提煉并升華為有用的信息并提供給業務分析人員與管理決策者的。一方面,聯機作業系統因為需要保留足夠的詳細數據以備查詢而變得笨重不堪,系統資源的投資跟不上業務擴展的需求;另一方面,管理者和決策者只能根據固定的、定時的報表系統獲得有限的經營與業務信息,無法適應激烈的市場競爭。
隨著我國政府對電信行業經營的進一步放開和政策約束的調整以及客戶對電信服務質量要求的提高、盜打、欺詐因素的增加等等,移動通信的經營面臨更加復雜的局面,營運成本大幅度增加。因此,如何在激烈的市場競爭條件下,在滿足客戶需求和優質服務的前提下充分利用現有設備降低成本、提高效益,就成為決策者們共同關心的課題。
依照國外電信市場的發展經驗和歷程,市場競爭中電信公司的成功經營之道是:(1) 以高質量的服務留住現有客戶;(2) 提高通話量和設備利用率,用比競爭者更低的成本爭取新客戶,擴大市場份額;(3)放棄無利潤和信用差的客戶,降低經營風險和成本。
對于一個相對成熟的移動通信運營商來說,各運營與支撐系統所積累的海量歷史數據無疑是一筆寶貴的財富,而數據挖掘正是充分利用這些寶貴資源從而達到上述三重目標的一種最為有效的方法與手段。
體育領域的數據挖掘
1、體質數據分析
目前,我國對健康和增強體質都十分重視,每年都有很多相關的體質測試。這樣年復一年地積累了大量數據,而對這些數據的分析采用的幾乎都是統計方法,包括很多單位的體育分析和評價軟件,主要是對體質數據的均值分析以及套用規定的評價公式進行評價和分析。顯然,它們對體育中的體質數據分析有一定的貢獻,但其作用也只能局限于數據本身的大小比較,且產生的結果通常只能由專業人員能夠理解,另外只采用統計的方法挖掘數據之間的聯系也十分有限。
利用數據挖掘對體質數據進行挖掘,很容易產生統計方法難以實現的結果。例如,根據積累和不斷收集的數據,結合體質數據和營養學方面的知識,可以挖掘出造成不同地區體質好或差的營養方面的原因;同樣,根據體質數據和醫學方面的知識,能夠挖掘出人們的健康狀況,甚至分析出導致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等各方面提供有力的指導;此外,采用數據挖掘對有名運動員的早期體質數據進行分析,能夠找出它們的共同特點,從而為體育選材提供有力的依據。體質數據庫正如一個寶礦,采用數據挖掘技術,肯定能夠挖掘出很多難以想象的寶藏。
2、 體育產業中的應用
數據挖掘最初的應用就是商業領域,而體育產業本身就是一類典型的商業。在一般的商業數據挖掘中,DM技術判斷哪些是它們的最有價值客戶、重新制定它們的產品推廣策略(把產品推廣給最需要它們的人),以用最小的花費得到最好的銷售。以體育廣告為例,可以對國內從事不同體育運動廣告業務的數據庫進行挖掘,比如,發現了做某類體育廣告的單位或公司的特征,那么就可以向那些具有這些特征但還未成為我們的客戶的其它公司或單位推銷這類體育廣告;同樣,如果通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。這樣,可以一定程度地提高體育廣告的效益。,因此,及時、有效地利用DM,可以為我國體育產業創造更多的財富。
3、 競技體育中的應用
競技體育特別是對抗性質的競技,通常不但要求運動員實際水平高,同時戰術策略也相當重要,有時競技中的戰術甚至起到決定性作用。認識到數據挖掘的功能后,國外已經將其應用于競技體育中。例如,美國著名的國家籃球隊NBA的教練,利用IBM公司提供的數據挖掘工具臨場輔助決定替換隊員,而且取得了很好的效果。系統分析顯示魔術隊先發陣容中的兩個后衛安佛尼。哈德衛(Anfernee Hardaway)和伯蘭。紹(Brian Shaw)在前兩場中被評為-17分,這意味著他倆在場上本隊輸掉的分數比得到的分數多17分。然而,當哈德衛與替補后衛達利爾。阿姆斯創(Darrell Armstrong)組合時,魔術隊得分為正14分。在下一場中,魔術隊增加了阿姆斯創的上場時間。此著果然見效:阿姆斯創得了21分,哈德衛得了42分,魔術隊以88比79獲勝。魔術隊在第四場讓阿姆斯創進入先發陣容,再一次打敗了熱隊。在第五場比賽中,這個靠數據挖掘支持的陣容沒能拖住熱隊,但數據挖掘畢竟幫助了魔術隊贏得了打滿5場,直到最后才決出勝負的機會。目前,NBA球隊中大約20個使用了IBM公司開發的該軟件系統來優化他們的戰術組合。同樣,利用數據挖掘技術也可以分析足球、排球等類似對抗性的競技運動,從中找出對手的弱點,制定出到更有效的戰術。
郵政業的數據挖掘
中國郵政建立了目前國內最大的物流交換體系,同時也積累了大量的用戶數據,如何利用這些用戶數據,通過數據分析為郵政業務的發展提供科學決策依據,是郵政部門十分關心的問題。數據挖掘技術可以很好地為郵政部門解決上述問題,利用該技術,我們可以進行客戶存款余額分析、客戶存款結構分析、平均存款利率分析、不同儲種余額分析、不同儲種客戶分析、攬儲統計分析、業務量統計分析等等。我們以客戶存款分析進行介紹。采用分析的維包括如下: 營業網點的地區:以地區作為分析維度,可以判斷出各個儲蓄所的工作業績情況; 客戶的年齡:根據客戶年齡段對存款余額進行統計,從中可以分析出哪個年齡段的客戶是優良客戶,哪些客戶是未來開發的重點。客戶的地址:根據客戶所在地區統計存款余額, 可以分析出各地區的經濟情況以及人們對郵政儲蓄的認識程度,從而為以后的業務拓展提供依據; 存款的用途:居民的儲蓄存款用途比較繁雜,但是了解有規律的存款目的一方面可以幫助郵政儲蓄及時想客戶之所想,拉近與客戶之間的距離;另一方面可以為新業務的拓展提供有力的信息;時間段:通過這種分析可以及時掌握客戶儲蓄的變化規律,從而適當調整郵政業務流程。例如,根據客戶存款的變化規律可以預見性的及時調整郵政儲蓄的頭寸資金,在保證投資最大化的同時,預防金融風險。
呼叫中心的數據挖掘
呼叫中心正在逐漸成為企業進行信息收集的主要渠道。在收集了大量的數據之后,如何將這些數據進行整理、分析,為企業進行科學決策提供支持,也是面臨的一個主要問題。數據挖掘技術,能提供一條新的解決出路。
為決策提供依據,將數據挖掘技術引入呼叫中心,具有十分重要的意義。企業運營過程中的各種信息都是通過數據反映出來的,通過對這些數據的分析,可以發現企業運營過程中的規律,從而對企業的生產活動、市場活動等提供科學指導意義。
呼叫中心目前僅解決了企業與外部市場進行信息接入的問題,產生的大量數據通過報表等統計方法,只能得到一般意義上的信息反映。而通過數據挖掘技術,可以發現許多深層的、手工無法發現的規律,幫助企業在激烈的競爭環境中,占有更多的先機。
為用戶提供針對性服務,通過數據挖掘技術,可以根據客戶的消費行為進行分類,找出該類客戶的消費特征,然后通過呼叫中心提供更具個性化的服務,從而改進企業的服務水平,提高企業的社會效益和經濟效益。
提高企業的決策科學,目前,企業的決策具有很大的盲目性。如果采用數據挖掘技術,就可以在自己的生產過程中產生的數據基礎上,進行科學分析,得出比較科學的預測結果,減少決策失誤。通過數據挖掘技術,可以讓企業的決策回歸到自己的業務中,得出更實際的判斷。
增值更容易,數據挖掘在呼叫中心中會有很多種應用,而且有些應用可以幫助簡化管理運營,有的則可以提供一些業務關聯性的數據,幫助企業呼叫中心更好地開展業務,實現增值。具體說來,增值應用表現在以下方面。分析客戶行為,進行交叉銷售。在呼叫中心的各種客戶中,可以根據其消費的特點,進行相關分析,了解某類客戶在購買一種商品時,購買其它種類產品的概率有多大。根據這種相互的關聯性,就可以進行交叉銷售。分析客戶忠誠度,避免客戶流失。在客戶分析過程中,會有很多重要的大客戶流失。采用數據挖掘技術,可以對這些流失的大客戶進行分析,找出數據模型,發現其流失的規律,然后有針對性地改進服務質量,避免客戶的流失,減少企業的經濟損失。
簡化管理,呼叫中心的運營管理被人們提到前所未有的高度,因為一個中心即使建得很好,技術也很先進,但如果管理不好,優勢仍然發揮不出來。然而,管理對于很多呼叫中心來說,卻是很難過的門檻,數據挖掘能幫助簡化管理。
預測話務量,安排人工座席,在呼叫中心中,話務量是個重要的指標,企業要根據話務量的大小,安排座席人員的數量,但話務量是個變化的指標,以往比較難以預測。通過數據挖掘中的時間序列分析,可以對話務量的情況進行一定程度的預測,就可以更合理地安排座席人員的數量,在不降低呼叫中心接通率的基礎上,降低企業的運營成本。
進行關聯分析,降低運營成本。在運營型的呼叫中心中,常常會提供很多種業務服務,并根據這些業務種類的不同,安排座席人員的數量和排班。通過數據挖掘中關聯分析,可以進行業務的相關性分析,分析出哪幾種業務具有比較強的關聯性。如在快遞行業,送生日蛋糕的業務與送鮮花的業務可能就有很大的關聯性。這樣,在安排座席人員時,就可以將兩種業務的座席人員進行一定程度的合并,減少人員數量,降低呼叫中心的經營成本。
數字圖書館的數據挖掘
WEB挖掘是一個前景非常看好的工具。我們知道,傳統的效率低下的搜索引擎檢索出的信息往往索引不完全、有大量的無關信息或沒有進行可靠性驗證。用戶能夠快速方便地從WEB中檢索出相關的可靠的信息是一個系統的最基本的要求。WEB挖掘不僅能夠從WWW的大量的數據中發現信息,而且它監視和預測用戶的訪問習慣。這樣給設計人員在設計WEB站點時有更多的可靠的信息。WEB挖掘技術能夠幫助圖書館員在設計站點時朝著方便用戶、節省時間和高效率方向發展。WEB挖掘技術為圖書館員進行信息服務提供了先進的工具。有了這個工具,圖書館員能夠按照各個用戶的要求或習慣,為用戶組織更多、更好的高質量信息。
例如;院校圖書館員們應用WEB挖掘技術為本院校不同學科中的不同研究課題從WWW中檢索相關信息。該技術可以自動地檢索信息,并把信息按照課題領域進行分類,使它們更容易訪問。圖書館員可以通過為不同的課題領域建立一組特征,并以這些特征為基礎進行檢索和分類,從而保證得到的信息是可靠的和具有權威性的。由于WEB挖掘技術能夠自動地,不須人工干預地從WWW中發現和組織信息,從而使圖書館員只需花少量的時間來維護數據庫即可完成任務。用戶由于不需要花大量的時間來瀏覽成百上千的文檔,就可在相當短的時間里得到想要的信息而感到非常滿意。更重要的是,他們可以在任何時間訪問到世界任何地方的信息。事實上,這就是圖書館員把他們的咨詢服務從桌面轉移到INTERNET的具體工作表現。
網站的數據挖掘
隨著Web技術的發展,各類電子商務網站風起云涌。建立一個電子商務網站并不困難,困難的是如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需要點擊幾下鼠標即可。網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Log files)和登記表,如何對這些數據進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。
在對網站進行數據挖掘時,所需要的數據主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),此部分數據主要用于考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客戶的背景信息,進而再加以利用。
生物醫學和DNA的數據挖掘
生物信息或基因數據挖掘對人類受益非淺。例如,基因的組合千變萬化,得某種疾病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。
對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,更需要一些新的和好的算法。現在很多廠商正在致力于這方面的研究。但就技術和軟件而言,還遠沒有達到成熟的地步。
因特網篩選的數據挖掘
最近,有不少數據挖掘產品用來篩選因特網上的新聞,保護用戶不受無聊電子郵件和商業推銷的干擾,很受歡迎。
氣象預報中的數據挖掘
農業生產與氣候、氣象有著密切的關系,我國是一個農業大國,農業生產關系到國家經濟命脈和人民生活。天氣系統是一個復雜性系統,其影響因素多,時空狀態變化大。氣象數據中蘊含著復雜非線性動力學機制。各個因素之間的關系十分復雜,并具有紛雜多變的時空特征。因而,難以建立農業生產與氣象要素的關系。采用新的技術和方法進行相關研究有實際意義,也是應用發展及需求的驅動,數據挖掘技術可以用來解決此問題。
國外利用數據挖掘來進行氣象預報的應用研究所采用的方法主要包括:神經網絡、分類和聚類;國內則有人采用了小波分析與語言場相結合的知識表示方法,針對氣象數據提出一種新的基于小波分析和混沌理論相結合進行類別知識的發現方法,氣象數據通過小波變換后可以提取表示天氣系統的特征數據,利用特征數據同農業生產相關指標(如產量,害蟲密度等)的關系進行數據挖掘,數據挖掘的方法包括:分類、聚類、關聯規則以及相似模式等,從非結構化數據信息挖掘的角度構建了一個實用的、可擴展的、易操作的氣象科學研究的應用系統。
水文數據的數據挖掘
信息獲取與分析技術的快速發展,特別是遙測、遙感、網絡、數據庫等技術的應用,有力地促進了水文數據的采集和處理技術的發展,使之在時間和空間的尺度及要素類型上有了不同程度的擴展。由于水在人類生存發展中的特殊作用,應用各種新技術獲取水文數據,挖掘蘊藏于水文數據中的知識,已成為水文科學發展的新熱點。數字水文系統的提出是水文科學發展的時代標志之一。其核心是如何形成數字化的、覆蓋整個指定地域空間的、多重時空尺度的、多種要素的、對水文分析有用的數據產品。
水文數據挖掘是精確水文預報和水文數據分析的重要基礎。在我國,整個水文整編資料數據累計量已超過7000MB,加上進行水文預報所需的天氣、地理等數據,進行水文分析所需要處理的數據量很大。從這些數量巨大、類型復雜的數據中及時準確地挖掘出滿足需要的知識,往往因為計算能力、存儲能力、算法的不足而無能為力。因此,需要高效的水文數據挖掘技術。數據挖掘技術在水文信息服務領域的應用將是多方面的。
數據挖掘一般有關聯分析(Associations)、序列模式分析(Sequential Patterns)、分類分析(Classifiers)、聚類分析(Clustering)等功能類型。根據應用目標不同,數據挖掘可以采用或借鑒各種已經存在的理論和算法,如信息論、數理邏輯、進化計算、神經計算、統計學等以及面向實例的學習的許多算法都可以應用于數據挖掘系統的實現中。水文數據挖掘可以應用決策樹、神經網絡、覆蓋正例排斥反例、粗糙集(Rough Set)、概念樹、遺傳算法、公式發現、統計分析、模糊論等理論與技術,并在可視化技術的支持下,構造滿足不同目的的水文數據挖掘應用系統。
視頻數據的數據挖掘
目前,多媒體數據已逐漸成為信息處理領域中主要的信息媒體形式,尤其是視頻數據,由于它能記錄、保留空間和時間上的各種信息,其內容豐富,但使人們能夠以最接近自然的方式獲得更多的細節。視頻數據在生活中的應用越來越廣泛,已產生了大量的數字視頻庫,目前的研究主要集中在數字視頻庫的組織管理和使用上,特別是基于內容的視頻檢索技術。基于內容的視頻信息檢索技術雖然在某種程度上解決了視頻搜索和資源發現問題,但是,視頻信息檢索只能獲取用戶要求的視頻“信息”,而不能從大量視頻數據中分析出蘊含的有價值的用視頻媒體表示的“知識”。為此,需要研究比檢索和查詢層次更高的視頻分析方法,那就是視頻挖掘(Video Mining)。視頻挖掘就是通過綜合分析視頻數據的視聽特性、時間結構、事件關系和語義信息,發現隱含的、有價值的、可理解的視頻模式,得出視頻表示事件的趨向和關聯,改善視頻信息管理的智能程度。
個人數據挖掘
個人數據挖掘的應用非常廣泛,例如,可以挖掘公司記錄,選擇最好的合作伙伴;挖掘個人家庭醫療史,確定和遺傳有關的醫學模式,從而對生活方式和健康做出最優決策;挖掘股票和公司業績來選擇最優投資方式等。
數據挖掘工具的評價標準
如何選擇滿足自己需要的數據挖掘工具呢?評價一個數據挖掘工具,需要從以下幾個方面來考慮:
1產生的模式種類的多少。
2解決復雜問題的能力。
數據量的增大,對模式精細度、準確度要求的增高都會導致問題復雜性的增大。數據挖掘系統可以提供下列方法解決復雜問題:
多種模式多種類別模式的結合使用有助于發現有用的模式,降低問題復雜性。例如,首先用聚類的方法把數據分組,然后再在各個組上挖掘預測性的模式,將會比單純在整個數據集上進行操作更有效、準確度更高。
多種算法很多模式,特別是與分類有關的模式,可以有不同的算法來實現,各有各的優缺點,適用于不同的需求和環境。數據挖掘系統提供多種途徑產生同種模式,將更有能力解決復雜問題。驗證方法在評估模式時,有多種可能的驗證方法。比較成熟的方法像N層交叉驗證或Bootstrapping等可以控制,以達到最大的準確度。
數據選擇和轉換模式通常被大量的數據項隱藏。有些數據是冗余的,有些數據是完全無關的。而這些數據項的存在會影響到有價值的模式的發現。數據挖掘系統的一個很重要功能就是能夠處理數據復雜性,提供工具,選擇正確的數據項和轉換數據值。
可視化工具提供直觀、簡潔的機制表示大量的信息。這有助于定位重要的數據,評價模式的質量,從而減少建模的復雜性。 擴展性為了更有效地提高處理大量數據的效率,數據挖掘系統的擴展性十分重要。需要了解的是:數據挖掘系統能否充分利用硬件資源?是否支持并行計算?算法本身設計為并行的或利用了DBMS的并行性能?支持哪種并行計算機,SMP服務器還是MPP服務器?當處理器的數量增加時,計算規模是否相應增長?是否支持數據并行存儲?
為單處理器的計算機編寫的數據挖掘算法不會在并行計算機上自動以更快的速度運行。為充分發揮并行計算的優點,需要編寫支持并行計算的算法。
3易操作性
易操作性是一個重要的因素。有的工具有圖形化界面,引導用戶半自動化地執行任務,有的使用腳本語言。有些工具還提供數據挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder這樣的編程語言中。
模式可以運用到已存在或新增加的數據上。有的工具有圖形化的界面,有的允許通過使用C這樣的程序語言或SQL中的規則集,把模式導出到程序或數據庫中。
4數據存取能力
好的數據挖掘工具可以使用SQL語句直接從DBMS中讀取數據。這樣可以簡化數據準備工作,并且可以充分利用數據庫的優點(比如平行讀取)。沒有一種工具可以支持大量的DBMS,但可以通過通用的接口連接大多數流行的DBMS。Microsoft的ODBC就是一個這樣的接口。
5與其他產品的接口
有很多別的工具可以幫助用戶理解數據,理解結果。這些工具可以是傳統的查詢工具、可視化工具、OLAP工具。數據挖掘工具是否能提供與這些工具集成的簡易途徑?
國外的許多行業如通信、信用卡公司、銀行和股票交易所、保險公司、廣告公司、商店等已經大量利用數據挖掘工具來協助其業務活動,國內在這方面的應用還處于起步階段,對數據挖掘技術和工具的研究人員以及開發商來說,我國是一個有巨大潛力的市場。
評論