一、什么是數據挖掘
數據挖掘(Data Mining),也叫數據開采,數據采掘等,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘基于的數據庫類型主要有關系型數據庫、面向對象數據庫、事務數據庫、演繹數據庫、時態數據庫、多媒體數據庫、主動數據庫、空間數據庫、文本型、 Internet信息庫 以及新興的數據倉庫(Data Warehouse)等。而挖掘后獲得的知識包括關聯規則、特征規則、區分規則、分類規則、總結規則、偏差規則、聚類規則、模式分析及趨勢分析等。數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。數據挖掘在數據由數據庫轉化為知識的過程中,所處的位置如圖1所示。
圖1 數據由數據庫轉化為知識的過程
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識(也包括大量的不公開的數據)。數據挖掘使數據庫技術進入了一個更高級的階段。數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。能夠比市場提前知道這種信息,提前做出決策就會獲得超額利潤。
二、數據挖掘的原理
數據本來只是數據,直觀上并沒有表現出任務有價值的知識。當我們用數據挖掘方法,從數據中挖掘出知識后,這種知識是否值得信賴呢?為了說明這種知識是可信的, 現在來簡要介紹一下數據挖掘的原理。
圖2 數據挖掘與其他學科的關系
數據挖掘其實質是綜合應用各種技術,對于業務相關的數據進行一系列科學的處理,這這過程中需要用到數據庫、統計學、應用數學、機器學習、可視化、信息科學、程序開發以及其他學科(如圖2所示)。其核心是利用算法對處理好的輸入和輸出數據進行訓練,并得到模型, 然后再對模型進行驗證,使得模型能夠在一定程度上刻畫出數據由輸入到輸出的關系, 然后再利用該模型,對新輸入的數據進行計算,從而得到我們希望得到的新的輸出。所以雖然這種模型不容易解釋或很難看到, 但它是基于大量數據訓練并經過驗證的,所以能夠反映輸入數據和輸出數據之間的大致關系,這種關系(模型)就是我們需要的知識。這就是數據挖掘的原理。從數據挖掘的原理可以看出, 數據挖掘是有一定科學依據的, 數據挖掘的結果也是值得信賴的。
三、數據挖掘在量化投資的應用
1、宏觀經濟分析
股市的影響因素很多,但中國股市對宏觀政策尤其敏感,從根本上說,股市的運行與宏觀的經濟運行應當是一致的,經濟的周期決定著股市的周期,股市周期的變化反映了經濟周期的變動。其中經濟周期包括衰退、危機、復蘇和繁榮四個階段。按照一般常理來說,在經濟衰退時期,股價指數會逐漸下跌;到經濟危機時期,股價指數跌至最低點;當經濟復蘇開始時,股價指數又會逐步上升;到經濟繁榮時,股價指數則上漲至最高點。由此看來宏觀經濟走勢影響著股市的波動,但宏觀經濟走勢與股市趨勢的變動周期也不是完全同步的。所以無論從量化投資角度還是傳統投資方式角度,對宏觀經濟進行深入的分析是必須的。
在量化投資領域, 數據挖掘技術可以做以下幾個方面的工作:
分析GDP對股市及個股的影響。
分析分析貨幣供應量對股票價格的影響及對個股的影響。
分析利率對股市的影響及利率變化對個股的影響。
分析匯率對股市及個股的影響。
在宏觀經濟分析方面, 經常用到回歸、關聯分析、分類、預測等方法。比如利用回歸、預測等技術確定經濟周期, 并研究不同股票于各經濟周期的關聯性, 這樣就可以在不同的經濟周期,制定不同的投資策略,這樣不僅可以在不同的經濟周期實現持續盈利,還可以規避風險。 比如有的投資機構在2008年前就利用數據挖掘技術確認當時的經濟周期,提前減倉,改變投資策略,不僅避免了風險,而且實現了高額收益。 其實,如果將08年之前的宏觀經濟數據可視化之后(圖3所示), 就會發現這期間的經濟環境了。
圖3 08年前后的宏觀經濟趨勢圖
2、估價
國內外大量實證研究結果表明:上市公司定期公布的財務報告具有很強的信息含量,但是當期會計盈余數據的信息會在披露前后在股票市價中迅速得以體現。因此對于中長期投資者來說,重要的是預見未來。質地優良且未來具有較高盈利增長能力的公司是中長期投資者(包括普通投資者,證券投資基金和券商)普遍關注的對象,因為只有這類公司才能給投資。
通過對上市公司的價值的評估,來進行股票的選擇。這是現在占據主流地位的基本面分析的基本方法。通過各種不同的方法對于上市公司的價值進行一個評估,然后結合股票市場上的表現來決定市場上的價格是否被低估或者高估。如果低估則買入,如果高估則賣出。當然,中國市場現在還沒有賣空的途徑,剛剛獲批的融資融券業務也只是在限定標的的情況下進行部分的賣空,所以中國市場還是主要以買入為主。于是,我們更多的是選擇那些價格被低估的股票。分析未來股票發行和上市價格的合理定位。
數據挖掘技術在估價方面的應用就是去挖掘價值被低估的股票, 比如可以用最近鄰方法確定基本面相似的股票的市場估價, 然后根據實際價格很容易確定哪些股票被低估或者高估。 該方法對于新股的認購策略也同樣非常有幫助, 因為可以用來評估新股的合理價格區間。
3、量化選股
量化選股是數據挖掘在量化投資領域研究和應用最多的課題,畢竟選股是量化投資的最重要的內容。像上面剛介紹的多因子選股模型,主要是靠數據挖掘中的回歸方法得到的。當然量化選股的內容不僅限于此,數據挖掘技術在選股上有多重應用,有時是為策略提供決策基礎, 有時是根據策略進行挖掘。 比如,可以用聚類方法對股票進行聚類,從而對股票進行分池, 選股的時候就2可以從上漲概率比較大的池子中選擇股票。 再比如,可以用神經網絡方法預測股票的漲跌概率,具體實現方法這里先不贅述, 這些內容在本書中將都會進行介紹。
4、量化擇時
量化投資領域中,一個好的選股策略是比較容易實現的。這是因為在長時間跨度里能夠跑贏市場的一些投資組合一般會滿足某種特性,例如低估值、例如高成長、例如小市值、例如隱形資產低估等等。 但擇時就不是那么簡單了, 這里會有一個簡單的問題:大盤明天是漲還是跌?
這個看似簡單的問題其實并不好回答,尤其是從量化的角度去處理,甚至我們從傳統的策略研究——技術面+基本面+政策面會更加好回答一些。為什么?因為量化擇時無法處理來自政策面的消息。還有就是量化擇時經常會有很強的時域特性,太短的時域預測例如一天,太長的時域預測例如一年,量化擇時是很難處理的。
正因為擇時比較難處理, 所以采用數據挖掘技術, 用大量的數據去尋找最佳的賣點相對顯得更理性些。 比如用上面剛介紹的SVM方法進行擇時, 或采用神經網絡預測近期的漲跌趨勢, 再或者采用分類方法判斷近期的最佳交易周期。
5、算法交易
算法交易(algorithmic trading),是指把一個指定交易量的買入或者賣出指令放入模型,該模型包含交易員確定的某些目標。 根據這些特殊的算法目標,該模型會產生執行指令的時機和交易額。而這些目標往往基于某個基準、價格或時間。這種交易有時候被稱“黑箱交易”。算法交易通過程序系統交易,將一個大額的交易拆分成數十個小額交易,以此來盡量減少對市場價格造成沖擊,降低交易成本,且還能幫助機構投資者快速增加交易量。
算法交易系統的核心是通過一套計算機程序,可以在一秒鐘內產生數千個交易指令,其中許多指令瞬間就可以被取消或被新的指令取代,從而把大額委托化整為零,減小對市場的沖擊,并且可以尋求最佳的成交執行路徑,減少交易成本。但程序的核心是交易算法,而這種敢于在市場上進行實操的算法往往都是在大量的歷史交易數據挖掘中得到的, 然后再經過嚴格的測試,確定算法的可靠且有效后方可投入實際的算法交易。 在算法交易方面,可用到的數據挖掘技術比較廣, 往往涉及到多種方法的綜合。 在算法交易方面,目前用的比較多的數據挖掘方法是集成決策樹, 其核心是當不同的指標(信號)出現不同的情況時,給出具體的交易操作(買入或賣出),采用這種方法不僅是穩定、靈活,而且還可以采用優化算法對其進行優化,提高收益, 圖4即為采用遺傳算法優化交易指標的迭代效果圖。
圖4 遺傳算法優化交易指標的迭代效果圖
-
數據挖掘
+關注
關注
1文章
406瀏覽量
24621
發布評論請先 登錄
數據可視化與數據分析的關系
Prosus投資Swiggy獲利豐厚
raid 在大數據分析中的應用
魯棒性分析方法及其應用
博世氫動力系統重慶項目入選央視財經“投資中國”年度案例
5G輕量化網關是什么

數據分析在提高灌區管理水平中的作用

英特爾成都入選央視財經“投資中國”年度案例
StarRocks 與 AWS 合作持續深入,為全球245個國家企業用戶提供輕量化云服務

評論