不久前剛結(jié)束FDDC大賽,武漢大學計算機學院軟件工程實驗室的Alassea lome團隊,獲得上市公司營業(yè)收入預測賽題第一名,而一人團隊GOGOGO則摘得上市公司公告信息抽取賽題桂冠,本文主要將冠軍的方案以及大賽亮點進行介紹和回顧。
上月底,2018全球金融數(shù)據(jù)探索與發(fā)現(xiàn)大賽(FDDC)的決賽落幕,10支隊伍激烈角逐,也讓現(xiàn)場觀眾見證了AI將如何改變資產(chǎn)管理的未來。
FDDC大賽是全球首場專注金融領(lǐng)域、深入投資實戰(zhàn)的技術(shù)大賽,由中國證券投資基金業(yè)協(xié)會(以下簡稱“基金業(yè)協(xié)會”)金融科技專業(yè)委員會主辦,易方達基金、華夏基金、通聯(lián)數(shù)據(jù)、阿里云共同承辦,獎金池一共高達84萬元。
大賽共有兩個任務,一是利用AI對上市公司進行營收預測,另一個是對上市公司公告進行信息抽取。這兩個都是資產(chǎn)管理中最基本而又最重要的兩項工作,往往會決定投資決策的成敗。
FDDC大賽,旨在挖掘更多頂尖算法人才,提升資產(chǎn)管理行業(yè)的科技化程度。在3個多月的時間里,大賽吸引了全球4231支隊伍參與,經(jīng)過線上初賽和復賽,共有10支隊伍進入最終決賽。
最終,來自武漢大學計算機學院軟件工程實驗室的Alassea lome團隊,將預測誤差降低至7%,獲得上市公司營業(yè)收入預測賽題第一名,而一人團隊GOGOGO則摘得上市公司公告信息抽取賽題桂冠。
數(shù)值預測準確率最高 獨特數(shù)據(jù)處理,將營收預測誤差僅7%!
Alassea lome團隊來自于武漢大學計算機學院軟件工程實驗室,團隊的導師為蔡恒進,主要研究領(lǐng)域是人工智能、金融信息工程及服務科學。
FDDC大賽上市公司營收預測賽題第一名Alassea Lome團隊
這次的“上市公司營收預測”賽題,官方到的數(shù)據(jù)包括三大財務報表、宏觀數(shù)據(jù)、行業(yè)數(shù)據(jù)、公司經(jīng)營數(shù)據(jù)、行情數(shù)據(jù)等。比賽評測指標是選手對公司二季度的營業(yè)收入比率誤差的計算,如何準備預測公司半年報實際營收,是這道賽題取勝的關(guān)鍵。
在訓練集生成上,團隊首先把三大財務報表里面的數(shù)據(jù)提取出來,接下來引入申萬的行業(yè)分類這一類別特征。值得注意的是,申萬的一級行業(yè)分類由28個被團隊拆分成30個,同時還加入了能夠表征行業(yè)數(shù)據(jù)的指數(shù)行情,以及行業(yè)估值信息,這里面所有的指標都會經(jīng)過團隊的獨特處理。
在公司的維度,團隊加入滬深股票日行情以及個股日資金流向,同時引入財務衍生數(shù)據(jù)和多因子數(shù)據(jù)。這些特征的比起基本財務數(shù)據(jù)的優(yōu)勢在于,它們是經(jīng)過優(yōu)秀的研究員精心挑選和計算過,可能更具有解釋力。
除了剛剛提到的特征,團隊還加入了滑窗特征。滑窗特征是什么呢?
以預測公司二季度的營收為例,除了告訴模型一季度營收之外,還告訴公司前四季度的營收。之所以這樣做的原因是,金融數(shù)據(jù)是一個時序非常強的序列,因此團隊還告訴模型它的歷史上的一些信息。相應的,團隊還加入了比率滑窗的特征。
訓練方式采取了滑窗模式,五年一滑,但是有三個驗證集。模型的最優(yōu)參數(shù)是在三個驗證集上的平均loss最小的參數(shù),還列舉了不同的模型算法它的表現(xiàn)。
選了那么多特征之后,怎么把最重要的特征篩選出來呢?
首先團隊會多輪預跑,得到所有特征的重要性。然后選出來重要特征重新生成訓練集,在訓練集上進行網(wǎng)格搜索,確定最優(yōu)的模型參數(shù)。
模型部署方面,時序模型不需要訓練,它的loss大概在0.48左右。團隊的主模型是xgb,輔助模型是Random Forest。模型融合是線性分類器,模型保存了最終部署的27個模型,從行業(yè)的角度去選擇最終利用哪個模型。
最終,團隊的復賽得分是0.43,如果換算成營業(yè)收入的誤差,在7%以內(nèi)。
從不同公告找到共性知識結(jié)構(gòu),做直接的實體全量標注
賽題二是上市公司公告重要信息抽取。
本賽題要求對“股東增減持”、“重大合同”和“定向增發(fā)”3 個類型的公司公告進行信息抽取,實際上是對公司關(guān)鍵事件進行結(jié)構(gòu)化提取。
GOGOGO團隊獲得本賽題第一名。他們首先是對HTML結(jié)構(gòu)的提取,包括一些數(shù)據(jù)清理和轉(zhuǎn)換、表格識別等。
FDDC大賽上市公司公告信息抽取賽題第一名GOGOGO團隊
在算法中,團隊運用了反向標注,然后建立一個NER的模型預測實體。GOGOGO的標注不同之處在于,他們做了直接的實體的全量標注。因為現(xiàn)有的很多通用的實體識別,是識別出一個公司名稱或者是不是數(shù)值,團隊直接把它的類型給定義清楚。
實體標注技巧是模型里面比較重要的地方之一,另一方面,團隊還用到奧卡姆剃刀原則。
奧卡姆剃刀原則主要表現(xiàn)在人傾向于用一個簡單的方法表現(xiàn)一個內(nèi)容,會用簡單的方法不會用復雜的方法。比如,有很多合同里面沒有乙方的表示,默認發(fā)公告的一方就是乙方。
模型驗證策略方面,團隊在研究這個問題的時候,發(fā)現(xiàn)召回率是很重要的,信息一旦漏掉了是撈不回來的,因此可以通過人工的方法提高它。第二是模型效率的問題,因為用到很多抽象的方法,很多情況下并沒有通篇讀,所以速度非常高,基本上控制在秒級。整個過程中大部分時間還是在實體識別里面。
10支團隊瓜分近百萬獎金,AI再度深入投資實戰(zhàn)
FDDC大賽是全球首場專注金融領(lǐng)域、深入投資實戰(zhàn)的技術(shù)大賽,歷時3個多月,4231支隊伍經(jīng)過線上初賽和復賽,共有10支隊伍進入決賽,于8月29日在北京進行現(xiàn)場答辯,8月30日,兩道賽題的前三名共6個團隊參加了終極對決。
本次大賽特設84萬獎池,冠軍更是能獲得高達25萬的豐厚獎金。
這次比賽結(jié)果是:
賽題一(上市公司營收預測)
第一名:Alassea lome團隊:吳云、萬珊紅、洪成晨、潘航、劉帥
第二名:Quant_duet團隊:林漢軒、邱爽
第三名:智能金融團隊:汪志文
大賽評委之一,香港科技大學副教授、惠理投資中心副主任尤海峰點評:
智能金融團隊根據(jù)財務報表相互關(guān)聯(lián)的特點,創(chuàng)造性的把GPDT和DNN兩種算法結(jié)合起來,先用GPDT的算法自動的構(gòu)造組合特征,在此基礎(chǔ)上結(jié)合DNN深度學習的方法進行預測,取得了很好的效果。
FDDC大賽上市公司營收預測賽題第三名智能金融團隊
Quant duet團隊首先把財務數(shù)據(jù)進行了拆分,把歷史的營收和其他的財務數(shù)據(jù)給分割出來,剔除了歷史營收的財務數(shù)據(jù),構(gòu)建了多因子的預測模型,然后又把單獨拿出來的歷史營收數(shù)據(jù)和市場數(shù)據(jù)相結(jié)合,用一個全連接網(wǎng)絡深度學習的模型做預測,最后把兩個預測模型給整合起來。
FDDC大賽上市公司營收預測賽題第二名Quant duet團隊
這種數(shù)據(jù)拆分其實是提高了兩個模型的獨立性,從而在整合的時候、融合的時候能夠達到分散錯誤的效果。
Alassea Lome團隊展現(xiàn)了機器學習算法和領(lǐng)域知識很好結(jié)合起來的能力。首先他們對數(shù)據(jù)做了很好的理解、很好的處理和去噪音各種各樣的處理,然后根據(jù)他們對不同類型的公司理解,在特征選擇上和算法選擇上都進行了個性化的處理,從而達到很好的預測效果。
賽題二(上市公司公告信息抽取)
第一名:GOGOGO團隊:黃澤熾
第二名:Heisenberg團隊:馮霽、李永剛、蘇洋洋
第三名:Miyabi團隊:李灝舟、王奪、叢冠男、胡一川
最具創(chuàng)意極客獎:東風又綠江南岸團隊(林建生、宋云生、宮保偉、林剛),智能ABC團隊(周武潔、郭炫志);
最具潛力極客獎:KingofWind團隊(李立),ASD123團隊(肖艷清、楊艦);
通聯(lián)數(shù)據(jù)CEO王政點評上市公司公告信息抽取賽題復賽前三團隊:
Miyabi團隊用表格和分類的方法來抽取,能夠快速抽取結(jié)果;分類的方法能判斷哪些可以抽取。
FDDC大賽上市公司公告信息抽取賽題第三名Miyabi團隊
Heisenberg團隊有兩個亮點:1、有實用價值的系統(tǒng)架構(gòu),能很快用到工業(yè)界。2、在實體識別的方法比傳統(tǒng)的有很大提升。
FDDC大賽上市公司公告信息抽取賽題第二名Heisenberg團隊
GOGOGO團隊把不同公告的問題找到了一些共性的知識結(jié)構(gòu),能快速把復雜問題降維。另外,通過章節(jié)的識別提升效率。
王政表示,通過這次FDDC大賽,AI在金融領(lǐng)域的應用得到了新的發(fā)展,但是以后問題會越來越難、越來越多,期待更多算法專家加入金融行業(yè),推動金融科技的發(fā)展。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7255瀏覽量
91813 -
人工智能
+關(guān)注
關(guān)注
1806文章
49007瀏覽量
249274 -
分類器
+關(guān)注
關(guān)注
0文章
153瀏覽量
13449
原文標題:全球首屆AI金融實戰(zhàn)技術(shù)大賽冠軍方案分享,三個月拿走50萬
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
DP1332E資產(chǎn)監(jiān)控管理方案
AI將如何改變自動駕駛?

RFID標簽在資產(chǎn)管理中的應用管理

FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
AI技術(shù)如何助力企業(yè)數(shù)據(jù)資產(chǎn)管理
中設智控全面接入DeepSeek加速AI+設備資產(chǎn)管理全場景深度融合

岳冉RFID智能資產(chǎn)管理方案最新應用

工業(yè)固定資產(chǎn)管理系統(tǒng):智能化時代的效率之選
RFID資產(chǎn)管理系統(tǒng)的應用與未來發(fā)展
微軟高管談AI將如何改變工作方式
淺談RFID資產(chǎn)管理
戴爾科技保護你的AI資產(chǎn)
DP1332E資產(chǎn)監(jiān)控管理方案
資產(chǎn)管理系統(tǒng):功能強大的企業(yè)資產(chǎn)管家

評論