有人認(rèn)為,數(shù)據(jù)科學(xué)就是創(chuàng)建可用來預(yù)測(cè)的模型。這句話可以這樣理解:我們有了數(shù)據(jù),探測(cè)發(fā)展模式,把這些再應(yīng)用于預(yù)測(cè)未來,獲得結(jié)果。這個(gè)邏輯說得通,其背后的理論,我們稱之為統(tǒng)計(jì)。
整個(gè)歷史長(zhǎng)河中,有關(guān)預(yù)測(cè)的代名詞先后涌現(xiàn),比如數(shù)據(jù)挖掘、分析、商業(yè)智能、運(yùn)籌學(xué)、新興的數(shù)據(jù)科學(xué)。不過在這里我們沒必要深究統(tǒng)計(jì)與數(shù)據(jù)科學(xué)之間是否能劃等號(hào),也大可不必對(duì)數(shù)據(jù)信息獲取的無數(shù)流行詞吹毛求疵。今天筆者想聊點(diǎn)兒別的。
你無法預(yù)測(cè)未來,這一點(diǎn)毋庸置疑,但你依然試圖在用圖表樂此不疲地做著預(yù)測(cè)。你認(rèn)為數(shù)據(jù)中一定存在些信息,有偏差的“地圖”總比沒“地圖”強(qiáng)吧。
在NassimTaleb最出名的一本書中,他借助隱喻說明人類之前對(duì)于預(yù)測(cè)未來的了解經(jīng)不起推敲。多個(gè)世紀(jì)前,人們不相信這世上有黑天鵝的存在,因?yàn)閺奈从腥艘娺^。直到第一批探險(xiǎn)隊(duì)伍抵達(dá)澳大利亞,他們發(fā)現(xiàn)原來也會(huì)有黑色的羽毛。
單一只黑色家禽讓多年存在的“白天鵝定律”不攻自破。哲學(xué)家Karl Popper(1902-1994)認(rèn)為科學(xué)是徹底糾正理論的事業(yè)。Popper認(rèn)為理論只可能是錯(cuò)的,我們會(huì)需要無數(shù)證據(jù)驗(yàn)證理論是否實(shí)事求是,但這不太可能。
黑天鵝事件不能被預(yù)測(cè)
你可能會(huì)說“這算個(gè)什么哲學(xué),這也太糟糕了!”讓實(shí)踐來說明一切吧!看一下國際貨幣基金組織2020年1月份的GDP增速預(yù)測(cè):
2020年1月IMF的GDP增速預(yù)測(cè)
這里是8月份的預(yù)測(cè)數(shù)據(jù):
2020年8月IMF的GDP增速預(yù)測(cè)
他們?cè)趺醋龅降亩潭處讉€(gè)月就可以迅速改變預(yù)測(cè)?2019年12月31日,中國報(bào)道了武漢“連續(xù)幾件不明原因疫情”,幾周后被稱之為COVID-19,世界衛(wèi)生組織將其升級(jí)為全球性流行病。由于該疾病會(huì)人傳人,整個(gè)世界的經(jīng)濟(jì)會(huì)因此受到了影響。
國際貨幣基金組織是預(yù)測(cè)經(jīng)濟(jì)的一個(gè)前沿機(jī)構(gòu),它傳達(dá)的信息變化非常快,會(huì)讓你對(duì)任何預(yù)測(cè)產(chǎn)生懷疑。假如你碰巧是所謂的“數(shù)據(jù)科學(xué)家”,希望你在預(yù)測(cè)時(shí)也持有懷疑的態(tài)度。
你也許會(huì)認(rèn)為IMF從來沒打算準(zhǔn)確預(yù)測(cè)未來,他們僅僅預(yù)測(cè)未來可能出現(xiàn)的情況從而幫助決策制定者。我同意你的說法,但關(guān)鍵是是穩(wěn)增經(jīng)濟(jì)有過山車式發(fā)展的風(fēng)險(xiǎn)并未考慮在內(nèi)。
IMF“單純預(yù)估”會(huì)讓決策制定者在未來幾個(gè)月中錯(cuò)過最關(guān)鍵的信息。IMF并非沒有能力預(yù)測(cè)或故意使壞,而是無法預(yù)測(cè)。這正是Taleb 想傳達(dá)的:我們無法預(yù)測(cè)最重要的事件,因?yàn)闆]有消息指向。數(shù)據(jù)也不難獲取,只是答案根本不在那!
對(duì)于黑天鵝事件,就算是數(shù)據(jù)也幫不了你。
為什么我還不富裕?
股市幾乎完全預(yù)測(cè)了近期的五次衰退。如果你還在臣服于數(shù)據(jù)科學(xué)的魔力,趕緊停下來吧。把時(shí)間投資在更容易獲利的領(lǐng)域:股市。
股市對(duì)數(shù)據(jù)科學(xué)家來說是一個(gè)再好不過的環(huán)境了。有無數(shù)需要計(jì)算的數(shù)據(jù),這些不僅是公共的資源,格式也正確。實(shí)際上,一些機(jī)器學(xué)習(xí)的文字介紹會(huì)將股市作為主要對(duì)象,建立最好的模型。
如果你的預(yù)測(cè)準(zhǔn)確,就會(huì)贏得一大筆錢。拋售下行股票,買上行股票。很不幸,這不太能實(shí)現(xiàn),我打賭。
根據(jù)S&P 的觀點(diǎn)(一家追蹤全世界平均股價(jià)的企業(yè)),“從以往來看,主動(dòng)式管理基金在短期核長(zhǎng)期以來不如基準(zhǔn)”。主動(dòng)式管理基金需要工作人員預(yù)測(cè)市場(chǎng)趨勢(shì),告知大家要賣哪個(gè)或買哪個(gè)股票。即便如此,他們也無法超越基準(zhǔn),所以只購買每只股票的一小部分來獲取平均回報(bào)的人會(huì)更占優(yōu)勢(shì)。
用歷史數(shù)據(jù)預(yù)測(cè)股市是貿(mào)易中的傳統(tǒng),這種方法屬于技術(shù)分析。這個(gè)話題存在爭(zhēng)議,時(shí)至今日一些人非常信誓旦旦地認(rèn)為這個(gè)方法奏效。他們認(rèn)為市場(chǎng)中有這樣的趨勢(shì),許多億萬富翁的財(cái)富都要?dú)w功于數(shù)據(jù)信號(hào)的利用。
也許這是對(duì)的?;蛟S股市中確有趨勢(shì),但80%的公司無法利用此途徑,哪怕信息是真的,因?yàn)榕f潮流后會(huì)有新的出現(xiàn)。事實(shí)證明世界是不斷變化的,萬事萬物變化得飛快,所以任何預(yù)測(cè)都無濟(jì)于事。
數(shù)據(jù)科學(xué)無法預(yù)測(cè)股市是真實(shí)情況。將“股市”變?yōu)椤肮臼找妗薄ⅰ翱蛻暨x擇”或其他老板讓你預(yù)測(cè)的利益點(diǎn),你還會(huì)認(rèn)為自己預(yù)測(cè)的數(shù)字是好的嗎?我們無法預(yù)測(cè)最重要的事情,哪怕這些事即將發(fā)生,小概率事件即使可以預(yù)測(cè)也提不出什么有價(jià)值的信息。
數(shù)字和敘述
未來無法預(yù)測(cè),但可以被創(chuàng)造。
就像我之前提到的,商業(yè)環(huán)境下從數(shù)據(jù)中抽取信息的歷史長(zhǎng)達(dá)整整兩個(gè)世紀(jì)。所以我們就該預(yù)測(cè)到所謂正常情況下發(fā)生的事情。一個(gè)人必須是其領(lǐng)域中是最好的預(yù)測(cè)者,我們才會(huì)稱之為專家。
Philip Tetlock開展了調(diào)查,想了解專家是否真的需要預(yù)測(cè)未來重要的事情。沒有成績(jī)的人如何能稱之為專家呢?我認(rèn)為,就算這些人不擅長(zhǎng)預(yù)測(cè),也是善于編造故事的,只挑選最有用的信息然后另創(chuàng)一個(gè)故事,這足以讓很多人信服。
專家們都很謹(jǐn)慎,不會(huì)做一些容易被推翻的預(yù)測(cè),不會(huì)告訴你準(zhǔn)確的時(shí)間。他們一般會(huì)說“未來的路很難走”,怎么個(gè)難法留給大眾去自行解讀。
我們可以用數(shù)字撒謊。在數(shù)據(jù)科學(xué)家眼中,這不是需要解決的重要問題,而是他們工作的一部分。他們是在講故事,現(xiàn)在用數(shù)字說服人也是一種技巧。或者用我最喜歡的TED講者的話說,“再添幾行,我會(huì)給你提供更多的數(shù)字”。
任一家公司的員工都會(huì)被要求做出成績(jī)。在特特洛克看來,數(shù)據(jù)科學(xué)家很容易成為“專家”。在企業(yè)政治游戲中,一些分析師會(huì)運(yùn)用各種編故事的技倆呈現(xiàn)最佳預(yù)測(cè),即便是錯(cuò)誤的關(guān)聯(lián)、沒有預(yù)測(cè)的能力,而且比不過測(cè)試數(shù)據(jù)集。
如果你從數(shù)據(jù)科學(xué)家那里得到了預(yù)測(cè)的話,問問你自己:這些數(shù)字在告訴我一些重要的事嗎?還是特定程序給你呈現(xiàn)想要的結(jié)果?
事實(shí)如此不便多說,學(xué)術(shù)研究登記之前是有協(xié)議的。研究人員需要先提出問題再尋找答案,否則數(shù)據(jù)提示的信息都有可能成為答案。至少你要知道這些數(shù)字可能什么也說明不了,哪怕是背后的模型設(shè)計(jì)得再精密。
總結(jié)
錯(cuò)誤不代表完全沒有價(jià)值,有用的東西蘊(yùn)含在其中。在每天工作結(jié)束的時(shí)候,數(shù)據(jù)科學(xué)家給公司創(chuàng)造的價(jià)值就是:
· 沒有預(yù)測(cè)重大事件或意外發(fā)生的事件——比如黑天鵝。
· 就算沒有意外發(fā)生,數(shù)據(jù)中一定有一些重要的模式,這些模式可能無法繼續(xù)利用,畢竟世界在變化——比如主動(dòng)式基金。
· 即使某種方式會(huì)不斷受用,預(yù)測(cè)結(jié)果可能只是個(gè)美好的謊言——比如“那些專家”。
不是說數(shù)據(jù)科學(xué)家沒必要存在。我們會(huì)定決策,但得看是基于金錢還是數(shù)據(jù),我傾向于后者。數(shù)據(jù)科學(xué)家越被鼓勵(lì)進(jìn)行實(shí)驗(yàn),找到錯(cuò)誤的速度就越快。
但如果你相信了宣傳語投身數(shù)據(jù)的話,就大錯(cuò)特錯(cuò)了。獨(dú)角獸企業(yè)這么做沒問題,因?yàn)槭紫?,關(guān)聯(lián)并不代表因果;其次是無需為那些迷信數(shù)據(jù)圣經(jīng)的公司的失敗負(fù)責(zé),用Taleb的話來說,這些公司深陷數(shù)字教條爬不出來了。
你可能覺得筆者有點(diǎn)兒偏激了,但我的目的在于:把你帶離數(shù)據(jù)驅(qū)動(dòng)的烏托邦世界。數(shù)據(jù)科學(xué)并非靈丹妙藥,它也有許多缺點(diǎn),需要抱有懷疑態(tài)度,請(qǐng)?zhí)雒孕爬斫鈹?shù)據(jù)科學(xué)。
-
數(shù)據(jù)挖掘
+關(guān)注
關(guān)注
1文章
406瀏覽量
24621 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10407
發(fā)布評(píng)論請(qǐng)先 登錄
效率大升!AI賦能鴻蒙萬能卡片開發(fā)

萬能轉(zhuǎn)換開關(guān)的基本結(jié)構(gòu)、工作原理及性能特點(diǎn)
萬能轉(zhuǎn)換開關(guān)的作用有哪些
萬能轉(zhuǎn)換開關(guān)的定位結(jié)構(gòu)一般采用哪些
萬能轉(zhuǎn)換開關(guān)是什么的主令電器
萬能斷路器參數(shù)設(shè)置的基本原則
萬能斷路器上顯示電流怎么看
萬能斷路器跳閘后如何復(fù)位
萬能斷路器脫扣怎么恢復(fù)
萬能斷路器合不上閘的原因
萬能斷路器參數(shù)如何設(shè)置
萬能式斷路器怎么調(diào)電流大小
簡(jiǎn)述萬能電橋測(cè)量電容的步驟
AG32的“萬能管腳”

評(píng)論