編者按:Databricks數(shù)據(jù)科學(xué)主管Sean Owen討論了三種數(shù)據(jù)提供有歧義的結(jié)果的情況,以及因果關(guān)系如何幫助澄清數(shù)據(jù)的解讀。
相關(guān)和因果
相關(guān)性不等于因果。僅僅因?yàn)楸苛芎兔篮谒N量同時(shí)上升或下降并不意味著兩者之間有什么因果關(guān)系。然而,人類的思考方式傾向于因果關(guān)系。你大概已經(jīng)意識(shí)到這兩種商品的銷量均取決于夏季炎熱的天氣。那么,因果關(guān)系是一個(gè)什么樣的角色?
新入行的數(shù)據(jù)科學(xué)家可能有一個(gè)印象,因果關(guān)系是一個(gè)大家避而不談的話題。這是一個(gè)錯(cuò)誤印象。我們使用數(shù)據(jù)決定“哪則廣告將導(dǎo)致更多點(diǎn)擊?”這樣的事情。已經(jīng)有一個(gè)易用、開(kāi)放工具的生態(tài)系統(tǒng),可供我們基于數(shù)據(jù)建立模型,我們覺(jué)得這些模型可以回答關(guān)于成因和效果的問(wèn)題。什么時(shí)候它們確實(shí)做到了這一點(diǎn),什么時(shí)候我們誤以為它們做到了?
數(shù)據(jù)告訴我們什么,和我們認(rèn)為數(shù)據(jù)告訴我們什么,這兩者之間存在著微妙的空隙,這正是困惑和錯(cuò)誤的源泉。新入行的數(shù)據(jù)科學(xué)家,盡管配備了強(qiáng)大的建模工具,仍可能成為“未知的未知”的犧牲品,即使是在簡(jiǎn)單的分析中也是如此。
本文將演示三種看起來(lái)簡(jiǎn)單的情況,這些情況會(huì)產(chǎn)生驚人的歧義結(jié)果。劇透:在所有情形下,因果關(guān)系是澄清數(shù)據(jù)解讀必不可少的成分。包括概率圖模型和do-calculus在內(nèi)的激動(dòng)人心的工具,能夠讓我們基于數(shù)據(jù)和因果關(guān)系進(jìn)行推理,得出強(qiáng)有力的結(jié)論。
兩條“最佳擬合”直線
考慮R內(nèi)置的cars數(shù)據(jù)集。這個(gè)簡(jiǎn)單的小數(shù)據(jù)集提供了不同車速的制動(dòng)距離。假設(shè)低速情況下,兩者的關(guān)系是線性的。
再?zèng)]什么能比線性回歸更簡(jiǎn)單了吧?距離是速度的函數(shù):
同樣,速度也是距離的函數(shù):
盡管看起來(lái)是同一件事,兩種說(shuō)法,這兩種回歸會(huì)給出不同的最佳擬合直線。這兩條線不可能都是最佳的,那么哪一條才是最佳擬合直線,為什么?
如果你想親自驗(yàn)證,可以查看、運(yùn)行創(chuàng)建上面兩個(gè)圖形的代碼:https://trial.dominodatalab.com/u/srowen/causation/view/main.R
兩個(gè)最佳療法
下面的數(shù)據(jù)集可能看起來(lái)很熟悉。它顯示了腎結(jié)石的兩種療法的治愈率。
你也許注意到了上表的奇怪之處。總體而言,B療法的治愈率更高。然而,A療法在小結(jié)石上有著更高的治愈率,在小結(jié)石以外的情形(大結(jié)石)上也有著更高的治愈率。這怎么可能?你可以自己算一下。
許多人會(huì)馬上意識(shí)到這是辛普森悖論的一個(gè)典型例子。(這個(gè)例子取自辛普森悖論的維基頁(yè)面。)意識(shí)到這一點(diǎn)很重要。然而,意識(shí)到這一點(diǎn)并不能回答真正的問(wèn)題:哪種療法更好?
這里,A療法更好。較大的腎結(jié)石更難治療,總體而言治愈率更低。在這些比較困難的情形下,更常應(yīng)用A療法。雖然A療法實(shí)際上更好,但因?yàn)楦?yīng)用在困難情形下,總體治愈率被拉低了。結(jié)石大小是一個(gè)混淆變量,表格的橫行控制了結(jié)石大小。所以,控制所有像這樣的變量以避免出現(xiàn)悖論總不會(huì)錯(cuò)吧?
考慮下面的數(shù)據(jù):
這次是根據(jù)治療后病人的血酸分組。基于這些數(shù)據(jù),哪種療法更好?為什么?
虛幻的相關(guān)性
最后,考慮R內(nèi)置的mtcars數(shù)據(jù)集。它提供了20世界70年代的一些車型的統(tǒng)計(jì)數(shù)據(jù),例如引擎汽缸容量、燃油效率、氣缸數(shù)量,等等。考慮drat(后輪軸減速比)和carb(化油器數(shù)量——現(xiàn)在的車不使用化油器,改用電子噴射系統(tǒng))的相關(guān)性。
幾乎沒(méi)有相關(guān)性(r = -0.09)。這是有道理的,畢竟變速設(shè)計(jì)和引擎設(shè)計(jì)實(shí)際上是正交的。(我承認(rèn)這不是一個(gè)最直觀的例子,但這是R語(yǔ)言內(nèi)置的簡(jiǎn)易數(shù)據(jù)集中最易懂的例子。)
然而,如果我們只考慮6缸或8缸引擎的車型:
有很清楚的正相關(guān)性(r = 0.52)。那么其他車型呢?
竟也有較小的正相關(guān)性(r = 0.22)。兩個(gè)變量在部分?jǐn)?shù)據(jù)上相關(guān),在剩余數(shù)據(jù)上也相關(guān),但是在整體數(shù)據(jù)上卻不相關(guān),怎么可能會(huì)這樣?
答案在因果關(guān)系之中
當(dāng)然,這些問(wèn)題都有答案。在第一個(gè)例子中,兩條不同的直線源自兩組不同的假定。距離 ~ 速度回歸意味著距離是速度的線性函數(shù),加上高斯噪聲,直線最小化實(shí)際距離和預(yù)測(cè)距離的均方誤差。另一條直線最小化實(shí)際速度和預(yù)測(cè)速度的均方誤差。前者對(duì)應(yīng)的假定是速度的不同導(dǎo)致了制動(dòng)距離的不同,很有道理;后者暗示距離的不同導(dǎo)致了速度的不同,沒(méi)有意義。所以源自距離 ~ 速度的直線是正確的最佳擬合直線。不過(guò),判定這一點(diǎn)需要數(shù)據(jù)以外的信息。
速度不同導(dǎo)致制動(dòng)距離不同這一想法可以用一個(gè)(非常簡(jiǎn)單的)有向圖表示:
類似地,在辛普森悖論的第二個(gè)例子中,血酸不再是混淆變量,而是中介變量。它并不導(dǎo)致選取哪種療法,反而是選取哪種療法導(dǎo)致了不同的血酸水平。將它作為控制變量等于移除了療法的主要效果。在這一情形下,B療法看起來(lái)要好一點(diǎn),因?yàn)樗鼘?dǎo)向更低的血酸,從而導(dǎo)向更好的結(jié)果(盡管A療法確實(shí)看起來(lái)有一些正面的次級(jí)效應(yīng))。
因此,辛普森悖論的原場(chǎng)景為:
而第二個(gè)場(chǎng)景為:
同樣,這里的“悖論”是可以解決的。關(guān)于因果關(guān)系的外部信息解決了“悖論”——兩個(gè)場(chǎng)景的解決方式不同!
第三個(gè)例子是伯克森悖論的一個(gè)例子。假定后輪軸減速比和化油器數(shù)目都影響汽缸數(shù)目(這里不展開(kāi)討論,假定引擎設(shè)計(jì)上這一點(diǎn)成立),那么后輪軸減速比和化油器數(shù)量沒(méi)有相關(guān)性這一結(jié)論是正確的。控制汽缸數(shù)目創(chuàng)造了不存在的相關(guān)性,因?yàn)槠讛?shù)目是同時(shí)和后輪軸減速比與化油器數(shù)量相關(guān)的“碰撞”變量。
同樣,數(shù)據(jù)沒(méi)有告訴我們這點(diǎn);具備變量之間因果關(guān)系的知識(shí)才能得出這一結(jié)論。
概率圖模型和do-Calculus
我們上面繪制概率圖模型(PGM)有其目的。這些圖表達(dá)了成因-結(jié)果關(guān)系中的條件概率依賴的類型。盡管上述情形的概率圖很是微不足道,它們很容易變得很復(fù)雜。然而,不管簡(jiǎn)單還是復(fù)雜,我們都可以通過(guò)分析概率圖檢測(cè)正確分析數(shù)據(jù)所需的變量之間的關(guān)系。
PGM是一個(gè)有趣的主題。(Coursera上有Daphne Koller開(kāi)的課程。)理解因果關(guān)系的重要性,以及如何分析因果關(guān)系以正確解讀數(shù)據(jù)是數(shù)據(jù)科學(xué)家之旅必經(jīng)的一步。
這類分析導(dǎo)向了一種可能更加激動(dòng)人心的能力。假如一個(gè)變量取了不同的值,會(huì)發(fā)生什么?做出這方面的推理是有可能的。這一想法聽(tīng)起來(lái)像是條件概率:給定今天的冰淇淋銷量很高(IC)這一條件,美黑霜的銷量很高(ST)的概率是多少?也就是,P(ST|IC)是多少?基于數(shù)據(jù)集,這很容易回答。如果兩者是正相關(guān)的,我們可以進(jìn)一步期望P(IC|ST) > P(IC)——也就是說(shuō),當(dāng)美黑霜的銷量很高的時(shí)候,冰淇淋的銷量很高的概率更大。
然而,如果我們提高了美黑霜的銷量(也許可以記作do(ST)),那么冰淇淋的銷量會(huì)增長(zhǎng)嗎?很清楚,P(IC|do(ST))和P(IC|ST)不是一回事,因?yàn)槲覀儾黄谕@兩者之間有什么因果聯(lián)系。
數(shù)據(jù)只提供了簡(jiǎn)單的條件概率嗎?我們有可能演算數(shù)據(jù)中未曾發(fā)生的反事實(shí)概率,從而評(píng)判這些有關(guān)行動(dòng)的論斷嗎?
令人驚喜的答案,是的,在因果模型和Judea Pearl提出的“do-calculus”的幫助下,這是有可能的。do-calculus是Pearl的新書(shū)The Book of Why的主題。這本書(shū)總結(jié)了因果思考的歷史,貝葉斯網(wǎng)絡(luò),圖模型和Pearl自己對(duì)這一領(lǐng)域的顯著貢獻(xiàn),在此高度推薦。
也許do-calculus最引人入勝的演示是這本書(shū)對(duì)吸煙致癌相關(guān)研究的回溯分析。據(jù)Pearl所述,吸煙致癌到底是通過(guò)肺部煙焦油囤積,還是因?yàn)槲粗幕蛞蛩赝瑫r(shí)導(dǎo)致了喜歡吸煙和易得肺癌,對(duì)此人們?cè)幸蓡?wèn)。不幸的是,這一基因因素?zé)o法觀測(cè),也不可能控制。畫(huà)出其中暗含的因果模型,就很容易做出推理。
即使在不能確定基因因素是否存在的情況下,還有可能回答“吸煙致癌”這樣的問(wèn)題嗎?P(癌|do(吸煙)) > P(癌)嗎?
通過(guò)應(yīng)用do-calculus的三條基本規(guī)則,這是有可能做到的,具體細(xì)節(jié)這里就不展開(kāi)了(請(qǐng)看論文和書(shū))。應(yīng)用do-calculus規(guī)則之后,只涉及吸煙、煙焦油、癌癥的條件概率,這些都可以從現(xiàn)實(shí)數(shù)據(jù)集中得出:
僅僅通過(guò)數(shù)據(jù)中的條件概率,即使在不知道是否存在未知混淆變量的情況下,就有可能知道是否吸煙導(dǎo)致患癌風(fēng)險(xiǎn)增加,
結(jié)語(yǔ)
有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家不僅知道如何將工具作為黑箱使用,還知道模型和數(shù)據(jù)的正確解讀常常具有歧義,甚至違背直覺(jué)。避免常見(jiàn)誤區(qū)是資深從業(yè)者的標(biāo)志。
幸運(yùn)的是,許多這樣的悖論有著常見(jiàn)的來(lái)源,通過(guò)基于成因-效果網(wǎng)絡(luò)的推理,可以分析這些來(lái)源,從而解決這些悖論。概率圖模型和統(tǒng)計(jì)方法一樣重要。
再加上do-calculus,我們可以基于數(shù)據(jù)做出一些解讀和分析,對(duì)那些習(xí)慣相信無(wú)法僅僅從數(shù)據(jù)中得到因果或反事實(shí)結(jié)論的人來(lái)說(shuō),這些解讀和分析十分驚人!
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4379瀏覽量
64777 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25424
原文標(biāo)題:相關(guān)性≠因果:概率圖模型和do-calculus
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
同步電路設(shè)計(jì)和異步電路設(shè)計(jì)的特點(diǎn)

健康呼吸其實(shí)一種因果關(guān)系
SRAM的基礎(chǔ)模塊存有三種情況
LwIP協(xié)議棧開(kāi)發(fā)嵌入式網(wǎng)絡(luò)的三種方法有何關(guān)系
傳感器應(yīng)用實(shí)例--三種數(shù)字扭矩測(cè)量?jī)x電路實(shí)例
基于加性噪聲的缺失數(shù)據(jù)因果推斷
機(jī)器學(xué)習(xí)的關(guān)鍵點(diǎn)是什么 數(shù)據(jù)量比算法還重要
最新的AI可幫助您解釋數(shù)據(jù)的含義
超詳細(xì)EMNLP2020 因果推斷

芯片設(shè)計(jì)入門(mén)基礎(chǔ)知識(shí)介紹
具有Event-Argument相關(guān)性的事件因果關(guān)系提取方法
基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語(yǔ)言模型(LLM)的純因果推理能力

串行通信的三種數(shù)字編碼方式
貝葉斯網(wǎng)絡(luò)的因果關(guān)系檢測(cè)(Python)

一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

評(píng)論