三位統(tǒng)計(jì)學(xué)家在Nature上發(fā)布公開(kāi)信,號(hào)召科學(xué)家放棄追求“統(tǒng)計(jì)學(xué)意義”,這封公開(kāi)信一周之內(nèi)吸引了超過(guò)800名研究人員共同簽署。大學(xué)里好不容易聽(tīng)懂的統(tǒng)計(jì)學(xué),會(huì)變成一件沒(méi)“意義”的事情嗎?
統(tǒng)計(jì)學(xué)白學(xué)了?
最新一期Nature雜志發(fā)表了三位統(tǒng)計(jì)學(xué)家的一封公開(kāi)信,他們號(hào)召科學(xué)家放棄追求“統(tǒng)計(jì)學(xué)意義”,并且停止用統(tǒng)計(jì)學(xué)中常見(jiàn)的P值作為判斷標(biāo)準(zhǔn)。
一般認(rèn)為P≤0.05或者P≤0.01就有顯著性差異,研究就有統(tǒng)計(jì)意義。
統(tǒng)計(jì)學(xué)上無(wú)顯著的結(jié)果并不能“證明”零假設(shè);統(tǒng)計(jì)上顯著的結(jié)果也沒(méi)有“證明”某些其他假設(shè)。事實(shí)真的是這樣嗎?
他們的這篇文章名為《科學(xué)家們起來(lái)反對(duì)統(tǒng)計(jì)學(xué)意義》(Scientists rise up against statistical significance)。
標(biāo)題猶如戰(zhàn)斗檄文一樣令人振奮。在文章發(fā)出不到24小時(shí),就有250多人簽名支持,一周之內(nèi)吸引了超過(guò)800名研究人員共同反對(duì)。
大學(xué)里好不容易聽(tīng)懂的統(tǒng)計(jì)學(xué),會(huì)變成一件沒(méi)“意義”的事情嗎?
為什么要放棄統(tǒng)計(jì)學(xué)意義的概念?
幾代人以來(lái),研究人員一直被警告說(shuō):統(tǒng)計(jì)上不顯著的結(jié)果并不能“證明”零假設(shè)(即假設(shè)各組之間沒(méi)有差異,或者某個(gè)處理方法對(duì)某些測(cè)量結(jié)果沒(méi)有影響)。統(tǒng)計(jì)上顯著的結(jié)果也不能“證明”其他一些假設(shè)。這種誤解用夸大的觀點(diǎn)扭曲了文獻(xiàn),而且導(dǎo)致了一些研究之間的沖突。
因此,三位統(tǒng)計(jì)學(xué)家提出一些建議,讓科學(xué)家們不至于成為這些誤解的犧牲品。
首先明確必須停止的事:永遠(yuǎn)不應(yīng)該僅僅因?yàn)镻值大于閾值(如0.05)就得出“沒(méi)有差異”或“沒(méi)有關(guān)聯(lián)”的結(jié)論;或者,僅僅因?yàn)橹眯艆^(qū)間包含0就得出這樣的結(jié)論。
同時(shí),我們也不應(yīng)該斷定兩項(xiàng)研究之間存在沖突,只因?yàn)槠渲幸豁?xiàng)研究的結(jié)果具有統(tǒng)計(jì)學(xué)意義,而另一項(xiàng)則沒(méi)有。這些錯(cuò)誤浪費(fèi)了研究工作,誤導(dǎo)了政策決策。
例如,考慮一系列對(duì)消炎藥意外效果的分析。由于他們的研究結(jié)果在統(tǒng)計(jì)學(xué)上不顯著,一組研究人員得出結(jié)論說(shuō):暴露在這些藥物中與新發(fā)房顫(最常見(jiàn)的心律紊亂)“無(wú)關(guān)”,并且這些結(jié)果與之前的一項(xiàng)研究結(jié)果相反,而之前的研究結(jié)果具有統(tǒng)計(jì)學(xué)意義。
現(xiàn)在,讓我們看看實(shí)際的數(shù)據(jù)。研究人員描述了他們的統(tǒng)計(jì)不顯著的結(jié)果,發(fā)現(xiàn)風(fēng)險(xiǎn)比為1.2。他們還發(fā)現(xiàn)95%的置信區(qū)間跨越了從微不足道的風(fēng)險(xiǎn)降低3%到非常顯著的風(fēng)險(xiǎn)增加48%(P = 0.091)。研究人員從較早的具有統(tǒng)計(jì)學(xué)意義的研究中發(fā)現(xiàn),風(fēng)險(xiǎn)比同樣為1.2。這項(xiàng)研究更加精確,其風(fēng)險(xiǎn)區(qū)間在9%到33%之間(P = 0.0003)。
當(dāng)區(qū)間估計(jì)包含嚴(yán)重的風(fēng)險(xiǎn)增加時(shí),得出結(jié)論認(rèn)為統(tǒng)計(jì)上不顯著的結(jié)果顯示“無(wú)關(guān)聯(lián)”是荒謬的;同樣荒謬的是,聲稱(chēng)這些結(jié)果與先前研究中顯示相同觀察效果的結(jié)果相反。然而,這些常見(jiàn)的實(shí)踐表明,依賴(lài)統(tǒng)計(jì)意義上的閾值會(huì)誤導(dǎo)我們。
謹(jǐn)防錯(cuò)誤結(jié)論
這些錯(cuò)誤以及類(lèi)似的錯(cuò)誤普遍存在。對(duì)數(shù)百篇文章的調(diào)查發(fā)現(xiàn),統(tǒng)計(jì)上不顯著的結(jié)果被解釋為“沒(méi)有差異”或“沒(méi)有影響”的約有一半。
2016年,美國(guó)統(tǒng)計(jì)協(xié)會(huì)在《美國(guó)統(tǒng)計(jì)學(xué)家》上發(fā)表聲明,警告誤用統(tǒng)計(jì)意義和P值。本月,《美國(guó)統(tǒng)計(jì)學(xué)家》雜志又發(fā)表了40多篇關(guān)于“21世紀(jì)的統(tǒng)計(jì)推斷:一個(gè)沒(méi)有P<0.05的世界”的論文。編輯們?cè)诮榻B這期特刊的時(shí)候謹(jǐn)慎地說(shuō),“不要說(shuō)’統(tǒng)計(jì)意義重大’”。
《美國(guó)統(tǒng)計(jì)學(xué)家》雜志最新報(bào)道
三位統(tǒng)計(jì)學(xué)家也同意這一點(diǎn),并呼吁放棄整個(gè)統(tǒng)計(jì)意義的概念。
停止使用非黑即白的P值,800多研究者同意
這三位統(tǒng)計(jì)學(xué)家寫(xiě)完《科學(xué)家們起來(lái)反對(duì)統(tǒng)計(jì)學(xué)意義》(Scientists rise up against statistical significance)一文草稿之后,邀請(qǐng)了其他人閱讀,并表示如果人們同意三人的觀點(diǎn),就簽上自己的名字。
沒(méi)想到這篇文章得到了諸多人的贊同,在最初的24小時(shí)內(nèi),就有250人簽了名。一星期后,共收到800多份簽名,簽名者包括來(lái)自50多個(gè)國(guó)家的統(tǒng)計(jì)學(xué)家、臨床和醫(yī)學(xué)研究人員、生物學(xué)家和心理學(xué)家,除南極洲沒(méi)人以外,所有大洲都有人簽名。
一名倡導(dǎo)者稱(chēng),這是“對(duì)統(tǒng)計(jì)意義輕率測(cè)試的外科手術(shù)式打擊”,也是“一個(gè)為更好的科學(xué)實(shí)踐發(fā)聲的機(jī)會(huì)”。
同時(shí),三位統(tǒng)計(jì)學(xué)家也強(qiáng)調(diào),他們不是在呼吁禁止P值。不是說(shuō)P值不能在某些特定的應(yīng)用程序中用作決策標(biāo)準(zhǔn),而是他們與過(guò)去幾十年的許多其他研究結(jié)果一樣,呼吁停止以傳統(tǒng)的二分法使用P值——來(lái)決定結(jié)果是反駁還是支持一項(xiàng)科學(xué)假設(shè)。
避免這種“二分法”的一個(gè)原因是,所有的統(tǒng)計(jì)數(shù)據(jù),包括P值和置信區(qū)間,都會(huì)隨著研究的不同而自然地發(fā)生變化,并且往往變化非常大。事實(shí)上,單憑隨機(jī)變化就能很容易導(dǎo)致P值的巨大差異,遠(yuǎn)遠(yuǎn)不止落在0.05閾值的任何一側(cè)。例如,即使研究人員可以對(duì)一些真實(shí)的效果進(jìn)行兩次完美的復(fù)制研究,每次都有80%的機(jī)會(huì)達(dá)到P < 0.05,那么其中一個(gè)得到P < 0.01,另一個(gè)得到P > 0.30也就不足為奇了。無(wú)論P(yáng)值是大是小,都需要謹(jǐn)慎。
問(wèn)題不在于統(tǒng)計(jì),而在于人和認(rèn)知:把結(jié)果分成“統(tǒng)計(jì)顯著性”和“統(tǒng)計(jì)非顯著性”,讓人們認(rèn)為以這種方式分配的項(xiàng)目是截然不同的。同樣的問(wèn)題也可能出現(xiàn)在任何涉及二分法的統(tǒng)計(jì)替代方法中,無(wú)論是頻域法、貝葉斯法還是其他方法。
不幸的是,科學(xué)家和期刊編輯們錯(cuò)誤地認(rèn)為,超過(guò)統(tǒng)計(jì)意義的臨界值就足以證明一個(gè)結(jié)果是“真實(shí)的”,這導(dǎo)致他們對(duì)這類(lèi)結(jié)果給予了特權(quán),從而扭曲了文獻(xiàn)。統(tǒng)計(jì)上有意義的估計(jì)值在大小上向上偏倚,而且可能偏差的幅度很大,而統(tǒng)計(jì)上不顯著的估計(jì)值是向下偏倚的。
因此,任何側(cè)重于統(tǒng)計(jì)學(xué)意義的估計(jì)的討論都是有偏見(jiàn)的。最重要的是,對(duì)統(tǒng)計(jì)意義的嚴(yán)格關(guān)注鼓勵(lì)研究人員選擇一些數(shù)據(jù)和方法,這些數(shù)據(jù)和方法對(duì)于某些期望的結(jié)果具有統(tǒng)計(jì)顯著性(或者僅僅是可發(fā)表的),或者對(duì)于不期望的結(jié)果沒(méi)有統(tǒng)計(jì)顯著性,例如藥物的潛在副作用,從而使結(jié)論無(wú)效。
預(yù)先登記研究和承諾公布所有分析的所有結(jié)果可以大大減輕這些問(wèn)題。然而,即使是預(yù)先登記的研究結(jié)果也可能因分析計(jì)劃中始終未作決定而產(chǎn)生偏差。即使是出于好意,這也會(huì)發(fā)生。
放棄了統(tǒng)計(jì)學(xué)意義,我該怎么辦?
Nature在2014年的一篇文章中,討論了P值并不像許多科學(xué)家所假設(shè)的那樣可靠,當(dāng)時(shí)文章引起了業(yè)界很大反響,由此引發(fā)了后來(lái)美國(guó)統(tǒng)計(jì)協(xié)會(huì)在2016年警告濫用統(tǒng)計(jì)意義和P值。
如果研究人員確實(shí)放棄了統(tǒng)計(jì)學(xué)意義,他們應(yīng)該做些什么呢?
三位統(tǒng)計(jì)學(xué)家認(rèn)為:我們必須學(xué)會(huì)接受不確定性。
一種實(shí)用的方法是將置信區(qū)間重新命名為“兼容區(qū)間”(compatibility intervals),并以避免過(guò)度自信的方式解釋它們。具體地說(shuō),建議作者描述區(qū)間內(nèi)所有值的實(shí)際含義,特別是觀察到的效果和極限。在這樣做時(shí),他們應(yīng)該記住,考慮到用來(lái)計(jì)算區(qū)間的統(tǒng)計(jì)假設(shè),區(qū)間極限之間的所有值都與數(shù)據(jù)合理地兼容。因此,在區(qū)間中挑出一個(gè)特定的值(例如null值)沒(méi)有任何意義。
當(dāng)談到兼容間隔時(shí),請(qǐng)記住四件事:
首先,僅僅因?yàn)閰^(qū)間給出了與數(shù)據(jù)最相容的值,在給定假設(shè)條件下,并不意味著區(qū)間外的值是不相容的;它們只是兼容性較差。事實(shí)上,區(qū)間外的值與區(qū)間內(nèi)的值沒(méi)有本質(zhì)上的區(qū)別。因此,說(shuō)區(qū)間表示所有可能的值是錯(cuò)誤的。
其次,根據(jù)假設(shè),并不是所有的值都與數(shù)據(jù)一致。點(diǎn)估計(jì)值(point estimate)是最兼容的,接近它的值比接近極限的值更兼容。這就是為什么我們敦促作者討論點(diǎn)估計(jì),即使他們有一個(gè)大的P值或一個(gè)大的區(qū)間,以及討論該區(qū)間的極限。
第三,與0.05的閾值一樣,用于計(jì)算區(qū)間的默認(rèn)95%本身也是一種任意約定。它基于這樣一種錯(cuò)誤的想法,即計(jì)算出的區(qū)間本身有95%的幾率包含真實(shí)值,同時(shí)還有一種模糊的感覺(jué),即這是一個(gè)自信決策的基礎(chǔ)。根據(jù)應(yīng)用程序的不同,可以調(diào)整不同的級(jí)別。而且,就像在抗炎藥物的例子中一樣,如果把區(qū)間估計(jì)施加的二分法當(dāng)作一種科學(xué)標(biāo)準(zhǔn)來(lái)對(duì)待,區(qū)間估計(jì)可能會(huì)使統(tǒng)計(jì)顯著性的問(wèn)題長(zhǎng)期存在。
最后,也是最重要的一點(diǎn),要謙虛:兼容性評(píng)估取決于用于計(jì)算區(qū)間的統(tǒng)計(jì)假設(shè)的正確性。在實(shí)踐中,這些假設(shè)受制于相當(dāng)大的不確定性。使這些假設(shè)盡可能清晰,并測(cè)試你可以測(cè)試的假設(shè),例如通過(guò)繪制數(shù)據(jù)并擬合替代模型,然后報(bào)告所有結(jié)果。
無(wú)論統(tǒng)計(jì)數(shù)據(jù)顯示什么,都可以為你的結(jié)果提出理由,但要討論一系列可能的解釋?zhuān)粌H僅是你喜歡的那些。推論應(yīng)該是科學(xué)的,而不僅僅是統(tǒng)計(jì)的。背景證據(jù)、研究設(shè)計(jì)、數(shù)據(jù)質(zhì)量和對(duì)潛在機(jī)制的理解等因素往往比P值或區(qū)間等統(tǒng)計(jì)度量更重要。
同時(shí),三位統(tǒng)計(jì)學(xué)家呼吁消除統(tǒng)計(jì)意義,并將置信區(qū)間作為兼容性區(qū)間,這并不是萬(wàn)靈藥。盡管它將消除許多不好的實(shí)踐,但它很可能引入新的問(wèn)題。因此,監(jiān)測(cè)文獻(xiàn)中的統(tǒng)計(jì)濫用應(yīng)該是科學(xué)界目前的一項(xiàng)優(yōu)先事項(xiàng)。
但是,當(dāng)原始研究和復(fù)制研究的結(jié)果高度一致時(shí),消除分類(lèi)將有助于阻止過(guò)分自信的斷言、“沒(méi)有區(qū)別”的不合理聲明和關(guān)于“復(fù)制失敗”的荒謬聲明。濫用統(tǒng)計(jì)意義對(duì)科學(xué)界和那些依賴(lài)科學(xué)建議的人造成了很大的危害。P值、區(qū)間和其他統(tǒng)計(jì)度量都有它們的位置,但現(xiàn)在是統(tǒng)計(jì)意義消失的時(shí)候了。
這也并不意味著大學(xué)的統(tǒng)計(jì)學(xué)白上了。研究人員可以從教育自己對(duì)統(tǒng)計(jì)的誤解開(kāi)始,最重要的是在每項(xiàng)研究中從多個(gè)角度考慮不確定性。從邏輯、背景知識(shí)和實(shí)驗(yàn)設(shè)計(jì)應(yīng)與P值和類(lèi)似指標(biāo)一起考慮,以得出結(jié)論并確定其確定性。
在確定使用哪種方法時(shí),研究人員還應(yīng)盡可能地關(guān)注實(shí)際問(wèn)題。對(duì)于使用統(tǒng)計(jì)數(shù)據(jù)的最佳方式而言,在抽象理論上給予否定的人,在提出具體情景時(shí),往往會(huì)給予肯定的結(jié)果。
簡(jiǎn)而言之,要持懷疑態(tài)度,選擇一個(gè)好問(wèn)題,并嘗試以多種方式回答它。畢竟,接近事實(shí)需要很多數(shù)字。
最后,介紹一下這三位統(tǒng)計(jì)學(xué)家。
Valentin Amrhein,瑞士巴塞爾大學(xué)的動(dòng)物學(xué)教授;
Sander Greenland,加州大學(xué)洛杉磯分校的流行病學(xué)和統(tǒng)計(jì)學(xué)教授;
Blake McShane,伊利諾伊州埃文斯頓西北大學(xué)的統(tǒng)計(jì)學(xué)方法學(xué)家和營(yíng)銷(xiāo)學(xué)教授。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7241瀏覽量
91020 -
科學(xué)家
+關(guān)注
關(guān)注
0文章
35瀏覽量
11341 -
統(tǒng)計(jì)
+關(guān)注
關(guān)注
1文章
20瀏覽量
13612
原文標(biāo)題:大學(xué)統(tǒng)計(jì)學(xué)白上了?800多科學(xué)家聯(lián)名反對(duì)“統(tǒng)計(jì)學(xué)意義”,P值該廢了
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
沖壓件清洗機(jī)的使用技巧及維護(hù)保養(yǎng)方法詳解

擦窗機(jī)器人的EMC問(wèn)題整改分享

輕連APP顛覆傳統(tǒng)!輕松掌控工業(yè)自動(dòng)化的全新PLC控制器
功率半導(dǎo)體驅(qū)動(dòng)電源設(shè)計(jì)(一)綜述

清華大學(xué)自動(dòng)化系學(xué)子走進(jìn)華礪智行研學(xué)交流
網(wǎng)線(xiàn)里幾根線(xiàn)的意義
TSC2017的復(fù)位腳,整好在芯片的中央,不容易走線(xiàn),請(qǐng)問(wèn)是否可以將其直接短接到電源?
NAS重置密碼攻略來(lái)襲,讓你告別‘密碼焦慮’!

嵌入式學(xué)習(xí)-飛凌嵌入式ElfBoard ELF 1板卡-應(yīng)用編程示例之文件IO的方式控制LED
飛凌嵌入式ElfBoard ELF 1板卡-應(yīng)用編程示例之文件IO的方式控制LED
【圖文】存儲(chǔ)設(shè)備 |ICY DOCK 三款高效NVMe PCIe轉(zhuǎn)接卡

示波器統(tǒng)計(jì)曲線(xiàn)和故障分析pass/fail測(cè)試
為什么做一件事或者學(xué)習(xí)FPGA每隔一段時(shí)間就會(huì)感覺(jué)遇到瓶頸呢?
南京理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院師生團(tuán)隊(duì)一行蒞臨中科億海微參觀交流

SPC軟件:一套有效的制造過(guò)程監(jiān)控和分析工具

評(píng)論