編者按:這是一篇即將在ICML 2018研討會上發表的文章,它的作者是卡內基梅隆大學助理教授Zachary C. Lipton和斯坦福大學研究生Jacob Steinhardt。雖然對于這樣一個國際頂會,這兩名青年學者只是籍籍無名的小輩,但近日,他們的批評卻引來大量專家支持,也引發了學界的深思。去年8月,Zachary C. Lipton還就“是否該在論文引用中列出arXiv預印本”作過呼吁,他認為即便arXiv預印本質量參差不齊、沒有正式發表,如果用到了其中的觀點,就該保障預印本作者的權益,此事一時傳為美談。
因為文章過長,本文會出現意譯和示例刪減,還請讀者包涵。
1 簡介
機器學習(ML)研究人員的共同目標是創建和傳播有關數據驅動算法的知識。在一篇論文中,他們希望自己能達成以下目標:理論概括、實驗論證,或是構建準確率更高的工作架構。雖然在調研過程中選用什么知識是主觀的,但一旦形成了成果,論文就應該為讀者服務,解釋清楚基礎概念,方便讀者溝通交流,換言之,它該對社區體現完整價值。
那么,什么樣的論文最能服務讀者?這里我們列舉一些特征:這些論文應該(i)提供幫助讀者理解的直覺——明確區別于有證據支持的更強有力的結論;(ii)介紹之所以排除其他假設的實證調查;(iii)明確理論分析、直覺和經驗總結之間的關系;(iv)使用術語以避免概念混淆,方便讀者理解。
盡管經常偏離上述思想,但近年來機器學習的新成果仍在不斷涌現。本文將關注論文中常見的4種弊端,借此窺探機器學習學術圈的不良趨勢:
未能區分解釋(explanation)和推測(speculation);
未能明確“進步”的來源,比如模型性能提高明明是因為調參,但有些作者還是會過分強調沒什么效果的模型架構修改;
數學性:在進行數學論證時使用模糊的、帶有暗示的描述,比如混淆專業和非專業概念;
濫用表述,比如用口語、藝術性語言描述成果,而不是大家認可的專業術語。
雖然這些弊端背后的原因尚未可知,但機器學習社區迅速擴張、缺乏論文審查人員、學術成就和短期成功之間的錯位獎勵(論文引用、關注度和創業機會)等都是可能的誘因。盡管這些弊端都有補救方法,我們還是建議大家不要這么做。
隨著機器學習的影響力越來越大,研究論文的受眾除了學生,還有媒體記者和政府人員,這些都是論文寫作的考慮因素。通過用清晰的表達傳遞更準確的信息,我們可以加快研究進度、縮短新研究人員的入職時間,并在公共話語中發揮更具建設性的作用。
有缺憾的學術成果可能會誤導民眾,它們也會損害機器學習的知識基礎,進而阻礙未來的研究。事實上,在人工智能的發展史中,或者更廣泛地說,在科學研究中,這些問題一直是周而復始產生的。1976年,Drew McDermott曾指責人工智能社區缺乏自律,他預言“如果我們不批評自己,別人遲早會代勞”。類似的討論貫穿整個80年代、90年代。而現在,它又出現了。對于心理學等其他領域,不嚴謹的實驗標準曾大大削弱了這些學科的學術權威。相比之下,機器學習目前的地位是迄今為止大量嚴謹研究,包括理論研究和經驗堆砌起來的。
2 免責聲明
本文旨在促進討論,ICML機器學習辯論研討會向我們征集論文,這是我們的回應。雖然觀點是我們提出的,但這里描述的問題并不是機器學習社區的通病,我們也不會討論整體科研論文質量,更沒有意愿針對具體某個個人或機構,最后得出什么批斗性結論。
這是作為內行人的關鍵自省,不是來自外行人的狙擊。我們自己也可能陷入這些弊病,并在未來反復“病發”。雖然文中涉及一些具體示例,但我們的原則是(i)以自己作為例證;(ii)優先選擇更權威、更成熟的研究人員和機構。我們為自己屬于一個自由的社區感到慶幸,感謝它允許我們表達批判性觀點。
3 令人不安的趨勢
在本節中,我們(i)描述弊端趨勢;(ii)為趨勢提供幾個例子(包括正面例子);(iii)解釋后果。由于指出個別論文中的弱點可能是一個敏感話題,我們會盡量避免這種情況。
3.1解釋與推測
對新領域進行探索通常需要基于直覺,但這些直覺并沒有經科學驗證形成正式定義。根據我們的發現,盡管這些直覺并沒有經過科學審查,但一些研究人員還是會直接把它當成一個專業事實,在上面“擺事實,講道理”,然后在推測的基礎上進行解釋。最后,閱讀論文的人對作者的“專業素養”深信不疑,對結果信以為真,這個直覺就成了具有權威的“真理”。
例如,[33]這篇Google論文圍繞“內部協變量轉換”(internal covariate shift)提出了一個直觀的理論。從摘要開始,作者就稱:
深層網絡訓練時,由于模型參數在不斷修改,所以各層的輸入的概率分布在不斷變化,這使得我們必須使用較小的學習率及較好的權重初值,導致訓練很慢,同時也導致使用saturating nonlinearities 激活函數時訓練很困難。這種現象加 internal covariate shift ,解決辦法是:對每層的輸入進行歸一化。——譯者注:這篇論文被視為“2015年最牛的論文”,影響力頗大
根據這些描述,這個現象和歸因似乎成了個專業事實,論文也有理有據。但它的證明在哪兒?無論現實是怎樣的,像這樣不夠清晰的關鍵術語解釋是不足為信的。
又比如,這篇論文指出Batch Normalization可以在訓練過程中通過減少隱藏激活函數的分布變化來提高模型性能,但文中絲毫沒有提及對這種變化的量化方法。盡管已經有研究表明Batch Normalization的解釋可能不準確[65],但[33]給出的推測性解釋已經被一些研究人員認做是事實,“眾所周知,由于內部協變量轉換的存在,深層神經網絡網絡很難優化……”[60]。
在[72]中,本文作者之一的Jacob Steinhardt也出現了同樣的問題(累了,不譯),但我們還是來看一個積極的例子,比如論文[3]。這篇文章是訓練神經網絡的實用指南,但作者并沒有宣揚權威性,而是表示:“雖然這些建議來自……多年實驗,并且在某種程度上有數學支撐,但它們應該受到挑戰。它們是一個很好的起點……但沒有經過正式驗證,留下了許多問題亟待解決。”
3.2未能明確“進步”的來源
機器學習同行評審非常重視技術新穎性。為了滿足評委胃口,現在許多論文都會出現復雜的模型和花哨的數學推斷。雖然復雜模型本身是合理的,但它不是技術進步的唯一體現方式:巧妙的問題公式、科學實驗、優化、數據預處理、大范圍調參、將現有算法用于新任務……有時候,如果研究人員用許多技術實現了一個突破性成果,那他就有義務讓讀者明白這個成果究竟該歸因于哪個必需的技術。
很多時候,作者的確提出了許多改進方法,卻因為沒有適當地消解研究,反而模糊了“進步”的來源。而有時,這些進步實際上只是由一項改進帶來的。在這種情況下,作者看起來好像是做了很多工作,但事實上他們做的還遠遠不夠。而這種錯誤印象還會誤導讀者,讓他們以為所有改進都是必要的。
最近,Melis等人[54]公布了一項成果,他們用大規模自動黑盒超參數調整重新評估一些流行RNN,發現它們的進步在于更好的超參數調整,而不是架構上的復雜創新。如果大家處于同一起跑線,那么自1997年以來幾乎沒有任何修改的原版LSTM還是名列前茅。比起分心去做其他研究,也許社區能從調參細節中收益更多。對于深度強化學習[30]和生成對抗網絡[51],一些類似的評估論文也引起過爭議。如果想了解關于這類問題的更多內容,推薦看ICLR 2018研討會的這篇文章[68]。
相比之下,[41,45,77,82]這幾篇論文對研究過程進行了很好的消解,[10,65]還回顧研究過程,通過分離改進找到了新發現。當然,消解對于理解方法來說既不是必要的,也不是充分的,如果有計算算力限制,實現它還可能是不切實際的。但除此之外,我們也可以通過檢查模型的穩健性(魯棒性)和定性誤差分析來找出原因。
對于旨在理解的實證研究,它們甚至可以在沒有新算法的情況下得到成果。比如通過探究神經網絡的行為,研究人員可以區分它對對抗性擾動的敏感性[74];通過仔細研究,他們可以發現數據集對更強大基線模型的限制;論文[11]研究設計用于閱讀理解新聞段落的任務,發現其中有73%的問題可以從同一個句子中找到答案,而只有2%的問題需要查看多個句子。此外,本著同樣的精神,比起復雜的神經架構,更簡單的神經網絡和線性分類器往往表現更好。
3.3數學性
博士前期寫論文時,我們(ZL)曾收到一位經驗豐富的博士后的反饋:你們的論文需要更多方程。他沒有評判論文成果,只是建議論文看起來應該更清晰一些。即便論文內容晦澀難懂,如果里面包含更多計算方程,評審員也會認為它有過人的專業深度。
數學是科學交流的重要工具,如果使用方法正確,它傳遞的信息是高度精確和清晰的。然而,并不是所有想法和主張都適合用數學描述,自然語言同樣是一種不可或缺的交流工具,它在表述直覺和經驗主張時尤為突出。
當我們把數學和自然語言結合在一起,卻沒有明確它們的關系時,無論是散文還是理論,我們都表述不好:理論中的問題可能會用模糊的定義來概述,散文中的情感抒發卻可以被數理推斷來“論證”。數學是正式和非正式表述的結合體,就像經濟學家Paul Romer所說的:就像數學理論一樣,數學是語言和符號的混合,但它沒有做緊密聯系,而是在自然語言和形式語言之間留下一個充足的平滑空間。
伴隨數學性產生的弊端主要表現在以下幾方面:
首先,一些論文會濫用數學來體現文章的深度——強行有深度。假定理其中最常見的形式,通過把定理插進論文中,論文有了實證結果,看起來也更具權威性——即便這個定理和論文完全沒關系。我們(JS)在[70]里就犯了這個錯,論文中對“staged strong Doeblin chains”的討論和提出的算法幾乎沒什么關系,但讀者可能會覺得很有深度。
Adam這篇論文[35]很好,但也證明這個問題無處不在。論文中介紹了凸優化情況下的收斂定理,然而這不是一篇凸優化論文,這是不必要的。后來,[63]也證實那是錯誤的。
其次,一些論文的數學表述既不正式,也不非正式。舉個例子,[18]這篇論文認為神經網絡的優化困難不是源于局部最小值,而是鞍點。作為證據,他們引用了一篇關于高斯隨機場的統計物理論文[9],指出高維“高斯隨機場的所有局部最小值都可能有一個非常接近全局最小值的誤差”。這看起來是一個很正式的主張,但缺乏一個明確的定理,所以它的結果很難驗證。如果研究人員能給出一個正式的聲明,這里的疑問就可以被解決了。在[18]中,研究人員發現局部最小值比鞍點具有更低的損失,也給出了清晰的說明和實驗,內容也更有趣。
最后,一些論文引用的理論太寬泛了,是否能在這個場景下使用這個定理還存疑。比如一些人喜歡用“天底下沒有免費的午餐”來類比使用沒有保證的啟發式方法,但這句話的本意并沒有說我們不能學習啊。
雖然避免使用方程是對數學性問題的最佳補救方法,但一些論文也以身示范,證明數學不是“洪水猛獸”。比如最近發表的論文[8]以扎實的方式涵蓋大量數學基礎,而且這些數據計算還和應用問題有明確聯系。我們在此強烈推薦這篇論文,剛入行的新手也可以參考著研究他們的方向。
3.4濫用表述
我們找出了機器學習論文中濫用表述的三種常見形式:暗示性定義、濫用已有術語、濫用行李箱詞。
3.4.1暗示性定義
暗示性定義指的是新造一個專業術語,它具有暗示性的口語含義,只看字面意思就能理解。這些詞經常出現在擬人化任務(閱讀理解[31]、音樂理解[59])和技巧型任務(好奇[66]、害怕[48])中。許多論文會以人類認知的方式來命名模型的組成部分,比如“思想載體”[36]和“意識先驗”[4]。我們不是說這些詞一定不能用,如果合格,它們和機器學習的關系可能會成為創建表述的有效靈感來源。然而,當一個暗示性定義被當成專業術語時,今后的論文就沒有選擇余地了,研究人員只能用這個術語,否則讀者會感到困惑。
另一方面,用“人類”表現來描述機器學習成果可能會產生對當前技術水平的認知錯誤。以[21]中的“皮膚病專家級皮膚癌分類”為例,研究人員通過用分類器和皮膚科專家進行比較,掩蓋了兩者執行的任務有本質區別的事實。真正的皮膚科專家會遇到各種情況,盡管有不可預測的變化,但他們必須給出診斷意見,而分類器只是在測試數據上實現了低誤差。同樣的,[29]里分類器也稱自己在ImageNet分類任務上比人類更具優勢。試想一下,在那么多“口無遮攔”[21,57,75]的論文中,即便我們有一篇表述嚴謹的,它能讓公眾話語重回正軌嗎?
雖然深度學習論文不是唯一的“始作俑者”,但這個領域濫用表述的現象確實影響到了其他機器學習子域的研究。比如[49]研究的是算法“公平性”的問題,它很好地展示了研究人員是怎么用法律術語搞機器學習研究的,里面最突出的例子是他們把一個表達統計平等概念的簡單方程命名為“不同的影響”。由此產生的問題就是大家開始參考著用“公平”“機會”和“歧視”表示簡單預測模型的統計數據,然后民眾和政府官員就會誤以為把道德需求納入機器學習是一件很艱難的事。
3.4.2濫用已有術語
第二種濫用方式包括使用已有的專用術語,但是會以不精確,甚至互相矛盾的方式來使用它。比如deconvolution(轉置卷積、反卷積、逆卷積、去卷積:astonished:),它描述的是卷積的逆運算,但在深度學習論文中,尤其是自動編碼器和生成對抗網絡論文中,這個詞卻被等同于transpose convolutions(轉置卷積,也稱up-convolutions上卷積)。當[79]第一次在深度學習論文中提到這個詞時,它的定義還是準確的,但[78,50]一引用概括,它就成了任何使用上卷積的神經架構。這種術語的濫用會造成持久的混亂,如果現在有一篇新機器學習論文,里面出現了deconvolution,它的意思可能是(i)原始含義,(ii)上卷積,或(iii)試圖解決這種混淆[28]。
作為另一個例子,我們來看生成模型(generative model)和判別模型(discriminative model)。從一般定義上來說,如果輸入的分布是p(x)或是聯合分布p(x,y),它就是個生成模型;相反地,判別模型處理的是條件概率分布P(y|x)。然而,在最近的論文中,“生成模型”成了產生逼真結構化數據的模型的統稱。從表面上看,這和定義似乎沒有沖突,但它掩蓋了幾個缺點——例如,GAN和VAE無法執行條件推理(x1和x2是兩個不同的輸入特征,它們無法從p(x2|x1)中采樣)。在這個曲解的基礎上,一些人也開始把判別模型形容成負責生成結構化輸出的生成模型[76]。我們(ZL)在[47]中也犯了這個錯誤。
我們繼續看之前提到的Batch Normalization,[33]把協變量轉換(covariate shift)描述為模型輸入分布的變化,事實上,這個詞指的是特定類型的轉換——盡管輸入分布p(x)可能會發生變化,但p(y|x)不會變[27]。此外,由于[33]的誤用,現在谷歌學術已經把Batch Normalization列為“協變量轉換”的一個項參考。
像這樣濫用已有術語的后果之一是我們可以通過“偷換概念”來定義一些未解決任務,然后方便自己引用以往成果,從而包裝沒什么實質進展的“進步”。它通常會和暗示性定義相結合。語言理解和閱讀理解,這些都曾是AI的巨大挑戰,現在卻成了對特定數據集做出預測[31]。
3.4.3行李箱詞
最后,我們來看ML論文中常見的過度使用行李箱詞(Suitcase Words)。這是Minsky在2007年出版的《The Emotion Machine》[56]中創造的新詞,指的是匯集了各種意義的一類詞匯,比如意識、思維、注意力、情感和感覺,它們的生成機制和來源也許不同,但我們可以把它們統稱為“心理過程”。機器學習中有很多類似的詞匯,如[46]就指出“可解釋性”這個詞并沒有一個普遍認可的含義,它常出現在不同方法、不同需求的論文中。因此,雖然論文表述看起來差不多,但它們的也許表達不同的概念。
再如generalization,這個詞可以概括一項特定技術(概括訓練到測試),也可以表示互相接近的兩個概念之間的轉移(從一個群體推廣到另一個群體),甚至還能衍生到外部(從實驗環境推廣到現實環境)。如果把這些概念混為一談,我們會高估當前技術的水平。
當暗示性定義和濫用已有術語相結合時,新的行李箱詞往往隨之而生。在涉及“公平性”的論文中,法律、哲學、統計語言學的術語經常被濫用,然后這些詞隨后就會被一個叫“偏見”的詞籠統概括[17]。
如果是演講或是談理想,行李箱詞確實可以起到有效的作用,因為它反映了將各種含義統一起來的總體概念。比如人工智能就是一個理想名詞。另一方面,在技術論證過程中過多地使用行李箱詞可能會導致混淆,例如[6]這本書中用術語和優化能力寫了一些等式,非常不嚴謹地把它們假設為同一類東西。
4 趨勢背后的原因
上述問題是否是ML學術圈的一種趨勢?如果是,那么根本原因是什么?我們進行了一些推測,最后得出了幾個可能的因果因素:
4.1面對進步開始驕傲自滿
ML的快速發展會讓研究人員產生一中錯覺,即強有力的結果可以掩蓋論證過程的弱小。所以他們開始為了支持結論插入并沒有關系的東西,開始以結果為目標設置實驗,開始使用夸張的表述,或者不再盡力避免不嚴謹的數學推斷。
與此同時,在大量同質化論文面前,論文審稿人別無選擇,只能接受有強大定量結果的論文。實際上,即便論文這次被拒了,他們也不能保證下次能注意到其中的缺陷,所以接受有缺陷的論文反而成了一件好事。
4.2成長的痛苦
自2012年來,深度學習大獲成功,人們對學界的追捧也日益熱烈,因此ML社區迅速擴張。雖然我們認為社區擴大是好事,但它也會產生副作用。
為了保護初級作者,這篇文章內我們以引用自己的論文和引用大機構的論文為主,但我們不說不代表不存在,上述問題在他們的論文中更常見。一些初級作者會因為不清楚術語的定義而擅自把它重新定義一遍,當然,經驗豐富的研究人員身上也有這種毛病。
對于論文審閱,也許提高論文-審稿人比例可以改善這種情況,但問題還是存在的。經驗不足的審稿人更關注論文的新穎性,他們往往會被虛假定理蒙蔽雙眼;經驗豐富的審稿人往往承擔更多工作,他們會相對保守,更喜歡有很多數學公式的論文,會忽視創新型研究;而剩下的大批過度工作的審稿人連審稿的時間都不夠,他們注意不到論文的諸多問題。
4.3激勵措施的錯位
審稿人不是唯一一群給論文作者提供不良激勵的人,隨著ML研究越來越受媒體關注,ML創業公司變得司空見慣,在某種程度上,新聞(報道什么)和投資者(投資什么)才是激勵的主體。媒體引導著ML研究趨勢,而ML算法中的擬人化表述則為話題的流行提供源源不斷的素材。以[55]為例,它把自動編碼器描述為“模擬大腦”,這種暗示放在新聞頭條上是聳人聽聞的;又如[52],它把用深度學習給圖像生成描述寫成“模仿人類理解水平”。
投資者也對人工智能研究表現出了強烈興趣,有時他們甚至會因為一篇論文就給創業公司提供資金。我們(ZL)也曾和投資者有過合作,媒體報道了哪家初創公司的成果,他們就投資哪家,這種動態的財務激勵和媒體關注是捆綁的。我們注意到,最近投資界對聊天機器人的興趣濃厚,而這是和媒體大肆報道對話系統、強化學習同時出現的。
5 建議
面對這些趨勢,我們又該如何應對?我們要怎么做才能讓社區提高實驗實踐、闡述和理論的水平?我們要怎么做才能更容易地提煉社區的知識,并消除廣大公眾對研究的誤解?(不干了,開偷懶大招了)
5.1對作者的建議
多問“為什么”和“怎么做”,而不僅僅是“效果有多好”。在實證論文中多用錯誤分析、消解研究和穩健性檢查(例如仔細調參、選擇理想的數據集),多看多讀多引用。
不要強行為了用特定算法而找出它對研究課題的進步貢獻。即便沒有新算法,你也可以在課題上產生一些新見解,比如通過隨機梯度下降訓練的神經網絡可以擬合隨機分配的標簽。
在寫論文時,你要問自己:我提出的這個系統,我自己是不是很認可,會不會在實踐中使用?這可以模擬審稿人看到這篇文章時的想法,還能檢測這個系統是不是真的符合你心目中的智能模型。
明確哪些問題是開放的,那些問題已經被解決了,要清晰地了解研究現狀。
5.2對出版商和審稿人的建議
問自己:如果這個作者的成果做得更差一點,我還會接受這篇論文嗎?比如有兩篇文章得出的結論差不多,但第一篇用一個簡單的想法就實現了改進,而且給出了兩個否定結果,第二篇結合三種想法實現了相同的改進(沒有消解),那就應該選第一篇。
進行回顧性調查,要求刪去夸張的主張和無關材料,把擬人表述改成明確的術語和符號。
呼吁批判性論文,挑戰傳統思維。
同行評審體系有待進一步討論:公開評審還是匿名評審?審稿人如何代表大多數研究人員的價值觀?這些改進會對上述弊端的改善帶來什么后果?
后面還有一些零散內容,此處不再翻譯。綜合全文,這些問題確實是許多論文中常見的問題,小編在啃論文時,也會被濫用的術語、行李箱詞折磨地抓狂,最后可能誤讀,繼而誤導更多讀者。而誤讀的又怎么會只有小編一人?
如果大家耐心讀到了這里,希望這篇文章能讓我們吸取教訓,無論是初學者、研究人員還是新聞媒體,我們都希望見證機器學習領域的健康發展,而不想讓夸夸其談毀掉前輩用嚴謹的治學態度留給我們的基業。
-
人工智能
+關注
關注
1804文章
48820瀏覽量
247268 -
機器學習
+關注
關注
66文章
8496瀏覽量
134207
原文標題:你的論文嚴謹嗎?青年學者痛批學界“歪風”
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
【下載】《機器學習》+《機器學習實戰》
談談機器視覺檢測設備檢測O型密封圈尺寸!
人工智能和機器學習技術在2021年的五個發展趨勢
什么是機器學習? 機器學習基礎入門
基于Splunk對人工智能和機器學習在2018年的三大趨勢預測
根據關鍵詞了解機器學習的趨勢窺探
什么是機器學習?機器學習能解決什么問題?(案例分析)

2020年圖機器學習的發展趨勢
基于機器學習算法的水文趨勢預測方法

評論