第二部分編譯后的內(nèi)容:
3. 問題遇見方法:從機器學(xué)習(xí)的視角去解決化學(xué)問題的方法
在將機器學(xué)習(xí)的具體內(nèi)容應(yīng)用于實踐中的過程中,有大量可供參考的資源,包括大量的書籍、評論和互聯(lián)網(wǎng)資源等。本節(jié)將從機器學(xué)習(xí)研究人員和社區(qū)的高層視角出發(fā),探討他們?nèi)绾慰创徒鉀Q問題。首先,我們將重新分類前文提到的各種化學(xué)問題,將其作為已確認(rèn)的機器學(xué)習(xí)問題實例。然后,再通過梳理機器學(xué)習(xí)社區(qū)共同關(guān)注的主題和實踐,來探討其在化學(xué)應(yīng)用中的具體體現(xiàn),并重點關(guān)注基準(zhǔn)測試、領(lǐng)域知識的作用以及社區(qū)價值觀相關(guān)的因素。
3.1 機器學(xué)習(xí)工具箱
機器學(xué)習(xí)為利用數(shù)據(jù)解決問題提供了一套算法和理論工具。機器學(xué)習(xí)已經(jīng)界定了一組明確的問題框架,用于處理語言、視覺、音頻、視頻、表格數(shù)據(jù)、科學(xué)數(shù)據(jù)等多個領(lǐng)域的多樣化任務(wù)。每個問題都設(shè)定了一組輸入要求和期望的目標(biāo),這有助于在一個共同框架下對不同算法進行經(jīng)驗基準(zhǔn)測試和理論分析。在表1中,我們列出了一些重要的機器學(xué)習(xí)問題及其預(yù)期的輸入和目標(biāo),并將不同的化學(xué)問題重新歸類為這些機器學(xué)習(xí)問題的實例。
機器學(xué)習(xí)問題 | 輸入 | 目標(biāo) | 化學(xué)問題 | 算法 |
---|---|---|---|---|
回歸和分類 | 成對的數(shù)據(jù){()} | 預(yù)測 | 屬性預(yù)測 神經(jīng)網(wǎng)絡(luò)勢 產(chǎn)率預(yù)測 快速預(yù)測的代理模型 光譜預(yù)測 圖像分割 3D結(jié)構(gòu)預(yù)測 | 經(jīng)典機器學(xué)習(xí):線性回歸 隨機森林 支持向量機 梯度提升機 高斯過程 神經(jīng)網(wǎng)絡(luò) 圖神經(jīng)網(wǎng)絡(luò) 等變神經(jīng)網(wǎng)絡(luò) transformers |
生成模型 | 數(shù)據(jù)集 | 繪制樣本或 | 構(gòu)象搜索 分子對接 晶體結(jié)構(gòu)預(yù)測 過渡態(tài)搜索 結(jié)構(gòu)鑒定 正向合成預(yù)測 分子設(shè)計 | 變分自編碼器 生成對抗網(wǎng)絡(luò) 歸一化流 自回歸模型 去噪擴散和流匹配 |
采樣 | 能量 | 繪制樣本 | 平衡采樣 過渡態(tài)路徑采樣 分子設(shè)計 | 馬爾可夫鏈蒙特卡洛 序貫蒙特卡洛 GFlow網(wǎng)絡(luò)(生成流網(wǎng)絡(luò)) |
基于梯度的優(yōu)化 | 損失函數(shù) | 優(yōu)化參數(shù) | 神經(jīng)網(wǎng)絡(luò)波函數(shù) 物理信息神經(jīng)網(wǎng)絡(luò) 可微分模擬 分子設(shè)計 | 一階:(隨機)梯度下降 Adam 優(yōu)化 二階:k-FAC |
黑箱優(yōu)化 | 預(yù)言機函數(shù) | 最優(yōu)解 | 反應(yīng)和過程優(yōu)化 分子設(shè)計 | 貝葉斯優(yōu)化 賭博機優(yōu)化 強化學(xué)習(xí) 遺傳算法 |
智能體 | 環(huán)境的: 狀態(tài)集合{} 動作集合{} 狀態(tài)轉(zhuǎn)移 獎勵函數(shù) | 從最優(yōu)策略中抽取動作: | 提取文獻(xiàn)數(shù)據(jù) 執(zhí)行模擬 回答問題 合成規(guī)劃 | 大預(yù)言模型提示詞框架 強化學(xué)習(xí) |
回歸和分類的目標(biāo)是根據(jù)輸入 x 預(yù)測標(biāo)簽 y,前提是有一組配對數(shù)據(jù)。標(biāo)簽可以是一維的,例如在預(yù)測屬性、能量或產(chǎn)量時,也可以是高維的,例如與力場、光譜預(yù)測和分割相關(guān)的機器學(xué)習(xí)回歸問題。當(dāng)數(shù)據(jù)集較小且為表格形式時,梯度提升機(如 XGBoost)通常表現(xiàn)良好。高斯過程同樣適用于小規(guī)模數(shù)據(jù),并能為貝葉斯優(yōu)化提供良好的不確定性。然而,深度神經(jīng)網(wǎng)絡(luò)則是處理高維復(fù)雜數(shù)據(jù)(如圖像、文本和分子)的首選算法。神經(jīng)網(wǎng)絡(luò)架構(gòu)的選擇受到具體問題約束的影響:對于二維圖使用圖神經(jīng)網(wǎng)絡(luò),而對于三維數(shù)據(jù)則采用等變架構(gòu)。最近,Transformer 的出現(xiàn)徹底改變了語言、圖像、圖形和 3D 分子的建模方式。
生成模型的目的是從由數(shù)據(jù)集 {x} 定義的分布 p(x) 中抽取樣本 x。無條件生成建模旨在匹配數(shù)據(jù)分布,而條件生成建模則接受一個標(biāo)簽或提示 y,并試圖學(xué)習(xí)條件分布 p(x|y),這在一定程度上模糊了無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)之間的界限。盡管無條件生成建模在化學(xué)領(lǐng)域的應(yīng)用價值較低,但條件生成建模非常適合解決逆問題或一對多問題。例如,構(gòu)象搜索(一個二維結(jié)構(gòu)對應(yīng)多個三維構(gòu)象)、結(jié)構(gòu)解析(一個信號可能與多種分子一致)以及前向合成預(yù)測(給定反應(yīng)物,可能產(chǎn)生多種產(chǎn)品)都屬于這種情況。生成模型天生適合于提供多個高質(zhì)量答案的能力,而回歸方法則會對所有可能的答案進行平均,這樣得到的結(jié)果可能并不代表一個高質(zhì)量的答案。例如,AlphaFold2使用回歸方法根據(jù)一個序列預(yù)測出一個三維結(jié)構(gòu),而AlphaFold3則利用擴散模型為相同輸入結(jié)構(gòu)預(yù)測多個生物分子組裝。目前存在許多類型的生成模型,如變分自編碼器、生成對抗網(wǎng)絡(luò)和歸一化流,但目前主導(dǎo)作用的是用于語言處理的自回歸模型,以及用于圖像等感知數(shù)據(jù)的擴散/流匹配模型。在化學(xué)領(lǐng)域,這轉(zhuǎn)化為 SMILES 的化學(xué)語言模型和三維分子結(jié)構(gòu)的擴散模型。而這兩種方法都依賴于通過神經(jīng)網(wǎng)絡(luò)(通常是變壓器)進行逐步生成和迭代預(yù)測。由于無條件生成模型學(xué)習(xí)重現(xiàn)數(shù)據(jù)分布,這些數(shù)據(jù)往往是大量豐富且未標(biāo)記的數(shù)據(jù),因此訓(xùn)練生成模型也可以被視為將這些數(shù)據(jù)壓縮到網(wǎng)絡(luò)權(quán)重中,從而賦予一種理解概念。隨后,就可以基于這種理解來構(gòu)建諸如采樣和智能體行為等任務(wù)了。
采樣的目標(biāo)也是從某個分布中抽取樣本,但它與生成模型不同,因為采樣只能通過一個能量函數(shù) ( E(x) ) 來訪問,該函數(shù)定義了一個未歸一化的概率密度。由于沒有提供數(shù)據(jù)集,因此無法簡單地訓(xùn)練生成模型。此外,要生成一個數(shù)據(jù)集,首先需要進行樣本抽取。而且,能量函數(shù)的計算通常成本很高。因此,采樣問題在機器學(xué)習(xí)和計算化學(xué)中被認(rèn)為是最具挑戰(zhàn)性的問題之一。文獻(xiàn)中存在許多采樣算法,其中大多都源自于統(tǒng)計力學(xué),如馬爾可夫鏈蒙特卡洛(MCMC)和朗之萬動力學(xué)。這些傳統(tǒng)方法開始將現(xiàn)代機器學(xué)習(xí)的理念融入其中,例如從擴散模型中獲取靈感用于MCMC,或?qū)⒖蓪W(xué)習(xí)組件納入序慣蒙特卡羅方法。有些方法則學(xué)習(xí)偏置勢以進行過渡態(tài)路徑采樣,而其他方法則將擴散模型轉(zhuǎn)化為可解決組合優(yōu)化問題的采樣器。因此采樣方法對于解決平衡取樣問題至關(guān)重要,因為其對于預(yù)測許多化學(xué)過程的熱力學(xué)和動力學(xué)是必不可少的。而生成模型可以作為采樣算法的組件,例如在Boltzmann生成器中,通過能量和示例進行訓(xùn)練。此外,Boltzmann生成模型開始利用生成模型在不同樣本之間進行遷移學(xué)習(xí)。而生成流網(wǎng)絡(luò)(GFlowNets)是通過學(xué)習(xí)在生成圖中如何分配流量來解決采樣問題的,其在生成多樣化的離散數(shù)據(jù)方面具有獨特的優(yōu)勢。事實上,越來越多的文獻(xiàn)將GFlowNets應(yīng)用到了分子和材料設(shè)計問題中來了。
基于梯度的優(yōu)化算法旨在優(yōu)化與參數(shù)相關(guān)的平滑損失函數(shù),該函數(shù)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),以解決幾乎所有其他機器學(xué)習(xí)問題。為此,機器學(xué)習(xí)領(lǐng)域發(fā)展了一系列優(yōu)化算法,如隨機梯度下降、Adam以及利用二階導(dǎo)數(shù)信息的K-FAC等二階優(yōu)化方法。諸如PyTorch、JAX和Tensorflow等機器學(xué)習(xí)框架已經(jīng)實現(xiàn)了自動微分和GPU加速,使得優(yōu)化神經(jīng)網(wǎng)絡(luò)變得更加容易。而神經(jīng)網(wǎng)絡(luò)能夠被如此出色地優(yōu)化這一事實,激發(fā)了將其作為求解波函數(shù)的試探方法,以滿足薛定諤方程的需求。這種方法本身是物理信息神經(jīng)網(wǎng)絡(luò)(PINN)的一個應(yīng)用實例,它通過將偏微分方程(PDE)本身作為損失函數(shù),來尋找這些方程的神經(jīng)網(wǎng)絡(luò)的解。此外自動微分還允許在模擬過程中傳遞導(dǎo)數(shù),這能夠使網(wǎng)絡(luò)學(xué)習(xí)到成對交互的勢能,為過渡態(tài)路徑采樣學(xué)習(xí)偏置勢,并執(zhí)行逆向設(shè)計。
黑箱優(yōu)化方法嘗試以無導(dǎo)數(shù)的方式,盡可能少地調(diào)用預(yù)言機函數(shù) ( f(x) ) 來優(yōu)化它。在許多實驗問題中都是這種情況,例如優(yōu)化反應(yīng)參數(shù)以提高產(chǎn)率、優(yōu)化設(shè)備處理參數(shù)以提高性能,或優(yōu)化液體處理參數(shù)。為了以高樣本效率解決這些問題,會應(yīng)用如貝葉斯優(yōu)化和賭博機優(yōu)化等算法。當(dāng)樣本效率不是問題時,也可以應(yīng)用諸如強化學(xué)習(xí)和遺傳算法等元啟發(fā)式優(yōu)化算法。黑箱優(yōu)化也可以被視為采樣的一個實例,其中目標(biāo)分布集中在全局最優(yōu)解周圍。
智能體在環(huán)境中解決復(fù)雜的多步驟問題。環(huán)境定義了可能的狀態(tài)、動作、狀態(tài)之間的轉(zhuǎn)換以及獎勵函數(shù)。例如,逆合成規(guī)劃中,分子作為狀態(tài),化學(xué)反應(yīng)作為動作,產(chǎn)率和成本作為獎勵函數(shù)。像逆合成規(guī)劃或機器人運動規(guī)劃這樣的規(guī)劃問題自然可以通過智能體的行為來解決,而學(xué)習(xí)最優(yōu)智能體行為的標(biāo)準(zhǔn)算法被稱為強化學(xué)習(xí)。但是,由于強化學(xué)習(xí)在樣本效率上表現(xiàn)不佳,常見的方法是使用生成模型來初始化智能體:例如,像ChatGPT這樣的有用的助手被初始化為在大規(guī)模互聯(lián)網(wǎng)文本上預(yù)訓(xùn)練的大型語言模型,然后通過微調(diào)來最大化滿足人類偏好的獎勵。此外,提示框架作為一套迅速發(fā)展的方法,可用于增強這些智能體的能力,使它們能夠逐步推理、使用工具、檢索信息、執(zhí)行代碼,并不斷重復(fù)這些步驟。
3.1.1 工具箱的優(yōu)勢
共享問題接口可以對許多不同算法進行廣泛且清晰的基準(zhǔn)測試。例如,Song等人在其文章中提供了一個例子,在表1中,他們提出了一種新的生成模型類,并將其方法與27種不同類別的生成模型在相同數(shù)據(jù)集和基準(zhǔn)上進行了廣泛比較。
每個機器學(xué)習(xí)問題都有其自身的理論基礎(chǔ)。數(shù)學(xué)理論可以分析算法在收斂時的性質(zhì)或證明其收斂過程,解釋為何某些方法比其他方法更為有效。而共享的問題接口也有助于分析,可以用來確定一種方法是否與另一種方法相同,或者哪些方法比其他方法更具普適性,從而有助于統(tǒng)一多樣性的文獻(xiàn)研究。
3.1.2 工具可以相互疊加使用
機器學(xué)習(xí)問題常常相互交織在一起。例如,生成模型,如擴散模型,會利用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)進行回歸去噪處理。智能體是建立在生成文本模型之上的,而生成模型本身的核心是一個用于預(yù)測下一個標(biāo)記的神經(jīng)網(wǎng)絡(luò)。這意味著在機器學(xué)習(xí)中,不同的技術(shù)和模型往往可以相互構(gòu)建和擴展,形成更為復(fù)雜和強大的系統(tǒng)。這些網(wǎng)絡(luò)都是通過像 Adam 這樣的隨機優(yōu)化方法進行訓(xùn)練的,而黑箱優(yōu)化則用于選擇網(wǎng)絡(luò)的超參數(shù)。此外,采樣算法、黑箱優(yōu)化和智能體也可以結(jié)合之前數(shù)據(jù)訓(xùn)練的生成模型,用來提高數(shù)據(jù)生成的質(zhì)量 。
表1中列舉的問題并非詳盡無遺。其他問題包括不確定性量化,這在貝葉斯優(yōu)化和主動學(xué)習(xí)中很有幫助,還有在保護隱私的同時合并工業(yè)制藥數(shù)據(jù)的聯(lián)邦學(xué)習(xí),以及用于普遍適用的分子描述符的表示學(xué)習(xí),因果學(xué)習(xí),檢索和壓縮等問題。
3.1.3 選擇適當(dāng)?shù)墓ぞ邅硗瓿扇蝿?wù)
盡管機器學(xué)習(xí)工具功能強大,但只有在正確的任務(wù)上使用時才能發(fā)揮最大作用。例如,如前所述,生成模型更適合處理一對多問題,例如3D結(jié)構(gòu)預(yù)測。基于梯度的優(yōu)化適用于損失函數(shù)可微分且能夠快速評估的情況,比如優(yōu)化神經(jīng)網(wǎng)絡(luò),但并不一定適用于優(yōu)化分子結(jié)構(gòu)。盡管分子設(shè)計常被視為一個黑箱優(yōu)化問題,但可以認(rèn)為,采樣更適合用于分子設(shè)計:即通過尋找多樣且高質(zhì)量的結(jié)果來解決多目標(biāo)問題。相比之下,黑盒優(yōu)化通常只專注于當(dāng)前見過的最優(yōu)解。因此,分子設(shè)計不能僅僅依靠生成模型,因為生成模型學(xué)習(xí)的是給定數(shù)據(jù)集的分布。而分子設(shè)計則需要在已知數(shù)據(jù)分布之外尋找卓越的候選分子。
在化學(xué)領(lǐng)域,通常將問題視為一種搜索,就像在稻草堆中尋找一根針一樣。像傳統(tǒng)的對接方法會搜索所有可行的配體位置,而晶體結(jié)構(gòu)預(yù)測則會全面的搜索所有可能的原子排列。而基于虛擬篩選的分子設(shè)計會假設(shè)在龐大的虛擬庫中會找到足夠優(yōu)秀的“針”。當(dāng)可用計算資源足夠時,基于搜索的視角非常有用,因為這可以全面建模一個空間,以證明不存在良好的解決方案。然而,對于許多應(yīng)用來說,全面的搜索可能過于繁瑣。想象一下,這就好比試圖在所有可能的英語文本中進行搜索來寫一篇論文。這個時候一個有幫助的思考是,是否可以利用現(xiàn)有數(shù)據(jù)和算法將搜索問題重新框定為生成模型或采樣問題。
3.2 機器學(xué)習(xí)社區(qū)的主題與實踐
解決化學(xué)問題可以通過高級視角和社區(qū)實踐來輔助。為了將機器學(xué)習(xí)的觀點放在算法開發(fā)的背景下進行說明,我們描述了ML社區(qū)中的共同主題和實踐,比如基準(zhǔn)測試、高度跨學(xué)科性,以及深度學(xué)習(xí)的痛苦教訓(xùn)。所有這些都將在下文展開。
3.2.1 基準(zhǔn)測試的作用
基準(zhǔn)測試在機器學(xué)習(xí)的發(fā)展過程中發(fā)揮著至關(guān)重要的作用,它推動著模型和方法的持續(xù)改進。在機器學(xué)習(xí)社區(qū)非常重視能夠提升現(xiàn)有技術(shù)水平的方法。因此每年至少有三大計算機科學(xué)會議(NeurIPS、ICML 和 ICLR),使得漸進式的進展時常出現(xiàn)。這些對現(xiàn)有基準(zhǔn)的細(xì)微迭代改進,隨著時間的推移,從而獲得的顯著性能提升。對于研究人員而言,基準(zhǔn)測試提供了明確的評估標(biāo)準(zhǔn),以幫助他們識別模型中哪些組成部分對性能影響最大,進而可以實現(xiàn)更有針對性和更具影響力的發(fā)展。
機器學(xué)習(xí)研究的一個顯著特點是使用排行榜,提出的方法根據(jù)其在既定基準(zhǔn)測試中的表現(xiàn)進行排名。為了能在主要會議上被接收,論文必須在技術(shù)上有所進步或與當(dāng)前最先進的水平相比具有競爭力。因此這一評價機制推動了各個領(lǐng)域的顯著進展,從圖像分類到機器翻譯,再到圖像生成,甚至解決奧林匹克數(shù)學(xué)問題。如Open Catalyst Project正是利用這一機制為神經(jīng)網(wǎng)絡(luò)勢設(shè)定了一個基準(zhǔn),用來弛豫金屬表面上的有機吸附物。此外,該項目還提供了一個比以往更大的數(shù)據(jù)集,激勵了更強大的等變架構(gòu)的持續(xù)發(fā)展。從2020年到2023年,預(yù)測吸附能的成功率從1%提升至14%,所以目前的模型在預(yù)測吸附方面已開始變得實用起來了。而另一個名為Matbench Discovery的基準(zhǔn)則是在工業(yè)界引發(fā)了神經(jīng)力場的軍備競賽。
然而,盡管基準(zhǔn)測試是一種強大的工具,但在化學(xué)領(lǐng)域的應(yīng)用中,我們必須持批判態(tài)度。因為,雖然領(lǐng)域?qū)<以诙x能夠轉(zhuǎn)化為實驗室實際結(jié)果的有效基準(zhǔn)方面具有獨特優(yōu)勢。但在機器學(xué)習(xí)文獻(xiàn)中,問題的設(shè)置雖然針對計算性能進行了優(yōu)化,卻仍可能與實驗驗證的實際情況不符。這種不一致可能導(dǎo)致關(guān)注點從解決實際問題轉(zhuǎn)移到單純推動機器學(xué)習(xí)技術(shù)的發(fā)展上。隨著方法的成熟和基準(zhǔn)的飽和,新的、更相關(guān)的基準(zhǔn)亟需出現(xiàn)。
為機器學(xué)習(xí)研究人員定義和框定問題是一項至關(guān)重要的任務(wù)。這需要以一種更廣泛的機器學(xué)習(xí)社區(qū)易于理解的方式來提出重要的問題和行動呼吁。通過這種方式,化學(xué)家能夠引導(dǎo)機器學(xué)習(xí)工具的發(fā)展,使其在實驗研究中更有實際應(yīng)用的可能性。盡管創(chuàng)建數(shù)據(jù)集和基準(zhǔn)可能被視為機械性的工作,但它可以通過利用機器學(xué)習(xí)社區(qū)的共同努力來推動解決困難問題的進展。假設(shè)一個化學(xué)問題能夠被清晰地提煉并轉(zhuǎn)化為一個適當(dāng)基準(zhǔn)化的機器學(xué)習(xí)問題。那么,化學(xué)家們可以思考:如果這些舊任務(wù)能夠以顯著更快或更高的準(zhǔn)確性來解決,那么現(xiàn)在又有哪些新問題變得可以解決呢?如此一來,在化學(xué)與材料這一廣闊而激動人心的領(lǐng)域中,還有許多科學(xué)問題等待探索。
3.2.2 跨學(xué)科:化學(xué)對機器學(xué)習(xí)的影響
雖然在計算機科學(xué)領(lǐng)域,基準(zhǔn)測試的迭代改進是方法驅(qū)動的機器學(xué)習(xí)的重要組成部分,但另一種創(chuàng)新方法則充分利用了機器學(xué)習(xí)社區(qū)的高度跨學(xué)科特性。眾所周知,機器學(xué)習(xí)已被廣泛應(yīng)用于健康、農(nóng)業(yè)、氣候、保護、物理和天文學(xué)等多個領(lǐng)域。因此我們最近提出了“應(yīng)用驅(qū)動的機器學(xué)習(xí)[1]”作為一種新興范式,該范式根據(jù)不同領(lǐng)域中的實際任務(wù)來評估成功,方法和評估同時也受到領(lǐng)域知識的啟發(fā)與背景的影響。應(yīng)用驅(qū)動的創(chuàng)新承認(rèn)了這些來自多樣領(lǐng)域的任務(wù)融入機器學(xué)習(xí)發(fā)展所帶來的影響。因此這些新任務(wù)激勵著新的算法的產(chǎn)生。
在化學(xué)領(lǐng)域,圖神經(jīng)網(wǎng)絡(luò)的發(fā)展源于對分子圖建模的需求。這一需求推動了對社交網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、計算機程序和數(shù)據(jù)庫等其他圖數(shù)據(jù)建模的實際進展。反過來,圖機器學(xué)習(xí)也取得了理論上的進展,特別是在通過Weisfeiler–Lehman測試分析圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力方面。此外,神經(jīng)網(wǎng)絡(luò)需要遵循三維空間的旋轉(zhuǎn)對稱性,這進一步促成了等變架構(gòu)的發(fā)展。所有這些在尊重對稱性方面的方法論發(fā)展被統(tǒng)一到幾何深度學(xué)習(xí)的理論中去了,該理論展示了卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)與Transformer之間的緊密聯(lián)系。
除了理論和方法,機器學(xué)習(xí)研究者們對機器學(xué)習(xí)在解決全球健康和氣候變化等現(xiàn)實問題方面的潛力感到興奮。這種興奮表現(xiàn)為強烈的學(xué)習(xí)熱情,這體現(xiàn)在了博客文章、教學(xué)材料以及包含錄制講座的在線閱讀小組社區(qū)的蓬勃發(fā)展上。許多關(guān)注機器學(xué)習(xí)在化學(xué)領(lǐng)域應(yīng)用的研討會在主要的機器學(xué)習(xí)會議上舉行,如神經(jīng)信息處理系統(tǒng)大會(NeurIPS)、國際機器學(xué)習(xí)大會(ICML)和國際學(xué)習(xí)表征會議(ICLR)。這些資源的廣泛可用性也反映了機器學(xué)習(xí)社區(qū)對開放性的重視。會議論文可以被免費發(fā)布,預(yù)印本受到重視,并且共享代碼被視為理所當(dāng)然。甚至還有專門接受博客文章的會議類別
在與機器學(xué)習(xí)(ML,Machine Learning)研究人員交流時,要對他們最初的假設(shè)保持耐心。通常,在機器學(xué)習(xí)文獻(xiàn)中會提出多個假設(shè),但這些假設(shè)在實際實驗中往往并不適用。例如,在分子設(shè)計中,常常忽略了分子的可合成性,或者在反應(yīng)預(yù)測中忽略了反應(yīng)條件。這反映了不同領(lǐng)域?qū)徃迦说膬r值觀和假設(shè)差異。我們很容易對這些問題做出評判,并認(rèn)為這些方法幼稚,這樣的批評也是有益的。但我們不應(yīng)因此而全盤否定所有努力:我們應(yīng)該問,如果能夠妥善處理這些額外的假設(shè),這種方法是否能幫助解決我們的具體問題?由于機器學(xué)習(xí)從業(yè)者來自不同背景,他們可能不會立即理解化學(xué)領(lǐng)域的行話、假設(shè)和實驗設(shè)置,但他們是渴望學(xué)習(xí)的。
3.2.3 慘痛的教訓(xùn):平衡可擴展性與領(lǐng)域知識
AlexNet的問世標(biāo)志著深度學(xué)習(xí)革命的開始,展示了神經(jīng)網(wǎng)絡(luò)在利用圖形處理單元(GPU)的計算能力進行訓(xùn)練時,如何在圖像分類方面的準(zhǔn)確性上遠(yuǎn)超基于手工設(shè)計特征的模型。通過觀察神經(jīng)擴展法則,我們明確看到了計算規(guī)模的力量,這些法則經(jīng)驗性地且可靠地預(yù)測了隨著計算能力、數(shù)據(jù)量和參數(shù)數(shù)量的增加,模型性能將如何改善。這些擴展法則激勵了GPT系列語言模型的發(fā)展,最終催生了諸如ChatGPT這樣的先進應(yīng)用。
根據(jù)規(guī)模法則,在設(shè)計算法時,我們應(yīng)謹(jǐn)慎運用領(lǐng)域知識。機器學(xué)習(xí)中的“慘痛的教訓(xùn)”提醒我們不要過于依賴領(lǐng)域知識來設(shè)計算法。雖然手工制作的領(lǐng)域特定設(shè)計選擇可能在短期內(nèi)帶來改進,但那些更好地利用計算規(guī)模的方法往往在長期內(nèi)表現(xiàn)得更為出色。在文本、圖像、語音、國際象棋和圍棋等多個領(lǐng)域,依賴人類直覺和歸納偏差的方法已經(jīng)被可以充分利用摩爾定律所帶來的計算能力指數(shù)增長的“窮舉方法”所取代。
作為化學(xué)家,令人感到愉快的是開發(fā)受到我們化學(xué)知識啟發(fā)的方法,例如通過將量子化學(xué)描述符注入回歸分析,或?qū)ο到y(tǒng)施加物理約束。然而,我們必須提醒自己,人類對問題的理解并不直接意味著我們能夠設(shè)計出解決該問題的算法。盡管在機器學(xué)習(xí)研究中對語言學(xué)有著廣泛的知識,但像ChatGPT這樣的模型也是直到研究人員在大規(guī)模數(shù)據(jù)集上進行訓(xùn)練后才得以實現(xiàn)。
規(guī)模的力量可能讓人感到恐懼。即便是像在神經(jīng)網(wǎng)絡(luò)中強制執(zhí)行等變性這樣受到廣泛關(guān)注的假設(shè),最近的研究也對此提出了挑戰(zhàn):諸如概率對稱化和隨機幀平均等方法顯示,施加結(jié)構(gòu)約束并不是絕對必要的。而像AlphaFold和分子構(gòu)象場這樣的模型則證明,使用隨機旋轉(zhuǎn)的訓(xùn)練樣本進行訓(xùn)練的模型能夠自動學(xué)習(xí)旋轉(zhuǎn)等變性,但這需要更高的計算量和更長的訓(xùn)練時間。
在當(dāng)前階段,規(guī)模和數(shù)據(jù)仍然有限。例如,帶有反應(yīng)規(guī)則的專家系統(tǒng)依然是當(dāng)今合成規(guī)劃中最有效的方法,這可能是由于收集反應(yīng)數(shù)據(jù)的困難所導(dǎo)致的。此外,我們可以進一步減少歸納偏差,訓(xùn)練語言模型直接生成3D分子結(jié)構(gòu)的.xyz文件,正如我們最近所做的那樣,與更為定制化的晶體結(jié)構(gòu)預(yù)測方法相比,其效果也相當(dāng)不錯。然而,正如Alampara等人所說,目前的語言模型無法編碼表示特定材料屬性所需的幾何信息。
因此,這個慘痛的教訓(xùn)并不意味著對算法施加歸納偏置永遠(yuǎn)是錯誤的。我們必須在利用計算能力和領(lǐng)域?qū)I(yè)知識之間找到一個最佳平衡。這一點在化學(xué)領(lǐng)域尤為重要:與語言和圖像等可以在互聯(lián)網(wǎng)規(guī)模上獲取的數(shù)據(jù)不同,化學(xué)數(shù)據(jù)相對稀缺,并且需要通過真實世界的實驗來獲得。因此,設(shè)計能夠最有效利用這些有限數(shù)據(jù)的算法至關(guān)重要。手工設(shè)計的算法可以在短期內(nèi)實現(xiàn)更好的預(yù)測和更快的仿真,從而推動數(shù)據(jù)生成,最終達(dá)到基礎(chǔ)模型所需的數(shù)據(jù)規(guī)模。
領(lǐng)域知識的另一個關(guān)鍵作用是確定問題的合適概念。我們應(yīng)該是從基本原理出發(fā)進行建模,比如基于物理的模擬,還是將其視為一個化學(xué)信息學(xué)問題呢?這個問題在更廣泛的背景中如何體現(xiàn)的呢?例如,預(yù)測藥物對患者的影響可以通過模擬整個個體來實現(xiàn),盡管目前這在實踐中并不可行,或者也可以通過統(tǒng)計建模或因果建模的方法來處理。在某個時刻,這些不同層次的模型需要進行協(xié)調(diào),而領(lǐng)域科學(xué)家在描繪這一結(jié)構(gòu)層級模型中是至關(guān)重要的。他們幫助判斷何時假設(shè)是合理的,何時又不合理。雖然機器學(xué)習(xí)工具無法獨立解決這些問題,但它們可以在整合不同模型組件方面提供顯著幫助。
參考文獻(xiàn)?????[1]
R. David, A. Aspuru-Guzik, B. Sara, D. Bistra, D. L. Priya, G. Marzyeh, K. Hannah, M. Claire, R. Esther, T. Milind and W. Adam, Position: Application-Driven Innovation in Machine Learning, Proceedings of the 41st International Conference on Machine Learning, ed. R. Salakhutdinov, Z.Kolter, K. Heller, A. Weller, N. Oliver, J. Scarlett and F. Berkenkamp, PMLR,2024, vol. 235, pp. 42707–42718[:https://proceedings.mlr.press/v235/rolnick24a.html
-
測試
+關(guān)注
關(guān)注
8文章
5613瀏覽量
128254 -
人工智能
+關(guān)注
關(guān)注
1804文章
48628瀏覽量
246096 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8488瀏覽量
134010
發(fā)布評論請先 登錄
EBSD在材料科學(xué)中的優(yōu)勢分析

安泰高電壓功率放大器:材料科學(xué)與工程學(xué)科研究的重要推手!

電子背散射衍射技術(shù)(EBSD)在材料科學(xué)中的應(yīng)用與解讀

如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究?(三)

如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究?(一)

共聚焦激光顯微鏡在材料科學(xué)中的應(yīng)用
電子背散射衍射(EBSD)在材料科學(xué)中的應(yīng)用與解讀

《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得
《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得
DSC:材料科學(xué)的洞察之眼

名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新
安泰高壓放大器在極化特性及在材料科學(xué)中的應(yīng)用

差示掃描量熱儀在材料科學(xué)領(lǐng)域的應(yīng)用

評論