AlphaFold2的勝利就像是一場接力賽,往往是跑到最后一棒的人會有更多的高光時刻。但是,我們依然要記住為這門學(xué)科前赴后繼的人。
盡管,距離Deepmind公司AlphaFold2的橫空出世,已經(jīng)過去了兩周的時間,但是圍繞AlphaFold2的討論熱度依然不減。
AlphaFold2是否是完美無缺,如果不是,它的“勝利”具體體現(xiàn)在哪些項(xiàng)目上?AlphaFold2對結(jié)構(gòu)生物學(xué)的影響有哪些,哪些方向能受益而加速突破?哪些方向會受到影響而淡出?學(xué)術(shù)研究者與企業(yè)工程人員該如何分工,進(jìn)一步實(shí)現(xiàn)“產(chǎn)學(xué)融合”的高效轉(zhuǎn)化?
關(guān)于AlphaFold2,太多的問題需要解答。
近日,主題為“權(quán)威專家談AlphaFold:DeepMind到底突破了什么?”的圓桌論壇正式舉行。本次主題論壇由圖像計(jì)算與數(shù)字醫(yī)學(xué)國際研討會(ISICDM)主辦,雷鋒網(wǎng)、醫(yī)健AI掘金志協(xié)辦。
印第安納大學(xué)醫(yī)學(xué)院副院長、AIMBE Fellow黃昆教授擔(dān)任主持,密蘇里大學(xué)教授、AAAS/AIMBE Fellow許東教授、密歇根大學(xué)教授、DeLano獎得主和I-TASSER算法發(fā)明人張陽教授、芝加哥豐田計(jì)算技術(shù)研究所、斯隆獎得主許錦波教授共同參與討論。
在上篇中,幾位嘉賓共同回顧C(jī)ASP競賽的歷史、AlphaFold2的技術(shù)細(xì)節(jié)、局限與意義;
在下篇中,將著重分析AlphaFold2的產(chǎn)業(yè)應(yīng)用前景、學(xué)術(shù)研究風(fēng)向、藥物研發(fā)等“未來”話題。
圖像計(jì)算與數(shù)字醫(yī)學(xué)國際研討會(ISICDM)自2017年創(chuàng)辦以來,一直是醫(yī)工交叉的前沿陣地,圍繞圖像計(jì)算和數(shù)字醫(yī)學(xué)中的一些重要的理論、算法與應(yīng)用問題進(jìn)行學(xué)術(shù)討論,旨在促進(jìn)電子信息(包括計(jì)算機(jī)、自動化與生物醫(yī)學(xué)工程)、數(shù)學(xué)和醫(yī)學(xué)等領(lǐng)域?qū)W者的交流與合作,截止至今,ISICDM共邀請到400余位大會報(bào)告及專題報(bào)告嘉賓。
在今年的ISICDM 2020上, “計(jì)算解剖學(xué)”創(chuàng)始人的Michael I.Miller教授,新加坡國家科學(xué)院院士、發(fā)展中國家科學(xué)院院士沈佐偉教授、瑞士工程科學(xué)院院士Michael Unser教授、美國國家發(fā)明家科學(xué)院院士王革教授等數(shù)十位嘉賓分別進(jìn)行了主題演講。
以下是主題論壇的現(xiàn)場內(nèi)容,雷鋒網(wǎng)《醫(yī)健AI掘金志》做了不改變原意的編輯和整理
黃昆:說到蛋白質(zhì)結(jié)構(gòu),了解其結(jié)構(gòu)不僅是為了了解它,還會將其應(yīng)用于制藥。這就牽扯到蛋白和藥物之間的交互作用。同時,蛋白的結(jié)構(gòu)并非一成不變,是一個動力學(xué)過程。
那么,AlphaFold2能否擴(kuò)展到分子動力學(xué)MDS領(lǐng)域?能否應(yīng)用于蛋白-配體相互作用/對接,蛋白質(zhì)-蛋白質(zhì)相互作用?能否應(yīng)用于蛋白質(zhì)設(shè)計(jì)呢?
許東:在蛋白設(shè)計(jì)方面,AlphagoFold2能夠比較直接地應(yīng)用。之前應(yīng)用不同序列設(shè)計(jì)出新結(jié)構(gòu)的方法,可能不用改太多就可以完成。
蛋白設(shè)計(jì)的大部分難點(diǎn)不在結(jié)構(gòu)上,而是在生物上。
第二,蛋白的相互作用,我認(rèn)為這一方面的應(yīng)用不會特別理想。其中一個原因是,蛋白相互作用的數(shù)據(jù)遠(yuǎn)遠(yuǎn)少于蛋白結(jié)構(gòu)本身的數(shù)據(jù),因此,對于機(jī)器學(xué)習(xí)來說挑戰(zhàn)性很大。
事實(shí)上,這個問題和蛋白結(jié)構(gòu)本身是很不一樣的問題。目前我們組何飛博士和我們系的段曄教授正在進(jìn)行合作,用圖卷積、圖像處理、點(diǎn)云等方法來探索蛋白相互作用,這個問題在短期內(nèi)難以解決。
更困難的是分子動力學(xué)問題,這就是顏寧教授所提到的。
我在讀博時,導(dǎo)師讓我研究如何對分子動力學(xué)做的非常快,能夠更大尺度迭代。這個問題花費(fèi)了我大量時間,但是沒有成功。
機(jī)器學(xué)習(xí)解決分子動力學(xué)的問題離我們非常遙遠(yuǎn),我們也進(jìn)行了一些簡單的探索。吉林大學(xué)韓葳葳教授組一個訪問學(xué)生朱鏡璇與我們組的王玨鑫博士目前進(jìn)行了一些工作,用這些所謂Neural relational inference——一種圖神經(jīng)網(wǎng)絡(luò)的方式,進(jìn)行了分子動力學(xué)過程的模擬實(shí)驗(yàn)。
我們可以看到,所謂長程作用的變構(gòu)效應(yīng)是能夠被預(yù)測的,但是這離分子動力學(xué)大幅度加速還差得很遠(yuǎn),不過通過這個過程,
我們發(fā)現(xiàn)傳統(tǒng)動力學(xué)背后的驅(qū)動變量數(shù)維度很低。因此,我們認(rèn)為從理論上來說大幅度加速是有可能的,但是需要很漫長的道路去探索。
黃昆:AlphaFold2對結(jié)構(gòu)生物學(xué)的影響,哪些方向能受益而加速突破?哪些方向會受影響而淡出?結(jié)構(gòu)生物學(xué)的研究能夠怎樣幫助AlphaFold2改進(jìn)?我們想請?jiān)S錦波教授來評論一下。
許錦波:用計(jì)算的方法來做蛋白質(zhì)結(jié)構(gòu)預(yù)測,我覺得影響會越來越大。拿解結(jié)構(gòu)來說,我不認(rèn)為解結(jié)構(gòu)的人在未來會被拋棄。現(xiàn)在來預(yù)測的數(shù)據(jù)相對來說比較簡單,比如預(yù)測單鏈。
但是單鏈有時候也無法準(zhǔn)確預(yù)測,目前僅有60%的預(yù)測比較好。但如果僅僅簡單的解結(jié)構(gòu),以后可以直接用軟件去解決。
同時,AlphaFold2可以用來提高效率,便于研究者專注于研究結(jié)構(gòu)、功能。做單鏈的蛋白質(zhì)結(jié)構(gòu)預(yù)測,這方面的人會變少。
但是軟件不是萬能的,很多問題依舊無法用軟件解決,畢竟還有40%的蛋白質(zhì)的結(jié)構(gòu)預(yù)測不是非常準(zhǔn)確。且現(xiàn)在效率也存在問題。
當(dāng)下,我們還不明確AlphaFold2如何處理數(shù)據(jù),會不會開源等,目前看來可能性不大。所以,至少在學(xué)術(shù)界需要一個與之相競爭的軟件,不能壟斷。
因此,在結(jié)構(gòu)預(yù)測這個方向,目前還有許多問題值得研究,并不會造成所有人失業(yè)。
當(dāng)然,可能會有較多的人轉(zhuǎn)向其他相關(guān)問題的研究。就拿計(jì)算結(jié)構(gòu)生物學(xué)來說,可研究的問題還是很多,比如說兩個蛋白、多個蛋白如何結(jié)合、蛋白質(zhì)配體相互作用、蛋白質(zhì)制藥等發(fā)展比較快。因?yàn)槟鼙容^準(zhǔn)確地拿到結(jié)構(gòu),這些方向的未來發(fā)展會比較快。
另一方面,解結(jié)構(gòu)的人對我們從事計(jì)算研究的人員信任程度也會提升,以前我們做出來的結(jié)構(gòu)可能對其他研究人員來說用處不大,但是軟件質(zhì)量提升后,他們會慢慢喜歡用我們這些軟件預(yù)測出來的數(shù)據(jù),便于他們研究蛋白質(zhì)及功能。
張陽:我覺得AlphaFold2的成功,并不會讓很多人轉(zhuǎn)行或者受影響而淡出。
它的成功首先會刺激和促進(jìn)蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域整體精度的提高。對結(jié)構(gòu)生物學(xué)來講,高精度的蛋白質(zhì)結(jié)構(gòu)預(yù)測會幫助很多結(jié)構(gòu)生物學(xué)家更快更好地開展他們的研究工作。
比如X光衍射實(shí)驗(yàn),這個實(shí)驗(yàn)很重要的一步是做分子置換來確定X光衍射的相位,而成功的分子置換要求有精確的初始結(jié)構(gòu)模型。
如果計(jì)算機(jī)能夠快速準(zhǔn)確預(yù)測蛋白質(zhì)地初始模型,這會大大提高X光衍射實(shí)驗(yàn)的效率。
對于冷凍電鏡的實(shí)驗(yàn),好的初始模型有利于蛋白質(zhì)構(gòu)型和電子密度圖的正確疊加,因而有利于下一步地蛋白結(jié)構(gòu)的優(yōu)化。從這些方面來講,精確地結(jié)構(gòu)預(yù)測對結(jié)構(gòu)生物學(xué)不是一個替代的問題,它們可以相互促進(jìn)。
好的蛋白質(zhì)結(jié)構(gòu)預(yù)測算法可以大幅度提高傳統(tǒng)結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的精度和速度。做結(jié)構(gòu)生物學(xué)的科學(xué)家其目的并不只是解結(jié)構(gòu),他們只是把結(jié)構(gòu)當(dāng)成工具,來了解蛋白質(zhì)有什么樣的功能、在細(xì)胞運(yùn)行過程中有什么生物學(xué)的意義。
所以從這方面來講,AlphaFold2不可能讓人們失業(yè),或者淡出自己的行業(yè)。
黃昆:如果AlphaFold2不開源,學(xué)術(shù)界有沒有成立開源組織的計(jì)劃?工業(yè)界一些大公司在算法和算力方面都占有絕對優(yōu)勢,那么學(xué)術(shù)研究前進(jìn)的方向在哪里?
對于高校中的AI研究人員有什么建議?對于生物研究人員有什么建議?
工業(yè)界一些大公司在算法和算力方面都占有絕對優(yōu)勢,對整個學(xué)術(shù)界的影響會是什么?如何“擺正”學(xué)術(shù)界和工業(yè)界的關(guān)系?
張陽:第一,如果AlphaFold2不開源,學(xué)術(shù)界有沒有成立開源組織的計(jì)劃?
按照谷歌以往的慣例(比如alphaGo和alphaFold),我不相信Google DeepMind會分享他們的源代碼,甚至建立共享服務(wù)器。但是,我相信學(xué)術(shù)界很快就會開發(fā)出新的替代品。
我說的替代品并不是做一個和谷歌AlphaFold2一模一樣的軟件。雖然谷歌提出了一些新的算法,但是,替代品并不是完全按照谷歌的新算法,可能會出現(xiàn)新的不同地算法來解決同樣的問題。
谷歌的主要貢獻(xiàn)不是算法或者技術(shù)上,我覺得他們這次成功的一個主要貢獻(xiàn)是在于證明蛋白質(zhì)結(jié)構(gòu)預(yù)測這個問題可以解決。
這并不是一個簡單的問題。做過蛋白質(zhì)結(jié)構(gòu)預(yù)測的人都知道,蛋白質(zhì)結(jié)構(gòu)是由序列決定的。但是結(jié)構(gòu)和序列的關(guān)系非常復(fù)雜。有些結(jié)構(gòu)長得非常奇怪,奇怪到你會懷疑這個結(jié)構(gòu)有沒有物理的道理,會不會是大自然的一次巧合的怪胎,或者說會不會是物理學(xué)上的確定唯一的解。
在這次CASP14中,有些蛋白質(zhì)相互纏繞,長的非常奇怪,結(jié)果AlphaFold2都可以正確的預(yù)測---至少在Fold level是正確的。這在概念上是一個重要的突破,一件相當(dāng)重要的成就。
當(dāng)我們解決一個問題時,預(yù)先知道這個問題有答案和不知道這個問題有答案,那解決的難度是不同的。所以,在這個問題上,谷歌是有貢獻(xiàn)的。
這個貢獻(xiàn)和CASP13有相似的效應(yīng)。CASP13之前,我們很多人都知道深度學(xué)習(xí)對蛋白質(zhì)結(jié)構(gòu)預(yù)測有幫助。
但是只有在CASP13之后,世界才開始關(guān)注深度學(xué)習(xí)對蛋白質(zhì)結(jié)構(gòu)預(yù)測這一領(lǐng)域的影響,這是因?yàn)楣雀璋堰@個結(jié)果顯示給大家,讓大家覺得原來機(jī)器學(xué)習(xí)有如此大的威力。
回到你的問題,我相信學(xué)術(shù)界應(yīng)該很快讓這項(xiàng)技術(shù)開源使用,幫助整體生物醫(yī)學(xué)以及公眾健康研究的發(fā)展。
第二個問題,工業(yè)界一些大公司在算法和算力方面都占有絕對優(yōu)勢,那么學(xué)術(shù)研究前進(jìn)的方向在哪里?對于高校中的AI研究人員有什么建議?對于生物研究人員有什么建議?
剛才談到,AlphaFold2接近解決了單結(jié)構(gòu)域蛋白質(zhì)結(jié)構(gòu)預(yù)測的問題。但是,這只是問題的一個方面,還有很多未知的問題需要解決。
例如,蛋白質(zhì)折疊的動力學(xué)問題,純粹用深度學(xué)習(xí),目前似乎沒辦法解決,因?yàn)槲覀冊赑DB庫中看到都是蛋白質(zhì)折疊到最后的穩(wěn)定結(jié)構(gòu),它不能提供大量的樣本供計(jì)算機(jī)來學(xué)習(xí)蛋白質(zhì)折疊的中間過程。
所以,蛋白質(zhì)折疊的物理學(xué)規(guī)律,蛋白質(zhì)和蛋白質(zhì)之間相互作用等等,都是和蛋白質(zhì)結(jié)構(gòu)預(yù)測相關(guān)的,亟待解決的未知問題。
在CASP會議最后一天,DeepMind的CEO Hassabis,提到一個嘗試,我覺得非常有趣。
大家知道,在AlphaGo的圍棋游戲軟件開發(fā)中,他們有兩個版本。第一個版本是通過從人類十幾萬張棋譜學(xué)習(xí)怎么下棋,這是和李世石比賽的那個版本。
第二個版本叫做AlphaGo Zero,它完全拋棄人類的棋譜,直接從圍棋的規(guī)則出發(fā)進(jìn)行自我學(xué)習(xí)。第二個版本比第一個版本要強(qiáng)很多。
Hassabis提到在準(zhǔn)備AlphaFold2的時候,他們也試用了這個想法,試圖不用PDB數(shù)據(jù)庫當(dāng)中人類解析的結(jié)構(gòu)來學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu)預(yù)測,而是從基本的物理規(guī)律出發(fā)進(jìn)行自我學(xué)習(xí)探索。他們似乎取得了一定進(jìn)展,但是與AlphaFold還有一定距離。
我認(rèn)為這是非常有意義的嘗試,可能代表下一步的研究發(fā)展方向。這類似于要對AlphaGo Zero輸入圍棋的規(guī)則,我們要對機(jī)器學(xué)習(xí)網(wǎng)絡(luò)輸入蛋白質(zhì)折疊的物理規(guī)則,但是蛋白質(zhì)折疊的規(guī)則目前尚不明晰。
如果Alphafold Zero能夠做這件事,我們可能就真正學(xué)到了蛋白質(zhì)折疊的物理規(guī)律,這將一個更加令人興奮的成就,遠(yuǎn)比現(xiàn)在的AlphaFold2更加令人興奮。
另一方面來講,它甚至可以讓我們預(yù)測出我們原先從未見過的蛋白質(zhì)——這些蛋白質(zhì)的結(jié)構(gòu)不是我們數(shù)據(jù)庫里面已經(jīng)解構(gòu)的,這給人類設(shè)計(jì)自然界從來沒有產(chǎn)生過的,全新的蛋白提供重要的可能性。
如果有這樣一個AlphaFold Zero的實(shí)現(xiàn),也會在蛋白質(zhì)設(shè)計(jì)或者蛋白質(zhì)藥物設(shè)計(jì)領(lǐng)域產(chǎn)生巨大的影響。
您的最后一個問題,工業(yè)界一些大公司在算法和算力方面都占有絕對優(yōu)勢,對整個學(xué)術(shù)界的影響會是什么?如何“擺正”學(xué)術(shù)界和工業(yè)界的關(guān)系?
這是一個重要問題。我覺得工業(yè)界對解決工程問題的確有它獨(dú)有的優(yōu)勢,可以集中人力和財(cái)力攻關(guān)一件事情。學(xué)術(shù)界是對科學(xué)更加感興趣,就是不僅要知道問題如何解決,還要知道為什么要這樣解決,所謂知其然知其所以然。
就蛋白質(zhì)結(jié)構(gòu)預(yù)測來講,雖然谷歌用深度學(xué)習(xí),’暴力’地解決了這個問題的工程學(xué)方面,但是科學(xué)上未知的問題還很多。
我們都知道,蛋白質(zhì)結(jié)構(gòu)預(yù)測可以分成從頭預(yù)測和同源模型預(yù)測,但是從頭預(yù)測遠(yuǎn)沒有基于模板的預(yù)測精準(zhǔn)。在早期CASP比賽時,每一次都會有一些科學(xué)家,比如Cornell大學(xué)的Scheraga教授等,堅(jiān)持不用模板,只用物理的辦法來求解這個問題。
當(dāng)然,他們的成績或許不理想,但我覺得這是一種對科學(xué)的追求精神,值得尊重,這也是學(xué)界解決問題的科學(xué)態(tài)度。
總體來講,我很高興看到谷歌對這個問題的成就。但是學(xué)術(shù)界應(yīng)該放開心態(tài),接納利用這個成果,來幫助我們解決更重要的科學(xué)上的問題。AlphaFold2并不是末日,而是開始。
許錦波:學(xué)術(shù)界和產(chǎn)業(yè)界的矛盾在計(jì)算機(jī)系更加普遍,很多計(jì)算機(jī)系的研究都要落后于大公司。
大公司普遍在人力和資源上要比學(xué)校強(qiáng)很多,大公司可以招聘到很多頂尖人才長時間做研究,而學(xué)校教授團(tuán)隊(duì)都是一些剛剛?cè)腴T的學(xué)生,創(chuàng)新成果產(chǎn)出上學(xué)?,F(xiàn)在總體上落后于大公司。
但學(xué)術(shù)機(jī)構(gòu)也不是完全處于下風(fēng),深度學(xué)習(xí)領(lǐng)域的三巨頭都是來自于學(xué)校,在學(xué)校里堅(jiān)持做研究,才一點(diǎn)點(diǎn)取得成功。但開端之后,新的模型、新的算法又都是產(chǎn)業(yè)界走在前面,例如DeepMind。現(xiàn)在的機(jī)器學(xué)習(xí)領(lǐng)域,產(chǎn)業(yè)界影響肯定更大一些。
學(xué)校也有自己的好處,例如思想上比較自由,可以去想、去做風(fēng)險(xiǎn)很高,別人還沒有涉及的純學(xué)術(shù)問題,將許多問題率先從概念角度理清。
我覺得,學(xué)者不應(yīng)該和大公司在產(chǎn)業(yè)上硬碰硬,兩者在科學(xué)研究和產(chǎn)業(yè)轉(zhuǎn)化上應(yīng)該進(jìn)行互補(bǔ)。
黃昆:這些矛盾和我們AI研究比賽和試驗(yàn)方向的評價機(jī)制也有很大關(guān)系,一味追求準(zhǔn)確率就是在和產(chǎn)業(yè)界競爭。
另一方面,不考慮算力的情況下進(jìn)行準(zhǔn)確率對比機(jī)制,也導(dǎo)致很多有潛力的算法被提早排除。那些新的算法、新的理論在初始階段,算力還有限的情況下,精準(zhǔn)度也不高,可能更需要學(xué)術(shù)界去關(guān)注。
許東:工業(yè)界并沒有和學(xué)術(shù)界進(jìn)行全方面PK。
以我們生物信息學(xué)為例,目前研究的算法問題有成百上千個,里面產(chǎn)業(yè)界只研究和涉及其中的幾個。現(xiàn)在看到產(chǎn)業(yè)界在蛋白質(zhì)結(jié)構(gòu)預(yù)測這個成果很轟動,但其他像RNA三級結(jié)構(gòu)之類能不能用深度學(xué)習(xí)解決的學(xué)術(shù)問題,產(chǎn)業(yè)界還完全沒有涉及。
許多問題并不像蛋白結(jié)構(gòu)這么大,產(chǎn)業(yè)界投入產(chǎn)出比也不明顯,學(xué)術(shù)界做這類問題就非常適合。
黃昆:人工智能對基礎(chǔ)科研的輔助作用,對于中國生物醫(yī)藥產(chǎn)業(yè)的追趕甚至趕超有沒有一定的啟示?
張陽:在醫(yī)藥研發(fā)過程中,前期主要的一部分工作就是找到靶蛋白,之后設(shè)計(jì)新的化合物或其他分子來調(diào)節(jié)靶蛋白的功能。其中,了解靶蛋白的原子結(jié)構(gòu),對靶蛋白地尋找以及新化合物地設(shè)計(jì),都很重要。
比如,我們的蛋白質(zhì)結(jié)構(gòu)預(yù)測軟件I-TASSER就已經(jīng)被多家美國前十的醫(yī)藥公司購買,他們購買I-TASSER地目的,就是用它在預(yù)測各種靶蛋白的空間結(jié)構(gòu)。
現(xiàn)在AlphaFold2在結(jié)構(gòu)預(yù)測方面的巨大進(jìn)展,應(yīng)該使得醫(yī)藥公司對幾乎所有的靶蛋白都能夠進(jìn)行比較精確的結(jié)構(gòu)預(yù)測,這是AlphaFold2對藥物產(chǎn)業(yè)的一個直接的影響。
在藥物研發(fā)過程中,另外一個重點(diǎn)就是了解候選藥物分子和靶蛋白的相互作用關(guān)系。這還需要新的AI技術(shù)去突破,可能也是包括谷歌在內(nèi)的產(chǎn)業(yè)界和學(xué)術(shù)界未來研究的新目標(biāo)。
所以,深度學(xué)習(xí)未來肯定會進(jìn)一步改變傳統(tǒng)藥物的研發(fā)過程,這種改變會是革命性的。
許東:我也簡單舉幾個例子。像癌癥里面的癌細(xì)胞蛋白變異,過去這種變異研究都是從序列出發(fā)。未來如果AI在結(jié)構(gòu)預(yù)測的非常準(zhǔn)確,就可以用于大規(guī)模的癌細(xì)胞蛋白變異預(yù)測,理解癌癥,進(jìn)行藥物開發(fā)。
其次,小分子藥物設(shè)計(jì),像研發(fā)新冠病毒的小分子藥物,這種病毒蛋白或細(xì)菌蛋白,變異往往非常多,AI結(jié)構(gòu)預(yù)測如果也同樣很精準(zhǔn),就能更容易找到新小分子藥物對不同變異都有效果。這些都是很實(shí)在的應(yīng)用。
黃昆:一個全新的氨基酸序列,怎樣評判AI預(yù)測的結(jié)構(gòu)是不是靠譜?這種沒有標(biāo)準(zhǔn)答案的新結(jié)構(gòu)是否可以用能量穩(wěn)定性評價質(zhì)量?
許東:這種結(jié)構(gòu)評價主要有兩種情況,第一種是將預(yù)測結(jié)果和真實(shí)結(jié)構(gòu)做比對,第二種是不知道結(jié)構(gòu),評估預(yù)測結(jié)果是否可靠。
第一種情況,現(xiàn)在像GDT打分這種評價方式,還非常粗獷。
我認(rèn)為終極的評估還需要考慮更多,例如比對分子上的氫鍵是否差異或錯誤,這次的AlphaFold2肯定還達(dá)不到試驗(yàn)要求的高精度要求。其實(shí)過去的CASP就很難實(shí)現(xiàn)高精度,我覺得這次的分析肯定也不是很透徹。
第二種情況,不知道之前結(jié)果,我覺得DeepMind這次做的還比較好,用Transformer的方式,直接給出一個打分,這非常有價值。
黃昆:利用“分子動力學(xué)+AI”加速模擬和利用“Knowledge+AI”直接預(yù)測結(jié)構(gòu)和活性,這兩種方式哪種更有潛力?
許錦波:我覺得兩種方法并不是對立,更趨向于互補(bǔ)的關(guān)系。
如果只要簡單的預(yù)測分子結(jié)構(gòu),肯定knowledge+AI更有效,它更適合結(jié)構(gòu)預(yù)測。
但knowledge+AI方法也有短處,本身就是用結(jié)構(gòu)庫里的數(shù)據(jù)訓(xùn)練出來的,而結(jié)構(gòu)庫的大部分結(jié)構(gòu)都是通過X單晶衍射解出的,所以AI預(yù)測肯定會更適用于靜態(tài)結(jié)構(gòu),動態(tài)結(jié)構(gòu)效果就會比較差。
假如希望研究AI+分子動力學(xué)的方向,可以在動態(tài)結(jié)構(gòu)預(yù)測方向進(jìn)行嘗試,例如預(yù)測蛋白質(zhì)動態(tài)行為,或者做模擬和代碼的動態(tài)分析。兩種方法都有自己更擅長的方向。
黃昆:以X光衍射成像的經(jīng)驗(yàn)來看,數(shù)據(jù)的預(yù)處理非常重要,對最后AI訓(xùn)練結(jié)果影響也非常大,那么對端到端的預(yù)測影響有多大?
許錦波:以我的經(jīng)驗(yàn)來看,數(shù)據(jù)處理是非常重要的,肯定需要花費(fèi)大量的精力在數(shù)據(jù)庫建設(shè)和完善上。
現(xiàn)在的結(jié)構(gòu)數(shù)據(jù)庫樣本量還比較小,但肯定也需要進(jìn)行處理。因?yàn)槔锩嬉徊糠职被峥赡軟]有坐標(biāo)、是殘缺的,許多數(shù)據(jù)的來源也不太一樣,包括NMR、冷凍電鏡、 X-ray。
這次AlphaFold就應(yīng)用了一個很大的宏基因數(shù)據(jù)組,需要花很多時間去處理里面的數(shù)據(jù)。因?yàn)橥葱蛄芯褪莵碜杂谶@些序列數(shù)據(jù)庫,如果預(yù)處理過程中,同源序列都找的不好,肯定會影響最后預(yù)測結(jié)果,端到端的數(shù)據(jù)處理同樣也需要花很多精力和時間。
黃昆:剛才許教授說到,在生物學(xué)里面還有幾百個問題都需要應(yīng)用機(jī)器學(xué)習(xí),那么除了這次的蛋白質(zhì)折疊,DeepMind還在布局哪些其他生物技術(shù)方向?
許東:DeepMind這樣的AI技術(shù)在許多生物醫(yī)學(xué)領(lǐng)域都進(jìn)行了嘗試,然而,應(yīng)用在其他的方向其實(shí)并不容易,迄今為止還沒有太多成功案例。
從計(jì)算機(jī)角度來看,蛋白質(zhì)結(jié)構(gòu)預(yù)測,是一個已經(jīng)被定義非常清楚的問題,雖然復(fù)雜,但還是屬于弱人工智能問題。
而輔助診斷等其他場景,屬于強(qiáng)人工智能問題,對于AI還有很多困難,DeepMind并不是沒有做這些的方向,而僅僅是還沒有取得很大成功。
補(bǔ)充提問:結(jié)構(gòu)只占序列的不到1/1000,今后有了序列很快就可以拿到結(jié)構(gòu)之后,對于依賴蛋白質(zhì)相互作用網(wǎng)絡(luò)的癌癥和中醫(yī)藥等,有什么影響?
許東:我覺得幫助會比較大的。當(dāng)然用蛋白質(zhì)結(jié)構(gòu)來預(yù)測蛋白質(zhì)相互作用網(wǎng)絡(luò)現(xiàn)在并不靠譜,但不少蛋白之間我們知道它們有相互作用,可以應(yīng)用它們各自的結(jié)構(gòu)做docking,得到相互作用的結(jié)構(gòu)模式,會對促進(jìn)理解癌癥及其相關(guān)藥物的開發(fā)。
對于中醫(yī)我個人很感興趣,許多中草藥的基因組現(xiàn)在被測序了,但其中絕大多數(shù)蛋白沒有被研究,蛋白質(zhì)結(jié)構(gòu)預(yù)測會幫助我們理解這些蛋白的功能,助力對中草藥的藥理研究。
原文標(biāo)題:四大頂級專家談AlphaFold2:記錄、風(fēng)向與學(xué)術(shù)思考(下篇)
文章出處:【微信公眾號:IoT科技評論】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
圖像
+關(guān)注
關(guān)注
2文章
1092瀏覽量
40984 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8487瀏覽量
133977
原文標(biāo)題:四大頂級專家談AlphaFold2:記錄、風(fēng)向與學(xué)術(shù)思考(下篇)
文章出處:【微信號:IoT_talk,微信公眾號:醫(yī)健AI掘金志】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
**【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**
索尼IP編碼板:技術(shù)細(xì)節(jié)與應(yīng)用探索
N1X 英偉達(dá)Arm AI PC 芯片技術(shù)細(xì)節(jié),性能表現(xiàn)
在SMT貼片加工過程中“陰陽板”的拼板設(shè)計(jì)有什么優(yōu)點(diǎn)和局限性

SONY編碼板測試:技術(shù)細(xì)節(jié)與性能評估
臺積電2納米制程技術(shù)細(xì)節(jié)公布:性能功耗雙提升
臺積電2納米制程技術(shù)細(xì)節(jié)公布
有關(guān)UV固化你不知道的技術(shù)細(xì)節(jié)
深入解析Zephyr RTOS的技術(shù)細(xì)節(jié)

機(jī)房精密空調(diào)外機(jī)的技術(shù)細(xì)節(jié)!

3DP技術(shù)的優(yōu)缺點(diǎn)_3dp技術(shù)的應(yīng)用領(lǐng)域
WDM技術(shù)的缺點(diǎn)和局限性
探究雙路或四路可選可編程晶體振蕩器SG-8503CA/SG-8504CA的技術(shù)細(xì)節(jié)及其應(yīng)用
燈箱屏未來:技術(shù)突破與應(yīng)用局限揭秘
LED顯示屏的換幀頻率與刷新頻率:技術(shù)細(xì)節(jié)與市場發(fā)展

評論