AI助力打造科學研究新范式
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 科學研究有2個主要目的:發(fā)現(xiàn)基本原理,如發(fā)現(xiàn)行星運動規(guī)律和量子力學原理;解決實際問題,如解決工程和工業(yè)中出現(xiàn)的問題。科學研究有2種主要方法:開普勒范式,即數(shù)據(jù)驅(qū)動的方法;牛頓范式,即基本原理驅(qū)動的方法。前者最好的例子是行星運動三定律的發(fā)現(xiàn),即開普勒通過分析觀察數(shù)據(jù)發(fā)現(xiàn)了這些規(guī)律。后者最好的例子是牛頓對行星運動三定律的解釋和運用。牛頓提出了力學第二定律和萬有引力定律,在此基礎上將行星運動問題歸結(jié)為一個常微分方程問題并推導出行星運動三定律。這里原始的科學發(fā)現(xiàn)是開普勒做出的,但他并不理解其背后的原因。牛頓進一步發(fā)現(xiàn)了背后的基本原理,這些原理進而可用于許多其他問題。
從實際應用的角度來看,在量子力學建立之后,尋找基本原理的任務已經(jīng)基本完成。早在1929年,狄拉克就宣稱,“大部分物理學和整個化學的數(shù)學理論所需要的基本物理定律已經(jīng)完全被人們所知,困難在于這些定律的精確應用導致方程過于復雜而無法求解”。他的斷言不僅適用于化學,也適用于生物學、材料科學,以及所有其他不涉及高能物理的自然科學與工程學科。在實際情況中,通常不必深入到量子力學層面,而可以使用一些簡化的基本原理,如氣體動力學的歐拉方程和流體力學的納維—斯托克斯方程。
對于應用數(shù)學家來說,一方面有了這些基本原理,所有的自然科學和相關的工程問題都可以歸結(jié)為數(shù)學問題,再具體而言是常微分方程或偏微分方程問題。另一方面,在開發(fā)出有效的工具之前,為了解決實際問題,科學家只能大幅度簡化或徹底忽略這些基本原理。
馮·諾伊曼認識到計算機和數(shù)值算法應該提供一種利用這些基本原理解決實際問題的通用方法,這是一個重大進展。沿著這個方向,人們提出了許多求解這些微分方程的數(shù)值算法,如有限差分、有限元和譜方法。這些算法的基本出發(fā)點是一般函數(shù)可以用多項式或分片多項式逼近。這些工作的影響是巨大的。今天,科學計算已經(jīng)成為現(xiàn)代技術和工程科學的基礎。許多學科,如結(jié)構(gòu)力學、流體力學和電磁學,由于引入數(shù)值算法而發(fā)生了徹底改變。
科學研究的基本問題
目前,科學研究中并非所有問題都得到了解決。例如研究材料的性能和設計、藥物設計、內(nèi)燃機設計,以及許多控制問題仍然遠遠做不到使用基本原理來解決。在這些領域,理論工作往往與現(xiàn)實世界相去甚遠,現(xiàn)實世界的問題必須通過試錯或靠經(jīng)驗來解決。這導致科學研究效率低下,相關領域的技術提升進展緩慢。
所有這些“困難”問題都有一個共同特點,即它們依賴于多個獨立變量。所以,這些困難實際來自維度災難。以量子力學的薛定諤方程為例,忽略對稱性,波函數(shù)中獨立變量的個數(shù)是粒子數(shù)量的3倍,所以10個電子的系統(tǒng)雖然是非常簡單的體系,但其對應的30維空間偏微分方程卻已經(jīng)非常復雜!
人工智能為科學計算提供新的解決方法
深度學習在圖像分類、圖像生成和圍棋等方面取得了極大的成功。這些都是標準的人工智能問題,但從數(shù)學角度來看,這些問題其實是函數(shù)逼近、概率分布的逼近和采樣,以及求解貝爾曼方程的問題。而所有這些都是應用數(shù)學,尤其是計算數(shù)學長期面臨的典型問題。不同之處在于,這些人工智能問題比應用數(shù)學中處理的問題維度要高得多。以圖像分類問題為例,這里的自變量是圖像,每個像素都是1個自由度。因此,1張32×32像素的彩色圖片有3 072個自由度。換句話說,這個問題的維度是3 072。
深度學習在這些高維問題上取得的成功提示深度神經(jīng)網(wǎng)絡可能是逼近高維函數(shù)更有效的工具。雖然目前還沒有建立起一個完整的深度學習的數(shù)學理論,但已經(jīng)取得了一些重要進展和直觀了解。首先,神經(jīng)網(wǎng)絡就是一類特殊的函數(shù)。如果使用規(guī)則網(wǎng)格上的分片線性函數(shù)來逼近一個函數(shù),其誤差與網(wǎng)格大小的平方成正比。這正是維度災難的根源:隨著維度的增加,同樣網(wǎng)格大小所需要的格點個數(shù)呈指數(shù)增長。不僅基于分片線性函數(shù)的逼近是這樣,所有基于固定基函數(shù)的逼近方法都是這樣。如果利用神經(jīng)網(wǎng)絡函數(shù)來逼近一般的函數(shù),那么至少在某些情況下,可以證明其逼近精度不會隨著維度的增加而惡化,就跟計算數(shù)值積分的蒙特卡羅(Monte Carlo)方法一樣。
這個觀察結(jié)果有著廣泛的意義。因為函數(shù)是最基本的數(shù)學對象之一,所以一個新的高維函數(shù)逼近工具將對許多不同的領域產(chǎn)生深遠影響。特別是,深度學習應該有助于解決之前討論過的那些受維度災難困擾的問題。這是人工智能驅(qū)動的科學(AI for Science)的出發(fā)點。
這方面最成功的例子是預測蛋白質(zhì)結(jié)構(gòu)的AlphaFold算法。蛋白質(zhì)結(jié)構(gòu)是生物學最基本的問題之一。研究蛋白質(zhì)結(jié)構(gòu)的基本方法是首先最小化整個蛋白質(zhì)—溶劑系統(tǒng)的總勢能。但2個主要的困難限制了這種方法的成功:獲得精度足夠高的勢能函數(shù),以及該函數(shù)景觀的復雜性。科學家也曾嘗試過數(shù)據(jù)驅(qū)動的方法,但其成功僅限于預測二級結(jié)構(gòu),如α-螺旋和β-折疊。通過充分利用蛋白質(zhì)序列數(shù)據(jù)集及最先進的深度學習模型,DeepMind公司開發(fā)了AlphaFold2算法,它以非常優(yōu)雅的方式基本解決了蛋白質(zhì)結(jié)構(gòu)問題。這項研究震驚了世界。
AlphaFold2是純粹數(shù)據(jù)驅(qū)動的方法。但這并不意味著AI for Science是一個純粹數(shù)據(jù)驅(qū)動的研究范式。事實上,科學研究遵循如前所述的基本原理或第一性原理,而AI for Science的一個主要組成部分是用人工智能方法為這些基本原理開發(fā)更高效的算法或近似模型。在這方面,最著名的例子是分子動力學。分子動力學是生物學、材料科學和化學的基本工具,其思想是通過計算體系中原子的動態(tài)軌跡來研究分子和材料的性質(zhì)。原子運動遵循牛頓定律,困難的部分來自于模擬原子之間的相互作用力或勢能函數(shù)。經(jīng)驗勢函數(shù)的方法是盡可能地猜出原子間勢能函數(shù)的函數(shù)形式,然后用一些實驗或第一性原理計算出的數(shù)據(jù)來擬合其中的參數(shù)。雖然這種方法可以提供一些幫助,但作為一個研究特定體系的定量工具,它是不可靠的。1985年,Car和Parrinello開發(fā)了第1個基于第一性原理的人工智能方法:通過使用量子力學模型(如密度泛函理論)來實時計算原子之間的作用力。這種方法能夠以第一性原理的精度來模擬特定體系。但在實踐中,效率是一個瓶頸。由于效率的限制,只能用這種方法來處理含數(shù)千個原子的體系。
機器學習提出了一種新的范式。在這個新的范式下,量子力學僅用于提供數(shù)據(jù)。基于這些數(shù)據(jù),可以使用機器學習方法來得出原子間勢能函數(shù)的精確近似,然后就像使用經(jīng)驗勢能函數(shù)一樣將其用于分子動力學模擬。
為了使這個策略真正有效,必須處理2個重要問題。 網(wǎng)絡架構(gòu)。它應該是可拓展的,并且遵循物理學基本規(guī)律。可拓展性能夠在小體系上做機器學習并將結(jié)果應用于更大的體系。這個問題在Behler和Parrinello兩位科學家的經(jīng)典工作中得到了解決。遵循物理規(guī)律意味著必須保持對稱性、守恒律、不變性和其他物理約束。在勢能函數(shù)這個問題中,需要考慮的主要是平移、旋轉(zhuǎn)和置換不變性。這可以通過使用一個嵌入網(wǎng)絡來實現(xiàn),該網(wǎng)絡將原子位置的信息映射到一組保持對稱性的函數(shù)上。然后再通過一個逼近網(wǎng)絡來擬合勢能函數(shù)。 數(shù)據(jù)有關。一方面,如果希望機器學習方法產(chǎn)生的勢能函數(shù)在所有感興趣的實際場景中都與原始的量子力學模型一樣精確可靠,那么訓練數(shù)據(jù)集就需要能夠?qū)λ羞@些不同場景都具有充分的代表性。另一方面,由于標注數(shù)據(jù)是用量子力學模型計算出來的,而這些計算是比較昂貴的,所以希望數(shù)據(jù)集盡可能小。這就需要一種自適應數(shù)據(jù)生成算法,它能夠幫助人工智能在學習過程中動態(tài)生成“最優(yōu)”數(shù)據(jù)集。
ELT算法就是為了解決這個問題。它由探索(exploration)、標注(labeling)和訓練(training)3個部分組成,因此得名ELT。ELT可以從沒有數(shù)據(jù)和粗糙的初始勢能函數(shù)開始。在探索過程中,使用一些采樣算法(如某種分子動力學方法)來探索不同的原子構(gòu)象。對于遇到的每個構(gòu)象,可以計算出一個指標值來查看是否需要對其進行標注。然后將標注好的數(shù)據(jù)添加到訓練數(shù)據(jù)集中,并基于它定期更新對勢能函數(shù)的逼近。
該算法的關鍵在于采樣方案和如何計算指標值。采樣方案的基本思想是僅探索實際感興趣且缺乏足夠多的訓練數(shù)據(jù)的構(gòu)象空間。指標值的關鍵在于判別哪些構(gòu)象附近還缺乏足夠多的訓練數(shù)據(jù)。對于后者,ELT方案采用的方案是訓練一組近似勢能函數(shù)。這組近似勢能函數(shù)之間的標準差定義為指示函數(shù)。對當前采樣到的構(gòu)象,如果其指示函數(shù)值超過了閾值,就對該構(gòu)象作標注。其背后的邏輯是,如果這個構(gòu)象附近有足夠多的訓練數(shù)據(jù),那么不同網(wǎng)絡預測的勢能函數(shù)值都應該非常準確且彼此接近。大的標準差表明附近沒有足夠多的訓練數(shù)據(jù),因此應該對當前構(gòu)象進行標注并加到訓練數(shù)據(jù)集中。對于采樣算法,選擇帶偏差的分子動力學,其中偏差勢函數(shù)由當前對勢能函數(shù)的逼近來定義,并由其準確性的置信區(qū)間大小來定義權(quán)重。其背后的邏輯是,如果當前已經(jīng)得到的勢能函數(shù)在一個區(qū)域范圍足夠準確,那么應該離開這個區(qū)域而到其他地方進行采樣。
有了這些主要組件,確實可以為一大類(如果不是全部的話)原子體系提供具有第一性原理精度的勢能函數(shù)。所得的模型稱為深度勢能分子動力學(deep potential molecular dynamics,DeePMD)。它是一個可靠的、具有第一性原理精度的原子模擬工具。結(jié)合高性能計算,它將以第一性原理精度分子動力學模擬的能力從只能處理數(shù)千個原子的體系擴展到處理170億個原子的體系。DeePMD軟件包DeePMD-kit也大大降低了DeePMD的使用門檻。
類似的想法可以應用于其他物理模型。例如,可以用高度準確的量子化學計算數(shù)據(jù)來訓練更通用、更準確的密度泛函模型。還可以開發(fā)更準確、更可靠的粗粒化分子動力學模型,以及更準確的動力學方程的矩陣模型等。事實上,機器學習正是過去多尺度、多物理建模所缺少的工具。
除了基本原理的模型之外,人工智能方法還可以提供更高效、更準確的反演算法,從而增強實驗表征能力。先前討論過的基于人工智能的算法可以為正問題提供更逼真、更準確的數(shù)據(jù),而神經(jīng)網(wǎng)絡中的可微分結(jié)構(gòu)可以幫助設計解決反問題的優(yōu)化或采樣算法。這項工作仍處于早期階段,但它是一個有巨大發(fā)展空間的方向。
人工智能方法還有可能改變?nèi)藗兝梦墨I和現(xiàn)有科學知識的方式。文獻和現(xiàn)有科學知識是科研靈感的主要來源之一。然而,利用好這些資源也是一個非常艱巨的任務:需要從大量信息中挖掘出相關文獻和知識,并需要花大量時間來閱讀和研究它們。然而,可以利用人工智能數(shù)據(jù)庫和大語言模型來收集和整合這些信息并更有效地查詢這些信息。原則上,對于感興趣的任何研究課題,都可以使用人工智能工具快速總結(jié)文獻中的相關信息及其來源。人工智能技術甚至可以幫助建議一些進一步的研究方向。這將大大提高科學研究的效率。
隨著這些新的可能性的出現(xiàn),可以探索一種新的科研范式,并把它稱為科學研究的“安卓范式”。在這個新范式下,科學界將共同努力建立起一套新的基礎設施,包括用于基本原理的人工智能算法、人工智能賦能的實驗設施和新的知識數(shù)據(jù)庫。這些平臺構(gòu)成了科學研究的“安卓平臺”。無論是尋找特定化學反應中的催化劑還是設計新電池,這些針對特定應用的研究工作都可以在這個“安卓平臺”上進行。這無疑將加快科學研究的進程。
這種橫向整合的觀點也將有助于打破學科壁壘,加強跨學科的研究和教育。橫向整合的觀點本身并不新,由于缺乏有效的工具,過去它難以帶來實質(zhì)性的進展。如前所述,人工智能方法提供了大大改進這些橫向工具的空間。這些新的橫向工具,例如新的查閱文獻和現(xiàn)有科研數(shù)據(jù)的平臺,以及自動化、智能化的實驗平臺,使得科研人員能夠從橫向的角度更有效地看待不同的科研場景。例如,對原子體系,生物學關注的是生物大分子,材料科學關注凝聚態(tài)體系;化學比較關注小分子,化工領域則比較關注高分子。而從理論工具的角度來說,無論哪種體系,都離不開電子結(jié)構(gòu)方法和分子動力學方法。實驗工具則包括不同尺度的光譜和顯微鏡成像技術。盡管不同領域關注不同體系,這些不同領域的工具和知識都應該可以最大程度地共享。在這個框架下,學科之間的界限也就自然消失。
我國AI for Science的發(fā)展現(xiàn)狀
帶著這一愿景,筆者團隊在2018年啟動了DeepModeling開源平臺。這個平臺的目的是邀請科學界共同努力,為物理建模和數(shù)據(jù)分析建立基于人工智能方法的基礎設施。到目前為止,它已經(jīng)產(chǎn)生了巨大的影響力并吸引了許多的開發(fā)者,在中國,AI for Science的發(fā)展呈現(xiàn)出令人欣慰的良好局面。所有這些,都為AI for Science在中國的發(fā)展奠定了良好的基礎。
在短短幾年內(nèi),AI for Science的重要性和它帶來的巨大發(fā)展空間已經(jīng)得到了廣泛的認可。一大批各個領域的領軍學者都高度重視AI for Science這一機會。2024年初《中國科學院院刊》策劃組織“大力推進科研范式變革”專題,就是一個例證。
一批專注于AI for Science的研究團隊正在出現(xiàn)并展示出良好的勢頭。經(jīng)過3年多的醞釀,北京科學智能研究院于2021年9月在北京市的支持下正式成立。這是國際上第1個專注于AI for Science的研究機構(gòu),致力于打造AI for Science時代的基礎設施。除此之外,還有中國科學技術大學的機器化學家團隊、廈門大學嘉庚創(chuàng)新實驗室的AI for Electrochemisty團隊等。
一批企業(yè)也在AI for Science方向積極布局。這體現(xiàn)了產(chǎn)業(yè)界對AI for Science的巨大信心。在AI for Science的旗幟下聚集了一大批有能力、有決心、有干勁的青年產(chǎn)業(yè)人員。
科學技術部、國家自然科學基金委員會等國家機構(gòu)和北京市、上海市等地方政府都在積極出臺政策,支持AI for Science的研究。2022年,國家自然科學基金委員會交叉科學部首先推出“可解釋、可通用的下一代人工智能重大研究計劃”,AI for Science是其中一個重要組成部分。
建議
如今的良好基礎并不代表AI for Science在中國的健康發(fā)展已經(jīng)板上釘釘。對一個領域的發(fā)展來說,成為熱點是一把雙刃劍。越是熱點,就越容易產(chǎn)生泡沫。如何才能保證利用好這個機會,讓AI for Science帶動我國在下一次科技創(chuàng)新和產(chǎn)業(yè)變革的浪潮中走在最前沿?本文提出以下4個方面具體建議。
要有具有高度前瞻性的頂層設計。頂層設計必須把基礎設施建設放在第1位。基礎設施建設周期長、任務重、困難大,但從長遠發(fā)展的角度來說,它的重要性毋庸置疑。過去的幾年里,我們目睹一些領域長期的表面繁榮在一夜之間被打回原型的例子,這與先進國家相比呈現(xiàn)出巨大差距。究其原因,都是因為沒有在基礎設施上下足夠的功夫。
要有理性的資源分配機制。要讓有能力、有動力、真正活躍在一線的科研人員得到他們應該得到的資源,非理性的資源分配體系所造成的負面影響不僅僅是資源的浪費,更是不正學風的根本原因。要徹底打破靠資歷、靠宣傳、靠關系和“分蛋糕”的資源分配體系。
要積極推進開放和合作共贏的理念。科學研究本來就是所有科研人員共同的事業(yè)。在AI for Science的新框架下,“自給自足、小農(nóng)作坊”的研究模式將難以適合未來發(fā)展的需求。只有合作共贏,才能充分調(diào)動科研人員的潛力和積極性,加快提升整體科研創(chuàng)新的能力。
要加強學術風氣的建設。學術風氣是決定中國科技創(chuàng)新能不能成功的最重要的因素之一,也是決定AI for Science在中國能不能順利發(fā)展的最重要的因素之一。要積極鼓勵年輕人提出新思想、新觀念,鼓勵對各種學術觀點的質(zhì)疑和挑戰(zhàn),積極倡導實事求是、有一說一的風氣。讓學術會議和學術討論回歸其本來的目標。讓一些專注于搞虛假宣傳、在領導面前畫大餅的風氣在中國失去生存的空間。
希望我國科學家珍惜目前AI for Science的良好發(fā)展勢頭,緊密合作,緊緊抓住AI for Science這個千載難逢的機會,爭取在下一輪的科技創(chuàng)新浪潮中走在前沿,為人類的科技發(fā)展作出應有的貢獻。
(作者:鄂維南,北京大學 北京科學智能研究院。 《中國科學院院刊》供稿)