人工智能驅(qū)動的生命科學(xué)研究新范式
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 2007年,圖靈獎得主吉姆·格雷(Jim Gray)提出了科學(xué)研究的四類范式,這些范式基本上被科學(xué)界廣泛認(rèn)可。第一范式是實(shí)驗(yàn)(經(jīng)驗(yàn))科學(xué),主要通過實(shí)驗(yàn)或經(jīng)驗(yàn)來描述自然現(xiàn)象并總結(jié)規(guī)律;第二范式是理論科學(xué),科學(xué)家通過數(shù)學(xué)模型進(jìn)行歸納總結(jié)形成科學(xué)理論;第三范式是計(jì)算科學(xué),利用計(jì)算機(jī)對科學(xué)實(shí)驗(yàn)進(jìn)行模擬仿真;第四范式是數(shù)據(jù)科學(xué),利用儀器收集或仿真計(jì)算產(chǎn)生的大量數(shù)據(jù)進(jìn)行分析與知識提取。科學(xué)研究的范式變革體現(xiàn)了人類對宇宙探索的深度、廣度、方式和效率的演進(jìn)。
生命科學(xué)的發(fā)展經(jīng)歷了多個(gè)階段,其研究范式的演進(jìn)也有其獨(dú)特的學(xué)科屬性。在生命科學(xué)早期發(fā)展階段,生物學(xué)家主要通過觀察不同生物體的形態(tài)和行為模式來探索生物存在的一般形式和演化的共同規(guī)律,這一階段的代表是達(dá)爾文,通過全球考察積累了大量物種的表象描述資料,并以此提出了進(jìn)化論。從20世紀(jì)中葉開始,以DNA雙螺旋結(jié)構(gòu)的揭示為標(biāo)志,生命科學(xué)研究進(jìn)入了分子生物學(xué)時(shí)代,生物學(xué)家開始在更深層次水平研究生命的基本組成和運(yùn)作規(guī)律。在這一階段,生物學(xué)家仍主要通過對生物現(xiàn)象的觀察和實(shí)驗(yàn)來總結(jié)規(guī)律與知識。隨著生命科學(xué)的進(jìn)一步發(fā)展和新型生物技術(shù)的快速涌現(xiàn),科學(xué)家可以對生命科學(xué)在不同層級和不同分辨率下進(jìn)行更為廣泛的探索,這也使得生命科學(xué)領(lǐng)域的數(shù)據(jù)呈現(xiàn)爆發(fā)性增長。通過高通量、多維度組學(xué)數(shù)據(jù)分析與實(shí)驗(yàn)科學(xué)結(jié)合的方式對生物過程進(jìn)行更加精細(xì)的描述和解析,成為現(xiàn)代生命科學(xué)研究的常態(tài)。
然而,生命系統(tǒng)具有多層面的復(fù)雜性,涵蓋了從分子、細(xì)胞到個(gè)體不同層次,以及個(gè)體間的種群關(guān)系、機(jī)體與環(huán)境的互作關(guān)系,展現(xiàn)出多層級、高維度、高度互聯(lián)、動態(tài)調(diào)控的特點(diǎn)。現(xiàn)有的實(shí)驗(yàn)科學(xué)研究范式在面對如此復(fù)雜的生命系統(tǒng)時(shí),往往只能從特定尺度對有限數(shù)量的樣本進(jìn)行觀察描述和研究,難以全面理解生物網(wǎng)絡(luò)的運(yùn)作機(jī)制;并且高度依賴人的經(jīng)驗(yàn)和先驗(yàn)知識對特定生物關(guān)系進(jìn)行探索,難以從大規(guī)模、多樣性、高維度數(shù)據(jù)中高效提取隱匿的關(guān)聯(lián)和機(jī)制。面對生命現(xiàn)象中復(fù)雜的非線性關(guān)系和難以預(yù)測的特征,人工智能(AI)技術(shù)展現(xiàn)出強(qiáng)大的能力,并且已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因調(diào)控網(wǎng)絡(luò)模擬解析方面表現(xiàn)出顛覆性的應(yīng)用潛力,將生命科學(xué)研究由實(shí)驗(yàn)科學(xué)為主的第一范式推向以人工智能驅(qū)動的生命科學(xué)研究新范式——第五范式(圖1)。
本文將從AI驅(qū)動的生命科學(xué)研究典型范例、生命科學(xué)研究新范式的內(nèi)涵和關(guān)鍵要素、新范式賦能的生命科學(xué)研究前沿及我國面臨的挑戰(zhàn)3個(gè)方面進(jìn)行系統(tǒng)論述。
人工智能驅(qū)動的生命科學(xué)研究典型范例
生命是一個(gè)多層次、多尺度、動態(tài)互聯(lián)、相互影響的復(fù)雜系統(tǒng)。在面對生命現(xiàn)象的極端復(fù)雜性、多尺度跨越和時(shí)空動態(tài)變化時(shí),傳統(tǒng)的生命科學(xué)研究范式往往只能從局部入手,通過實(shí)驗(yàn)驗(yàn)證或有限層次的組學(xué)數(shù)據(jù)分析建立有限生物分子和表型的關(guān)聯(lián)關(guān)系。然而,即使花費(fèi)巨大成本,也通常只能發(fā)現(xiàn)特定情境下的單一線性關(guān)聯(lián)機(jī)制,與生命活動的非線性屬性在復(fù)雜度上存在顯著差異,難以全面理解整個(gè)網(wǎng)絡(luò)的運(yùn)作機(jī)制。
AI技術(shù),尤其是深度學(xué)習(xí)和預(yù)訓(xùn)練大模型等技術(shù),以其優(yōu)越的模式識別和特征提取能力,能夠在龐大的參數(shù)堆疊情況下超越人類理性推理能力,從數(shù)據(jù)中更好地理解復(fù)雜生物系統(tǒng)中的規(guī)律。現(xiàn)代生物技術(shù)的不斷發(fā)展,使生命科學(xué)領(lǐng)域的數(shù)據(jù)呈現(xiàn)跨越式增長,在過去全球范圍生命科學(xué)研究中,人類已經(jīng)積累了大量基于實(shí)驗(yàn)描述和驗(yàn)證的數(shù)據(jù),為AI破解生命科學(xué)底層規(guī)律創(chuàng)造了基礎(chǔ)]。當(dāng)擁有充足且高質(zhì)量的數(shù)據(jù)和適配于生命科學(xué)的算法時(shí),AI模型就能夠在多層次的海量數(shù)據(jù)中以“低維”數(shù)據(jù)預(yù)測“高維”信息及規(guī)律,實(shí)現(xiàn)從基因序列和表達(dá)等低維數(shù)據(jù)到細(xì)胞、機(jī)體等高維復(fù)雜生物過程規(guī)律揭示的跨越,解析復(fù)雜的非線性關(guān)系,如生物大分子結(jié)構(gòu)生成規(guī)律、基因表達(dá)調(diào)控機(jī)制,甚至個(gè)體發(fā)育、衰老等多因素交叉的復(fù)雜生物系統(tǒng)中的底層規(guī)律。在此發(fā)展趨勢下,近年來生命科學(xué)領(lǐng)域涌現(xiàn)出了蛋白質(zhì)結(jié)構(gòu)解析、基因調(diào)控規(guī)律解析等一批AI驅(qū)動生命科學(xué)研究發(fā)展的典型范例。
蛋白質(zhì)結(jié)構(gòu)解析范例
蛋白質(zhì)作為生物體內(nèi)關(guān)鍵功能的執(zhí)行者,其結(jié)構(gòu)直接影響運(yùn)輸、催化、結(jié)合和免疫功能等重要的生物過程。雖然測序技術(shù)可以揭示蛋白質(zhì)所包含的氨基酸序列,但任何一個(gè)已知氨基酸序列的蛋白質(zhì)鏈有可能折疊成天文數(shù)字中的任何一種可能構(gòu)象,這使得準(zhǔn)確解析蛋白質(zhì)結(jié)構(gòu)成為長期以來的挑戰(zhàn)。利用傳統(tǒng)技術(shù)如核磁共振、X射線晶體分析、冷凍電子顯微鏡等解析已知序列的蛋白質(zhì)結(jié)構(gòu)方法,需要數(shù)年時(shí)間才能描繪出單個(gè)蛋白質(zhì)的形狀,昂貴耗時(shí)且不能保證成功解析其結(jié)構(gòu)。因此,捕獲蛋白質(zhì)折疊的底層規(guī)律從而實(shí)現(xiàn)對蛋白質(zhì)結(jié)構(gòu)的精準(zhǔn)預(yù)測,一直是結(jié)構(gòu)生物學(xué)領(lǐng)域最重要的挑戰(zhàn)之一。
AlphaFold 2利用基于注意力機(jī)制的深度學(xué)習(xí)算法,對大量蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)進(jìn)行訓(xùn)練,并結(jié)合物理學(xué)、化學(xué)和生物學(xué)的先驗(yàn)知識,構(gòu)建了包含特征提取、編碼、解碼模塊的蛋白質(zhì)結(jié)構(gòu)解析模型。在2020年國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP14)中,AlphaFold 2取得了矚目的成績,其蛋白質(zhì)三維結(jié)構(gòu)預(yù)測準(zhǔn)確性甚至可與實(shí)驗(yàn)解析的結(jié)果相媲美。這一突破為生命科學(xué)領(lǐng)域帶來了全新的視角和前所未有的機(jī)遇,主要體現(xiàn)在3點(diǎn)。
對藥物發(fā)現(xiàn)領(lǐng)域產(chǎn)生了直接影響。大多數(shù)藥物通過與體內(nèi)蛋白質(zhì)特殊結(jié)構(gòu)域的結(jié)合而引發(fā)蛋白質(zhì)功能的變化,AlphaFold 2能夠快速計(jì)算出海量目標(biāo)蛋白質(zhì)的結(jié)構(gòu),從而有針對性地設(shè)計(jì)藥物以有效地與這些蛋白質(zhì)結(jié)合。
對蛋白質(zhì)的理性設(shè)計(jì)提供了新的可能性。一旦AI對蛋白質(zhì)折疊的底層規(guī)律有了深刻理解,就可以利用這一知識設(shè)計(jì)出折疊成所需結(jié)構(gòu)的蛋白質(zhì)序列。這使得生物學(xué)家可以根據(jù)需求自由設(shè)計(jì)和改造蛋白質(zhì)或酶的結(jié)構(gòu),如設(shè)計(jì)更高活性的基因編輯酶,甚至是自然界中不存在的蛋白質(zhì)結(jié)構(gòu)。同時(shí)也推動了人們對基因編碼信息在蛋白質(zhì)層面結(jié)構(gòu)投射規(guī)律的理解,并將大幅提高人類對生命的改造能力。
AlphaFold 2徹底改變蛋白質(zhì)結(jié)構(gòu)解析領(lǐng)域的研究范式。從只能通過費(fèi)時(shí)費(fèi)力的傳統(tǒng)實(shí)驗(yàn)技術(shù)解析蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)變?yōu)榈烷T檻、高精度、高通量地預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的新范式,證明通過將蛋白質(zhì)知識和AI技術(shù)相結(jié)合,可以提取和學(xué)習(xí)到高維、復(fù)雜的知識,促進(jìn)對蛋白質(zhì)物理結(jié)構(gòu)和功能的更深入理解。
基因調(diào)控規(guī)律解析范例
人類基因組計(jì)劃被譽(yù)為20世紀(jì)人類三大科學(xué)計(jì)劃之一,揭開了生命奧秘的序幕。盡管編碼生命個(gè)體的遺傳信息存儲在DNA序列中,但每個(gè)細(xì)胞的命運(yùn)和表型卻因其獨(dú)特的時(shí)空背景而千差萬別。這種復(fù)雜的生命過程由精細(xì)的基因表達(dá)調(diào)控系統(tǒng)所控制,而探索生命普遍存在的基因調(diào)控機(jī)制是繼人類基因組計(jì)劃之后最為重要的生命科學(xué)問題之一。不同細(xì)胞的基因表達(dá)譜是理解生物系統(tǒng)內(nèi)基因調(diào)控活動的理想窗口。然而,僅通過生物學(xué)實(shí)驗(yàn)全面解讀基因調(diào)控機(jī)制,需要捕獲不同生物個(gè)體的不同細(xì)胞類型在不同環(huán)境背景下的對照試驗(yàn)來觀察。傳統(tǒng)生物信息分析方法只能處理少量數(shù)據(jù),對大規(guī)模、高維度且缺乏準(zhǔn)確標(biāo)注的生物組大數(shù)據(jù)難以捕捉數(shù)據(jù)中復(fù)雜的非線性關(guān)系。
近年來,自然語言處理技術(shù)的不斷突破,特別是大語言模型的迅猛發(fā)展,能夠通過訓(xùn)練語料數(shù)據(jù)使模型具有理解人類語言描述知識的能力,為解決這一領(lǐng)域問題帶來了新思路。國際多個(gè)研究團(tuán)隊(duì)借鑒大語言模型的訓(xùn)練思路,相繼基于數(shù)以千萬計(jì)的人類單細(xì)胞轉(zhuǎn)錄組譜數(shù)據(jù)和龐大的算力資源,利用Transformer等先進(jìn)算法和多種生物學(xué)知識,構(gòu)建了多個(gè)具有理解基因動態(tài)關(guān)系能力的生命基礎(chǔ)大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。這些生命基礎(chǔ)大模型以基因表達(dá)等底層生命活動信息為訓(xùn)練基礎(chǔ),利用機(jī)器來學(xué)習(xí)理解這些“低維”的生命科學(xué)數(shù)據(jù)與復(fù)雜“高維”的基因表達(dá)調(diào)控網(wǎng)絡(luò)、細(xì)胞命運(yùn)轉(zhuǎn)變等底層生命機(jī)制之間的關(guān)聯(lián)性和對應(yīng)規(guī)律,實(shí)現(xiàn)以低維數(shù)據(jù)對高維信息的有效模擬和預(yù)測。這種對基因表達(dá)調(diào)控網(wǎng)絡(luò)的模擬可以在廣泛的下游任務(wù)中表現(xiàn)出卓越性能,為深入理解基因調(diào)控規(guī)律提供了全新的途徑。
現(xiàn)有的AI驅(qū)動生命科學(xué)研究的成功案例向我們證明,面對更深入、更系統(tǒng)的生命科學(xué)問題,AI有望突破傳統(tǒng)研究方法難以解決的困境、構(gòu)建從基礎(chǔ)生物層次到整個(gè)生命系統(tǒng)的投射理論體系,并進(jìn)一步推動生命科學(xué)向更高階段發(fā)展,開啟生命科學(xué)研究的新范式。
生命科學(xué)研究新范式的內(nèi)涵和關(guān)鍵要素
隨著生物技術(shù)的不斷進(jìn)步、生命科學(xué)數(shù)據(jù)的快速增長、AI技術(shù)的飛速發(fā)展及其與生命領(lǐng)域的深度交叉融合,AI展示出了對生命科學(xué)知識的深入理解和泛化能力,不僅提高了生命科學(xué)的研究高度和廣度,也促使生命科學(xué)研究由實(shí)驗(yàn)科學(xué)為主的第一范式,跨越進(jìn)入AI驅(qū)動的生命科學(xué)研究新范式(第五范式,以下簡稱“新范式”)。
通過深入剖析AI驅(qū)動生命科學(xué)研究的典型范例,筆者認(rèn)為,生命科學(xué)研究的新范式正如一臺智能化的新能源汽車,對標(biāo)新能源汽車的電池系統(tǒng)、電控系統(tǒng)、電機(jī)系統(tǒng)、輔助駕駛系統(tǒng)、底盤系統(tǒng)等核心技術(shù),新范式應(yīng)具備生命科學(xué)大數(shù)據(jù)、智能算法模型、算力平臺、專家先驗(yàn)知識和交叉研究團(tuán)隊(duì)五大關(guān)鍵要素(圖2)。猶如電池系統(tǒng)為車輛提供能量,生命科學(xué)大數(shù)據(jù)為科學(xué)研究提供基礎(chǔ)資源;算法模型則像智能電控系統(tǒng),賦能深入理解生物系統(tǒng)的運(yùn)行機(jī)制;算力平臺可比喻為電機(jī)系統(tǒng),負(fù)責(zé)處理海量的科學(xué)數(shù)據(jù)和復(fù)雜的計(jì)算任務(wù);專家先驗(yàn)知識則像輔助駕駛系統(tǒng),為科學(xué)家提供方向引領(lǐng)和實(shí)施經(jīng)驗(yàn);交叉研究團(tuán)隊(duì)類似于底盤系統(tǒng),負(fù)責(zé)整合不同領(lǐng)域的知識和技能,通過跨學(xué)科合作提高研究效率,推動生命科學(xué)的發(fā)展。
關(guān)鍵要素一:生命科學(xué)大數(shù)據(jù)
生命科學(xué)大數(shù)據(jù)是新范式“汽車”的“電池”系統(tǒng)。隨著新型生物技術(shù)的發(fā)展,具有多模態(tài)、多維度、分布分散、關(guān)聯(lián)隱匿、多層次交匯等特點(diǎn)的生命科學(xué)大數(shù)據(jù)逐漸形成;只有對生命科學(xué)大數(shù)據(jù)進(jìn)行有效整合并利用創(chuàng)新AI技術(shù)充分挖掘數(shù)據(jù),才能夠打破人類科學(xué)家的認(rèn)知局限、促進(jìn)新發(fā)現(xiàn)的產(chǎn)生并拓展生命科學(xué)的探索范圍。例如醫(yī)療視覺大模型,通過整合多來源、多模態(tài)、多任務(wù)的醫(yī)療圖像數(shù)據(jù),實(shí)現(xiàn)了在少樣本和零樣本條件下的多種應(yīng)用;跨物種生命基礎(chǔ)大模型GeneCompass,通過有效整合全球開源的單細(xì)胞數(shù)據(jù),在超過1.2億個(gè)單細(xì)胞的訓(xùn)練數(shù)據(jù)集上實(shí)現(xiàn)了對基因表達(dá)調(diào)控規(guī)律的全景式學(xué)習(xí)理解等多個(gè)生命科學(xué)問題的分析。
關(guān)鍵要素二:智能算法模型
智能算法模型是新范式“汽車”的“電控”系統(tǒng)。從浩如煙海的生命科學(xué)大數(shù)據(jù)中涌現(xiàn)生命的新規(guī)律和新知識,需要創(chuàng)新AI算法和模型;如何研發(fā)利用生命科學(xué)適配的AI算法、提取有效的生物特征、構(gòu)建大規(guī)模生物過程動態(tài)模型,是當(dāng)前新范式的中心問題。例如,Gerstein團(tuán)隊(duì)使用貝葉斯網(wǎng)絡(luò)算法預(yù)測蛋白質(zhì)相互作用的成果發(fā)表于Science,為經(jīng)典機(jī)器學(xué)習(xí)在生物信息領(lǐng)域發(fā)展奠定了基礎(chǔ);圖卷積神經(jīng)網(wǎng)絡(luò)算法被用于分析蛋白質(zhì)—蛋白質(zhì)相互作用網(wǎng)絡(luò)和基因調(diào)控網(wǎng)絡(luò)等生物分子網(wǎng)絡(luò),拓展了生命科學(xué)領(lǐng)域的研究方向;AlphaFold 2使用Transformer模型,能夠在高準(zhǔn)確度的基礎(chǔ)上快速計(jì)算出大量蛋白質(zhì)的結(jié)構(gòu),都展示出了AI算法模型在生命科學(xué)研究新范式中的重要性。
關(guān)鍵要素三:算力平臺
算力平臺是新范式“汽車”的“電機(jī)”系統(tǒng)。算力是實(shí)現(xiàn)AI運(yùn)行的基礎(chǔ),深度學(xué)習(xí)、大模型技術(shù)等適用于生命科學(xué)研究新范式的AI算法模型的不斷發(fā)展,使AI模型訓(xùn)練需要更強(qiáng)大、更高效的算力平臺支持。面向新范式,未來應(yīng)構(gòu)建能夠支撐AI賦能生命科學(xué)研究的硬件能力平臺,包括建設(shè)高速大容量存儲系統(tǒng)、構(gòu)建高性能高吞吐量超級計(jì)算機(jī)、研發(fā)專門用于處理生命科學(xué)數(shù)據(jù)的芯片、設(shè)計(jì)用于加速生物模型推理和訓(xùn)練的專用處理器等,為生命科學(xué)研究提供高效、可靠的計(jì)算和處理能力,以應(yīng)對生命科學(xué)領(lǐng)域產(chǎn)生的海量數(shù)據(jù)、滿足生命科學(xué)領(lǐng)域復(fù)雜模型構(gòu)建的計(jì)算需求,保障AI在生命科學(xué)領(lǐng)域的應(yīng)用和創(chuàng)新。
關(guān)鍵要素四:專家先驗(yàn)知識
專家先驗(yàn)知識是新范式“汽車”的“輔助駕駛”系統(tǒng)。新范式下,已有的生命科學(xué)知識將為AI算法模型提供寶貴的訓(xùn)練約束條件、重要的背景和特征關(guān)系,幫助解釋和理解生命科學(xué)數(shù)據(jù)的復(fù)雜性、驗(yàn)證和優(yōu)化AI在生命科學(xué)領(lǐng)域的應(yīng)用;能夠在AI算法設(shè)計(jì)和模型構(gòu)建時(shí)發(fā)揮重要的指導(dǎo)作用,促進(jìn)更加準(zhǔn)確、高效地解決生命科學(xué)問題,推動生命科學(xué)研究向更深入、全面的方向發(fā)展。例如,通過嵌入生命科學(xué)專家先驗(yàn)知識和人類注釋信息編碼,新型基因表達(dá)預(yù)訓(xùn)練大模型提高了對生物數(shù)據(jù)間復(fù)雜特征關(guān)聯(lián)關(guān)系的解釋,展示出更為優(yōu)異的模型表現(xiàn)。
關(guān)鍵要素五:交叉研究團(tuán)隊(duì)
交叉研究團(tuán)隊(duì)是新范式“汽車”的“底盤”系統(tǒng)。新范式下,一支由AI專家、數(shù)據(jù)科學(xué)家、生物學(xué)家和醫(yī)學(xué)家等組成的多學(xué)科交叉研究團(tuán)隊(duì)對于實(shí)現(xiàn)跨越式的生命科學(xué)發(fā)現(xiàn)至關(guān)重要。多元背景緊密協(xié)作的交叉研究團(tuán)隊(duì)能夠整合AI、生物學(xué)、醫(yī)學(xué)等領(lǐng)域的專業(yè)知識,提供多元化的視角和方法,為全面理解和解決生命科學(xué)中的復(fù)雜機(jī)制問題提供牢固基礎(chǔ),為創(chuàng)新性解決方案提供更多可能性,從而推動生命科學(xué)領(lǐng)域的突破性發(fā)現(xiàn)和進(jìn)展。
新范式賦能的生命科學(xué)研究前沿及我國面臨的挑戰(zhàn)
傳統(tǒng)的研究范式對生命的探索如同管中窺豹,生物學(xué)家在生命科學(xué)的不同細(xì)分領(lǐng)域各自奮戰(zhàn)。隨著新范式的不斷發(fā)展,生命科學(xué)研究將迎來以AI預(yù)測、指導(dǎo)、提出假說、驗(yàn)證假設(shè)為特點(diǎn)的新型研究模態(tài),迸發(fā)出一批快速發(fā)展的生命科學(xué)新范式前沿研究方向,并展現(xiàn)出新范式變革帶來的發(fā)展增益。然而,在當(dāng)前條件下加速推進(jìn)我國生命科學(xué)研究新范式的建立和推廣,仍面臨一系列巨大的挑戰(zhàn)。
新范式賦能的生命科學(xué)研究前沿
結(jié)構(gòu)生物學(xué)。目前在結(jié)構(gòu)生物學(xué)領(lǐng)域,以AlphaFold為代表的AI應(yīng)用技術(shù)仍停留在“從序列到結(jié)構(gòu)”的蛋白質(zhì)結(jié)構(gòu)預(yù)測和設(shè)計(jì)階段,還無法實(shí)現(xiàn)復(fù)雜生理?xiàng)l件下蛋白質(zhì)結(jié)構(gòu)和功能的模擬與預(yù)測。更高質(zhì)量、更大規(guī)模的蛋白質(zhì)數(shù)據(jù)和新型算法的出現(xiàn),將有望對不同生理狀態(tài)和時(shí)空條件下的生物大分子結(jié)構(gòu)和功能進(jìn)行系統(tǒng)解析,并實(shí)現(xiàn)蛋白質(zhì)“從序列到功能”甚至“從序列到多尺度相互作用”的智能化結(jié)構(gòu)解析與精細(xì)設(shè)計(jì)。
系統(tǒng)生物學(xué)。當(dāng)前的組學(xué)數(shù)據(jù)分析仍局限于較低維度的生物組學(xué)觀測水平,還未形成從基因水平到細(xì)胞水平甚至生物個(gè)體乃至群體組學(xué)水平的全維度觀測。新范式將融通多維度、多模態(tài)的生物大數(shù)據(jù)和專家先驗(yàn)知識,提取生物表型的關(guān)鍵特征,構(gòu)建多尺度生物過程解析模型,還原復(fù)雜生物系統(tǒng)運(yùn)行的底層規(guī)律,形成基礎(chǔ)而廣泛適用的系統(tǒng)生物學(xué)研究新體系。
遺傳學(xué)。隨著多組學(xué)數(shù)據(jù)的積累和新型基因大模型的出現(xiàn),遺傳學(xué)研究已進(jìn)入新范式推動的快速發(fā)展階段,基于基因表達(dá)譜數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練大模型有望成為解析基因調(diào)控規(guī)律、預(yù)測疾病靶點(diǎn)的有力工具,拓展遺傳學(xué)研究的探索邊界。
藥物設(shè)計(jì)開發(fā)。隨著AlphaFold的出現(xiàn)和一批分子動力學(xué)模型的發(fā)展,AI模型已經(jīng)被用于預(yù)測和篩選藥物候選分子。未來新范式將進(jìn)一步推動該領(lǐng)域的發(fā)展,有望出現(xiàn)AI輔助的全流程藥物設(shè)計(jì)開發(fā)體系,能夠自主完成藥物結(jié)構(gòu)和性質(zhì)的優(yōu)化設(shè)計(jì)、實(shí)現(xiàn)候選藥物的有效性和安全性模擬預(yù)測、生成藥物的高效合成和生產(chǎn)工藝方案,極大加速藥物的開發(fā)和生產(chǎn)過程。
精準(zhǔn)醫(yī)學(xué)。計(jì)算機(jī)視覺、自然語言處理和機(jī)器學(xué)習(xí)等AI技術(shù)已廣泛滲透到生物影像、醫(yī)學(xué)影像、疾病智能分析及靶點(diǎn)預(yù)測等精準(zhǔn)醫(yī)學(xué)子領(lǐng)域。例如,基于AI的診斷系統(tǒng)在準(zhǔn)確度上已經(jīng)可以媲美甚至在某些方面超過資深的臨床醫(yī)生。然而,現(xiàn)有的模型大多受制于數(shù)據(jù)的偏好性,存在魯棒性差、通用性低等問題,隨著新范式驅(qū)動的通用精準(zhǔn)醫(yī)學(xué)模型的出現(xiàn),將有助于更加快速準(zhǔn)確地診斷疾病、解析疾病的分子機(jī)制、發(fā)現(xiàn)新的治療靶點(diǎn),提高人類的健康水平。
我國生命科學(xué)研究新范式面臨的挑戰(zhàn)
面對生命科學(xué)研究新范式發(fā)展的新形勢、新要求,我國仍面臨高質(zhì)量生命科學(xué)數(shù)據(jù)資源體系缺乏、AI關(guān)鍵技術(shù)與基礎(chǔ)設(shè)施不足、新范式下的交叉創(chuàng)新科研新生態(tài)匱乏等方面的巨大挑戰(zhàn)。
高質(zhì)量生命科學(xué)數(shù)據(jù)資源體系缺乏
盡管我國在生命領(lǐng)域的科研投入持續(xù)增加,但在一些前沿領(lǐng)域,我國科學(xué)家仍依賴國外高質(zhì)量數(shù)據(jù),而國內(nèi)數(shù)據(jù)的建設(shè)和使用相對滯后,我國生命科學(xué)數(shù)據(jù)資源還存在分布不均衡問題,需要更好地統(tǒng)籌協(xié)調(diào)和資源整合,實(shí)現(xiàn)高質(zhì)量生命科學(xué)數(shù)據(jù)資源的高效匯聚和系統(tǒng)化提升。此外,在生命科學(xué)數(shù)據(jù)的收集、傳輸和存儲過程中,數(shù)據(jù)安全問題亟待加強(qiáng),特別是生物數(shù)據(jù)的隱私和安全問題仍需要引起重視。
面對這些挑戰(zhàn),我國需要加強(qiáng)科學(xué)數(shù)據(jù)資源的整合與共享,推動生命科學(xué)數(shù)據(jù)資源的可持續(xù)發(fā)展,提高數(shù)據(jù)的質(zhì)量和安全性,加強(qiáng)數(shù)據(jù)管理與供給模式的變革,推動跨領(lǐng)域多模態(tài)科技資源融合服務(wù)能力的提升,以滿足新范式下科研需求的發(fā)展。
AI關(guān)鍵技術(shù)與基礎(chǔ)設(shè)施不足
我國AI驅(qū)動新科研范式的核心技術(shù)相對匱乏,自主原創(chuàng)的算法、模型、工具仍待大力發(fā)展。針對生命科學(xué)大數(shù)據(jù)的海量、高維、稀疏分布等特征,亟需發(fā)展復(fù)雜數(shù)據(jù)的先進(jìn)計(jì)算與分析方法。未來應(yīng)開發(fā)更加適合生命科學(xué)應(yīng)用的硬件、軟件和新計(jì)算介質(zhì),并在生命科學(xué)和計(jì)算科學(xué)的融合過程中,探索新的計(jì)算-生物交互模式。簡而言之,新范式研究對數(shù)據(jù)、網(wǎng)絡(luò)、算力等資源的綜合能力提出了新的要求,需要加快推進(jìn)新一代信息基礎(chǔ)設(shè)施建設(shè),解決算力“卡脖子”問題。
新范式下的交叉創(chuàng)新科研新生態(tài)匱乏
現(xiàn)有AI驅(qū)動的生命科學(xué)研究方式大多為課題組自發(fā)組合的“小作坊”模式,缺乏新范式發(fā)展所需的交叉創(chuàng)新環(huán)境。美國在2023年發(fā)布的《國家人工智能研發(fā)戰(zhàn)略計(jì)劃》更新版本中也著重強(qiáng)調(diào)了人工智能研究的跨學(xué)科交叉發(fā)展的重要性。因此,新范式下的科研生態(tài)應(yīng)鼓勵更為廣泛的多學(xué)科“大交叉”“大融合”,建立干濕結(jié)合、理實(shí)交融的新型研究模式,持續(xù)培養(yǎng)高水平復(fù)合型交叉研究人才。
在新形勢下我國也已經(jīng)開始廣泛布局和推進(jìn)交叉學(xué)科的發(fā)展。《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》中指出要推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等同各產(chǎn)業(yè)的深度融合。結(jié)合我國生命科學(xué)領(lǐng)域的實(shí)際發(fā)展情況,我國生命科學(xué)領(lǐng)域發(fā)展更應(yīng)著眼于將AI賦能生命科學(xué)研究的范式變革融入我國新時(shí)代的國家發(fā)展遠(yuǎn)景布局中,實(shí)現(xiàn)以點(diǎn)帶面的整體效應(yīng)建立更加開放的新型科研生態(tài)和發(fā)展環(huán)境。
近年來,生命科學(xué)領(lǐng)域正經(jīng)歷著前所未有的巨變,這一領(lǐng)域的發(fā)展不僅受到生物技術(shù)和信息技術(shù)的雙重推動,更受到AI技術(shù)進(jìn)步的巨大影響。這一變革的核心在于從傳統(tǒng)的主要依賴于人經(jīng)驗(yàn)的假說和實(shí)驗(yàn)驅(qū)動的科研范式向大數(shù)據(jù)和AI驅(qū)動的新研究范式的演變。這意味著我們不再僅僅依賴于實(shí)驗(yàn)和假說,而是通過大數(shù)據(jù)分析和AI技術(shù)主動揭示生命的奧秘。更廣泛的,這個(gè)演變將廣泛改變或促進(jìn)不同層面的科學(xué)研究活動的變革,涵蓋了認(rèn)識論、方法論、研究組織形式、經(jīng)濟(jì)社會及倫理法律等眾多層面。
綜合而言,我們正身臨著一個(gè)充滿變革和希望的時(shí)代,生命科學(xué)的革新與科技的進(jìn)步共同繪制出人類對生命奧秘更深層次探索的未來藍(lán)圖。可以預(yù)見,隨著通用AI的進(jìn)一步發(fā)展,生命科學(xué)研究將在不遠(yuǎn)的未來實(shí)現(xiàn)干濕融合、人機(jī)協(xié)同的新模式,迎來AI自驅(qū)抽象新知識、新規(guī)律的“預(yù)人所未見,思人所未思”的科學(xué)新時(shí)代。
(作者:李鑫,中國科學(xué)院動物研究所 北京干細(xì)胞與再生醫(yī)學(xué)研究院;于漢超,中國科學(xué)院前沿科學(xué)與教育局。《中國科學(xué)院院刊》供稿)