生命大科學:從微觀到介觀的組學研究
中國網/中國發(fā)展門戶網訊 在20世紀中葉,研究者在物理學和化學之理論與實驗技術的推動下,成功解析了蛋白質的空間結構并提出了DNA雙螺旋模型;分子生物學在此基礎上誕生,進而開啟了在分子水平上研究生命及其活動的現(xiàn)代生命科學時代。生命科學建立在還原論的基礎之上,即生物體與非生命物體沒有本質的區(qū)別,都要遵循嚴格的物理學和化學的規(guī)律,可以在分子層面上通過對個別基因或蛋白質的結構與功能來認識和闡明細胞乃至個體的生命活動。這個時期的研究者采用“碎片化”的模式來研究生命及其生理或病理活動。
但是,研究者逐漸認識到,生命活動并非是由一個個基因或蛋白質“零件”獨立完成的,而是建立在生命體內眾多基因、蛋白質和其他化學小分子形成的復雜相互作用之上;對于高等生物而言,除了分子層面復雜的相互作用網絡外,還有著細胞、組織和器官等不同介觀層面各種組分之間的相互作用。因此,生命活動是這樣一種復雜系統(tǒng)的整體行為。顯然,要真正揭開生命的奧秘,需要從整體角度來研究生命復雜系統(tǒng)的各種相互作用網絡,以及相應的生理病理活動。隨著20世紀末基因組測序技術和其他研究技術的發(fā)展,國際科學界啟動了跨世紀的“人類基因組計劃”。在這個國際大科學計劃的推動下,生命科學的研究范式逐步從局部研究策略轉變到整體研究策略,正如Nature雜志在一篇評論該計劃的社論中所說:“似乎在一夜之間就從一個基因、一個蛋白質、一個分子、一次研究一個,轉變?yōu)樗谢颉⑺械鞍踪|、所有分子、一次研究所有。一切都按組學的規(guī)模進行。”
分子層面的多組學研究
20世紀中葉興起的現(xiàn)代生命科學研究表現(xiàn)出典型的“個體戶”特征,即以眾多項目負責人(PI)領導的小規(guī)模實驗室為研究主體,可以稱為“小科學”模式。隨著世紀之交“人類基因組計劃”的啟動,生命科學領域出現(xiàn)了全新的大科學研究形態(tài)。由多個科研團隊組織起來,針對某一具體研究目標共同開展研究的“聯(lián)合體”(consortium)已經成為生命科學領域的常態(tài),如:研究精神分裂癥的國際“精神病基因組學聯(lián)合體”(Psychiatric Genomics Consortium),以及美國國立衛(wèi)生研究院(NIH)組建的“國際十萬人隊列聯(lián)合體”(International Hundred Thousand Plus Cohort Consortium)——涉及43個國家100多個人群隊列的研究。但是,生命大科學并不僅僅表現(xiàn)為研究隊伍的規(guī)模大,還有其他值得關注的特征——在此筆者著重討論以下兩個方面。
數據驅動的研究新范式
建立在分子生物學基礎上的現(xiàn)代生命科學之主流是假設驅動的研究范式:通常以解決具體的科學問題為主要目標,采用生物學實驗去分析和驗證針對特定科學問題的相關科學假設。
然而,“人類基因組計劃”等生命大科學研究卻不是科學假設所驅動,表現(xiàn)出一種數據驅動的研究新范式,其首要目標是去獲取海量的生物學數據。自“人類基因組計劃”實施以來,不僅有針對各種生物大分子的組學研究,如研究RNA表達譜的轉錄組學、研究蛋白質組成和豐度的蛋白質組學,而且還衍生出許多相關的組學研究,如研究DNA或RNA修飾的表觀遺傳組學、研究蛋白質翻譯后修飾的蛋白質修飾組學。此外,還產生了針對糖類分子的糖組學、針對脂類分子的脂組學、針對代謝物等生物小分子的代謝組學。可以說,基于數據驅動的組學研究策略已經被廣泛地用于分子層次的各種類型的生物分子研究,其特點就是全局性的高通量數據采集與分析。例如,2022年Science雜志發(fā)表了一項涉及英國12000多名癌癥患者的全基因組測序工作,研究者從中發(fā)現(xiàn)了近3億個單堿基置換(substitutions)、260多萬個雙堿基置換(double substitutions)、1.5億多個插入或缺失(indels)和近200萬個重排(rearrangements)。
更重要的是,這些生命科學大數據分析能夠提供過去生物學小數據所不能提供的信息。例如,研究者通過對27萬名歐洲血統(tǒng)參與者的全外顯子組序列數據分析,發(fā)現(xiàn)了許多常見疾病的罕見基因變異。2024年Nature雜志發(fā)表了一篇目前世界上最大的人類全基因組等位基因頻率的數據庫(Genome Aggregation Database)的分析文章,研究者從76156個體的全基因組測序數據中提取出各種基因變異,進而構建了用來度量自然選擇對人類基因組各個區(qū)域發(fā)生突變的限制程度之“變異受限圖譜”(genomic mutational constraint map)。
由于數據驅動的項目之研究目標和內容不依賴于單一的科學假設或科學問題,所以其研究數據可以用來進行眾多科學問題的研究。這一特點在健康醫(yī)學領域有著突出的表現(xiàn),最成功的案例是英國的UK Biobank——該生物銀行收集了50萬名中老年英國志愿者的血液和唾液等生物學樣本,以及電子健康檔案和全外顯子測序等生物學數據。自2012年建成至今,全球來自90多個國家的3萬多名注冊用戶使用了該數據庫,并基于這些數據發(fā)表了9000多篇與健康和疾病相關的研究論文。UK Biobank于2023年11月30日正式宣布完成了這50萬名志愿者的全基因組測序,經批準的研究者可以在“UK Biobank Research Analysis Platform”上訪問這些數據。UK Biobank的數據量預計在2025年將達到40 PB。在UK Biobank成功的基礎上,英國又在2022年10月啟動了一個更宏大的研究項目——“我們未來的健康”(Our Future Health)。該項目計劃招募500萬名英國志愿者,以獲取他們的生物學樣本和健康信息及生物學數據;希望通過該項目的實施為抗擊疾病的“關口前移”提供科學指導和技術支持,并借此推動健康新業(yè)態(tài)、新產業(yè)的發(fā)展。中國科學院2020年啟動的戰(zhàn)略性先導科技專項(B類)“多維大數據驅動的中國人群精準健康研究”也同樣屬于數據驅動的生命健康大科學研究項目;該專項計劃在5年時間內進行大規(guī)模人群生物學樣本和相應的多組學數據的采集和分析,進而基于這些數據開展中國人群生命健康方面的各種研究。
生物學大數據目前已經成為生命科學研究的重要戰(zhàn)略資源。在國家數據局等部門最新聯(lián)合發(fā)布的《“數據要素×”三年行動計劃(2024—2026年)》中,第9條明確提出,“促進重大科技基礎設施、科技重大項目等產生的各類科學數據互聯(lián)互通,支持和培育具有國際影響力的科學數據庫建設,依托國家科學數據中心等平臺強化高質量科學數據資源建設和場景應用。以科學數據助力前沿研究,面向基礎學科,提供高質量科學數據資源與知識服務,驅動科學創(chuàng)新發(fā)現(xiàn)。……探索科研新范式,充分依托各類數據庫與知識庫,推進跨學科、跨領域協(xié)同創(chuàng)新,以數據驅動發(fā)現(xiàn)新規(guī)律,創(chuàng)造新知識,加速科學研究范式變革”。由此可見,中國科學院在2019年啟動的“國家生物信息中心”建設顯然就是國家科學數據戰(zhàn)略的一個重要組成部分。
迭代演進的研究新模式
數據驅動的生命大科學研究新范式的另一個重要特點是“迭代”(iterate),即組學研究的成果通常不是完備的,其每一次組學研究工作類似于計算機軟件開發(fā)——研究者可以在舊版軟件的基礎上不停地迭代出新版本,組學數據或研究成果可以不斷被完善。“人類基因組計劃”就是生命組學“迭代”的典型:2001年2月,Nature雜志發(fā)表了人類基因組測序“草圖”,它僅僅覆蓋了人類基因組90%核酸序列;在2003年“人類基因組計劃”正式宣布完成后,2004年10月在Nature雜志發(fā)表的論文也只給出了人類基因組常染色質區(qū)域內大約99%核酸測序結果;2022年4月,研究者在時隔基因組草圖發(fā)表22年之后于Science雜志發(fā)表了“人類基因組完整序列”——終于完成了人類全基因組30億個堿基對的測定,比2004年發(fā)表的基因組測序版本增加了近2億個堿基對和近2000個新基因。
需要指出的是,“人類基因組計劃”是一個目標明確的大科學計劃——測定人體基因組全部堿基序列,其目標的完成情況在一次次迭代中可以進行準確的評估。但是,對于檢測基因組基因表達情況的“轉錄組學”和蛋白質種類與數量的“蛋白質組學”等其他類型的組學研究則很難按照基因組研究的方式進行,因為這些生物大分子在機體內的總數很難確定。例如,一個蛋白質組的所有蛋白質種類不僅與其基因組的基因總數及mRNA的可變剪切有關,而且還與蛋白質翻譯后修飾有關。人類基因組內的基因數量估計在2萬個左右,但蛋白質種類估計在20萬到200萬之間。2014年5月,2篇人類蛋白質組草圖的文章在Nature雜志上發(fā)表;其中,一篇采用質譜技術檢測到了來自17294個編碼基因的蛋白質類型,另一篇同樣利用質譜技術檢測到了18097個基因編碼的蛋白質。顯然,這些蛋白質組草圖離完整地反映人類蛋白質種類還差得很遠。
更具挑戰(zhàn)性的是,在多細胞生物體中,轉錄組或蛋白質組的構成不同于基因組的構成。后者在個體的所有細胞里基因組堿基序列基本是一致的和穩(wěn)定的,而前者在不同種類的細胞里有著不同的組成類型和豐度,而且在不同發(fā)育階段和不同生存環(huán)境下不停地變化。不久前,我國科學家啟動了一個國際大科學計劃——“人體蛋白質組導航計劃”(Proteomic Navigator of the Human Body,π-HuB);該計劃為期30年(2023—2052年),將在首個10年完成對人體近40萬億細胞的蛋白質組圖譜,以及與生活方式相關的蛋白質組圖譜的系統(tǒng)繪制和解析。可以這樣說,即使到2052年之后,人類蛋白質組研究依然處于“迭代”過程中;正如π-HuB計劃首席科學家賀福初所說:“π是一個無窮無盡的數,而科學是‘無盡的前沿’,我們希望通過‘π’致敬對科學的無限追求。”
介觀層面的多組學研究
細胞是生物體的基本結構單元和功能單元。對于多細胞生物而言,個體是由數量眾多的、不同種類的細胞構成——單個受精卵細胞在發(fā)育過程中通過細胞增殖方式增加細胞的數量,并利用細胞分化的方式形成不同的細胞類型,進而發(fā)育成為各種組織和器官。傳統(tǒng)的細胞分類主要是依據細胞形態(tài)、空間位置和生理性質等表型特征。據此研究者推測,組成人體的近40萬億個細胞可能由200—300種細胞類型所構成。
隨著單細胞核酸測序技術的成熟,國際生命科學領域啟動了一個比“人類基因組計劃”更為宏大的大科學研究計劃——“人類細胞圖譜”(Human Cell Atlas,HCA)。該計劃目前有近100個國家約3000名科學家參與,其總體目標是“采用特定的分子表達譜來確定人體的所有細胞類型,并將此類信息與經典的細胞空間位置和形態(tài)的描述連接起來”。從此,單細胞組學成為生命科學一個新的前沿領域:從個體發(fā)育到腫瘤發(fā)生/發(fā)展等各種生理或病理活動的研究中都能看到大量基于單細胞組學的研究工作,研究者的視野從分子層面進入到細胞層面乃至組織器官層面。2024年1月22日,Nature雜志發(fā)布了2024年值得關注的七大技術,其中就包括了細胞圖譜。
時空交匯的細胞圖譜研究
細胞圖譜的研究最初是基于單細胞轉錄組測序技術。浙江大學的研究者于2018年在Cell雜志上發(fā)表了全球首個哺乳動物細胞圖譜,涉及小鼠近50種組織的40余萬個細胞;2020年,該研究團隊在Nature雜志報道了他們的另一項工作——利用高通量單細胞轉錄組測序技術構建了人體細胞圖譜,從胎兒和成人的8個主要器官的60種組織中鑒定出100余種細胞大類和800余種細胞亞類。
雖然“人類細胞圖譜”當前最常用的單細胞研究技術是轉錄組測序,但是在分子水平對細胞進行分類的測量技術顯然不會局限于此:“這種分子標志物的集合還將包括非編碼基因的表達水平、轉錄本可變剪接的水平,每個啟動子和增強子的染色質狀態(tài),以及每個蛋白質表達水平和它們的每一種翻譯后修飾狀態(tài)等”。為此,研究者發(fā)展了一系列可用于單細胞研究的組學技術。例如,北京大學研究者發(fā)展了一種組學水平的單細胞染色質測序技術(single-cell chromatin overall omic-scale landscape sequencing),可以對1個單細胞同時進行染色質狀態(tài)、DNA甲基化、基因組拷貝數變異及染色體倍性的全基因組測序技術。由于蛋白質組成的復雜性和不可人為擴增性,單細胞蛋白質組研究一直是該領域的技術難點。2023年,國際蛋白質組學權威及其合作者發(fā)表了一篇關于單細胞蛋白質組研究技術的文章,為解決該難題提供了可能的解決方案。
隨著單細胞測序技術的進步,組學研究進入了更大的介觀層次——組織乃至器官。研究者發(fā)展了把影像技術和單細胞轉錄組測序結合在一起的“空間轉錄組學”(spatial transcriptomics)。瑞典研究者利用這種技術檢測了人體胚胎心臟發(fā)育過程中不同時間點的組織切片,構建了首個具有單細胞空間分辨率的人體心臟發(fā)育圖譜。近年來,研究者進一步發(fā)展了多種技術整合的“空間組學”(spatial omics)。例如,美國耶魯大學研究者發(fā)展的一種空間組學技術“DBiT-seq”,可以同時完成組織切片的空間轉錄組測序和蛋白質組檢測。此外,深圳華大生命科學研究院牽頭的時空組學聯(lián)盟(The Spatio Temporal Omics Consortium)將“DNA納米球陣列”(DNA nanoball-patterned arrays)與“原位RNA捕獲”(in situ RNA capture)整合形成一種新的“Stereo-seq”技術,其分辨率可達500 nm,視野可達13 cm×13 cm;研究者利用該技術獲得了單細胞分辨率水平小鼠器官形成的時空轉錄圖譜。2023年,一篇題為“空間組學的曙光”的綜述文章詳細地介紹了用于空間組學的各種技術,以及這些技術之間的組合與運用。
空間組學技術目前已經用于解析復雜的腦組織。例如,2023年華大生命科學研究院聯(lián)合中國科學院神經科學研究所等單位在Cell雜志上發(fā)布了迄今為止最完整的靈長類腦皮層細胞圖譜——研究者利用其發(fā)展的“Stereo-seq”技術及高通量單細胞核轉錄組測序技術等,對獼猴大腦皮層的143個腦區(qū)進行了空間轉錄組研究,獲得了基于特定轉錄組模式的264種皮層細胞類型。2023年10月13日,Science雜志發(fā)表了題為“腦細胞普查”(Brain cell census)的專輯,一共21篇關于人類和非人靈長類動物大腦細胞圖譜的研究論文同時在該雜志及其子刊發(fā)表。可以說,當前空間組學技術正在為人們認識生命的復雜結構和生理病理活動提供著前所未有的高精度圖像和信息。
整合視野下的生命組學
超越了分子層次和細胞層次的空間組學不僅提供了組織器官結構的精細信息,而且為認識生物體整體演化和調控規(guī)律開創(chuàng)了新路徑。美國NIH于2019年啟動了一個名為“人類生物分子圖譜計劃”(Human Biomolecular Atlas Program,HuBMAP),旨在開發(fā)在細胞分辨率水平繪制人體組織器官圖譜的開放式框架和技術,其核心就是要建立一個涵蓋不同尺度的人體整合組織圖譜。Nature雜志在2023年發(fā)布了一個介紹了HuBMAP進展的論文集(go.nature.com/3vbznk7)。2023年,我國中山大學研究者和英國劍橋大學研究者牽頭的國際合作團隊在Nature雜志發(fā)表了一篇關于肢體發(fā)育的文章,研究者基于空間轉錄組技術構建了人胚胎肢體發(fā)育過程中的細胞圖譜;不僅確定了組成胚胎期肢體的67個特定細胞簇,而且還揭示出不同時空的基因表達如何調控了精確的細胞死亡,從而保證了肢體的正確形狀之實現(xiàn)。
細胞圖譜研究策略打破了傳統(tǒng)的還原論研究范式——將高層次的生命活動“還原”到分子層次進行研究和解釋,倡導從整體的角度研究和理解生命。2024年,美國洛克菲勒大學的研究者在Science雜志上發(fā)表了一篇從“超細胞尺度”(supracellular)來研究形態(tài)發(fā)生的論文;研究者以雞胚胎的皮膚作為研究模型,系統(tǒng)地分析了形態(tài)因子(morphogen)對不同空間位置細胞的物理性質之影響,并明確指出“理解這一多尺度過程需要區(qū)分細胞尺度上形態(tài)形成的近端效應和超細胞尺度上形態(tài)形成的功能效應”。2024年,我國研究者報道了一種單細胞水平的轉錄因子時序熒光原位雜交技術(TF-seqFISH),研究者利用該技術解析了各種轉錄因子在人脊髓發(fā)育過程中的空間表達規(guī)律,進而揭示了不同的神經祖細胞亞型沿背腹軸的空間分布模式,以及在內外軸方向上進行的神經發(fā)生、分化、遷移及成熟等過程。
這種研究范式的轉變不僅發(fā)生在正常的生理過程研究,而且也被用于病理過程的研究。美國國立腫瘤研究所(NCI)于2020年啟動了一個名為“人類腫瘤圖譜網絡”(The Human Tumor Atlas Network)的大科學研究項目,計劃從分子、細胞、組織器官等不同層次獲取各種類型腫瘤的數據,并與腫瘤患者的臨床數據進行整合,從而形成多尺度的腫瘤圖譜,為腫瘤患者和高危人群進行更好的醫(yī)學干預提供科學依據。2023年,芬蘭研究者在一篇論文中報道了利用單細胞轉錄組測序和CRISPR基因編輯技術等方法對人體免疫系統(tǒng)里的“自然殺傷”(NK)細胞與血液癌細胞的相互作用之研究,揭示出不同血液癌細胞對NK細胞的敏感性存在顯著差異,而且不同的癌細胞會引起NK細胞發(fā)生不同的轉錄組變化。
我國在整合型生命大科學研究方向最具代表性的是由復旦大學研究團隊牽頭的人類表型組國際大科學計劃——“國際人類表型組計劃”(Human Phenome Project)。該計劃在2017年立項,現(xiàn)已進入項目實施的“二期”階段,其核心目標是對人體從分子層面到細胞層面、組織器官層面乃至個體層面對各種人體特征進行精密測量和分析。目前,該計劃已經取得了4個“全球第一”,包括:研發(fā)了“中華家系1號”——全球第一套多組學標準物質;建立了國際上首個自然人群深度表型組隊列——每個參與者被測量了近2.5萬個表型;繪制了第1張人類表型組導航圖;建成第1個多維度的人類表型組精密測量平臺。中國科學家與美國和歐洲多國科學家組成了國際人類表型組研究協(xié)作組(International Human Phenome Consortium),計劃最終將在全球各大洲代表性人群中進行5萬人、每人10萬個以上表型指標的全景測量和超過50萬人的特定表型應用示范測量。
綜上所述,以“人類基因組計劃”為代表的生命大科學之興起正在改變著生命健康領域的研究“版圖”。目前,我國科研力量在國際生命大科學領域總體處于“并跑”的位置,在一些研究方向上處于“領跑”的位置。為了更好地推進我國生命大科學的發(fā)展,需要注意加強3個方面的工作:進一步加強和完善有組織的科研之管理機制體制。這類生命組學研究通常都涉及多個實驗室乃至多個研究單位的參與,國際合作項目還要涉及不同國家的科研力量;需要發(fā)揮好牽頭單位的組織力量,在課題管理和資源分配及成果共享方面要給予相應的保障。建立或完善相關的規(guī)模化組學研究技術平臺。這些集中了大量先進儀器設備和技術的平臺是支撐規(guī)模化組學研究高效實施的基礎。例如,在蛋白質組研究領域,新成立的廣州“慧眼”大科學設施就是支撐“人體蛋白質組導航計劃”實施的必要條件。加強對生命健康科學大數據的開放與共享。一方面要保證這些項目執(zhí)行中產生的組學研究數據和其他相關數據的安全和倫理治理,另一方面也要落實項目內外研究者對相關數據的共享與利用。
(作者:吳家睿,中國科學院分子細胞科學卓越創(chuàng)新中心 上海交通大學主動健康戰(zhàn)略與發(fā)展研究院。《中國科學院院刊》供稿)