|
國內(nèi)外生命與健康大數(shù)據(jù)的現(xiàn)狀
國外生命與健康大數(shù)據(jù)的現(xiàn)狀
國外各類基因組測序計劃催生了海量的生命與健康大數(shù)據(jù)
1977?年,F(xiàn)rederick Sanger?發(fā)表的雙脫氧鏈終止法標志著測序技術的成熟。1986?年,人類基因組計劃啟動,并于?2001?年完成了人類基因組草圖。2005?年,454?測序儀出現(xiàn),下一代測序技術開始投入使用。此后,生命與健康領域的大型測序項目層出不窮,例如美國國家人類基因組研究所(NHGRI)于?2003?年?9月啟動了?DNA?元件百科全書計劃(ENCODE Project),其主要任務是鑒定和分析人類基因組中所有功能元件。作為?ENCODE?項目的補充,2007?年美國國立衛(wèi)生研究院(NIH)啟動了路線圖表觀基因組項目(Roadmap Epigenomics Project),該項目的目標是創(chuàng)建不同細胞類型的參考表觀基因組圖譜。幾乎與此同時,歐洲的?Wellcome Trust?資助了千人基因組計劃(1000-Genome Project)。該計劃由歐洲生物信息研究所(EMBL-EBI)于?2008—2015?年運行,主要目標是尋找在研究的人類群體中出現(xiàn)頻率至少為?1%?的遺傳變異。類似地,在?2008?年初啟動的擬南芥?1001?基因組計劃的目的是在至少?1001?個品系中發(fā)現(xiàn)相對于擬南芥參考基因組的序列變異。由美國?NHGRI?和?NIH?資助的?TCGA?計劃則對數(shù)千個腫瘤細胞的基因組、外顯子組和轉(zhuǎn)錄組進行測序,試圖鑒別出驅(qū)動癌癥發(fā)展的公共的基因突變。NIH?資助的人類微生物組計劃(HMP)對生活在人類腸道和皮膚上的微生物的?16S?rRNA?擴增子組進行測序,以期找到一組核心的、影響人類健康的微生物組。2012?年,英國?10?萬人基因組計劃啟動[11]。而更大的、醞釀了?3?年的美國政府資助的健康大數(shù)據(jù)項目?100?萬人基因組計劃已于?2018?年?5?月20日啟動,該項目將建立?100?萬人的健康大數(shù)據(jù)隊列,預計耗資?15?億美元,為期?10?年。
國外形成了完整的生命與健康數(shù)據(jù)中心布局
發(fā)達國家政府很早就開始重視生命與健康大數(shù)據(jù)的收集、分析和應用。早在?1988?年?11月,美國國家醫(yī)學圖書館(NLM)就意識到了“發(fā)展新的信息技術以促進對控制健康和疾病的分子過程的理解”的重要性,把?Lister Hill?國家生物醫(yī)學交流中心的一個項目獨立出來,成立了美國國家生物技術信息中心(NCBI)。從創(chuàng)立之初,NCBI?的職責之一就是收集全世界的生物技術數(shù)據(jù)。30?年來,NCBI?不斷發(fā)展壯大,員工數(shù)從?20?人增加到目前的?700?余人,美國國會每年撥付的經(jīng)費由?1990?年的?507.3?萬美元增加到?2014?年頂峰時的?9?583.3?萬美元。在這個過程中,NCBI?積累了全世界最大的生命與健康數(shù)據(jù)庫(如?GenBank、PubMed、SRA、dbGaP?等)和軟件資源(如?BLAST、e-Utilities?等),目前數(shù)據(jù)庫中存儲的總數(shù)據(jù)量已達?30?PB,每天訪問網(wǎng)站的用戶有?420?萬,下載數(shù)據(jù)達?60?TB?以上,高峰時段的點擊量超過每秒?7?000?次。
歐洲生物信息學研究所(EBI)的前身是?1980?年在德國海德堡建立的歐洲分子生物學實驗室(EMBL)核酸序列數(shù)據(jù)庫。1992?年,EMBL?在英國?Hinxton?建立了?EBI。EBI?最早的數(shù)據(jù)庫只有兩個:歐洲核酸歸檔庫(ENA)和蛋白序列資源庫(UniProt),而現(xiàn)在?EBI?已建成世界上最全面的分子生物學數(shù)據(jù)庫集合,其管理的總數(shù)據(jù)量達?12?PB,每月用戶數(shù)為?320?萬人。EBI?目前有員工約?600?人,2016?年運行經(jīng)費為?8?820?萬美元,主要來自歐盟各國政府,特別是英國政府。
在?EMBL?和?GenBank?的邀請下,日本政府成立了日本?DNA?數(shù)據(jù)庫(DDBJ)。1987?年?DDBJ?發(fā)布了?DDBJ release 1,標志著該機構開始正式運行。目前,DDBJ?的自有數(shù)據(jù)量約為?3?PB,年用戶數(shù)為?268?800?人;共有約?50?名員工,年經(jīng)費為?891?萬美元,由日本文部省資助。
2005?年?5月,NCBI、EBI?和?DDBJ?成立了國際核酸序列數(shù)據(jù)庫聯(lián)盟(INSDC)。INSDC?是國際上公共領域數(shù)據(jù)共享方面最著名的組織之一,其成員每天進行數(shù)據(jù)交換,每年召開內(nèi)部會議,討論有關建立和維護序列存檔的問題,并制定了一系列統(tǒng)一的標準和政策。INSDC?在國際生命與健康大數(shù)據(jù)收集上有著巨大的影響力,作為慣例,在主流生物醫(yī)學期刊發(fā)表論文前都要將數(shù)據(jù)上傳到?INSDC?成員數(shù)據(jù)庫公開。
瑞士生物信息學研究所(SIB)是一個聯(lián)合瑞士境內(nèi)生物信息學活動的非營利性學術基金會,成立于?1998?年。SIB?的數(shù)據(jù)涵蓋生命科學的不同領域,包括基因組、蛋白質(zhì)組、醫(yī)藥健康、進化、結構生物學和系統(tǒng)生物學等。2017?年,SIB?核心資源被全球約?600?萬用戶使用,當年?SIB?管理的資金總額達到了?2?676.5?萬美元。
在健康大數(shù)據(jù)領域,Epic?是美國最大的電子病歷供應商,約有?1.9?億的個人用戶使用?Epic?公司的系統(tǒng)儲存自己的電子醫(yī)療信息。Cerner?也是美國最大的電子病歷供應商之一,目前,Cerner?在全世界?35?個國家支撐了?27?000?個不同大小的醫(yī)療機構。Google?的控股公司?Alphabet?旗下的?DeepMind?公司正在使用人工智能看各種醫(yī)學影像,試圖學會那些醫(yī)生需要花上幾年學習獲得的經(jīng)驗,從而使機器學會判斷病癥。