|
高性能計(jì)算在生命信息領(lǐng)域應(yīng)用不斷拓展
生物計(jì)算,包括?DNA?數(shù)據(jù)處理、蛋白質(zhì)結(jié)構(gòu)預(yù)測、腦模擬等,近?20?年來,呈現(xiàn)快速發(fā)展態(tài)勢。這些計(jì)算大部分也是數(shù)據(jù)密集型的。
在基因數(shù)據(jù)處理應(yīng)用方面。高通量測序技術(shù)的進(jìn)步,推動(dòng)了基因數(shù)據(jù)爆炸性增長。然而,DNA?包含信息的復(fù)雜性,仍對數(shù)據(jù)分析算法提出新挑戰(zhàn)。機(jī)器學(xué)習(xí)在基因組分析與預(yù)測的多個(gè)方面獲得研究與應(yīng)用,如識別轉(zhuǎn)錄起始位點(diǎn)/剪切位點(diǎn)/TF?結(jié)合位點(diǎn)、預(yù)測基因功能/疾病表型等。深度學(xué)習(xí)應(yīng)用的最新突破已經(jīng)在預(yù)測性能方面超過了許多傳統(tǒng)的統(tǒng)計(jì)推斷算法,并且機(jī)器學(xué)習(xí)在基因組學(xué)中的癌癥診斷、臨床遺傳、作物改良、流行病、公共衛(wèi)生、人口遺傳、進(jìn)化、功能基因組等均具有明顯發(fā)展?jié)摿?。?dāng)前,大多數(shù)問題的預(yù)測能力都沒有達(dá)到實(shí)際應(yīng)用的預(yù)期,對這些抽象模型的解釋也沒有闡明深刻的認(rèn)識。如何有效利用機(jī)器學(xué)習(xí)獲取更強(qiáng)大、更智能的基因組解釋能力,還需要探索依賴于特定任務(wù)的機(jī)器學(xué)習(xí)模型。
在蛋白質(zhì)結(jié)構(gòu)預(yù)測應(yīng)用方面。蛋白質(zhì)結(jié)構(gòu)預(yù)測與設(shè)計(jì)對深入理解蛋白質(zhì)結(jié)構(gòu)和功能具有重要意義。蛋白質(zhì)是一切生命系統(tǒng)的物質(zhì)基礎(chǔ),但其生物功能的發(fā)揮,需要蛋白質(zhì)正確折疊為特定的?3D?結(jié)構(gòu),蛋白質(zhì)折疊研究也是藥物設(shè)計(jì)的基礎(chǔ)。實(shí)驗(yàn)學(xué)的方法如?X?射線(X-ray)、核磁共振(NMR)和冷凍電鏡解析蛋白質(zhì)?3D?結(jié)構(gòu)普遍存在設(shè)備昂貴、時(shí)間和人力成本過高等問題。開發(fā)能夠自動(dòng)、快速、準(zhǔn)確地將未知蛋白序列分類為特定折疊類別的計(jì)算預(yù)測方法成為計(jì)算生物學(xué)家長期努力的方向。使用深度卷積神經(jīng)網(wǎng)絡(luò)和殘存網(wǎng)絡(luò)高精度的預(yù)測蛋白中的氨基酸-氨基酸接觸作用,并將預(yù)測結(jié)果直接用于蛋白質(zhì)?3D?結(jié)構(gòu)重建是近期的一個(gè)熱點(diǎn)。谷歌?DeepMind?將?AlphaGo?轉(zhuǎn)型,開發(fā)了可預(yù)測蛋白質(zhì)折疊的程序?AlphaFold,并以該項(xiàng)目參加了全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽?CASP13,取得了優(yōu)異的成績。麻省理工學(xué)院(MIT)的?Belpler?和?Berger利用人工智能(AI)技術(shù),直接通過氨基酸序列預(yù)測蛋白質(zhì)分子的生物學(xué)功能。
在腦模擬和腦科學(xué)應(yīng)用方面。腦病變給人類帶來的經(jīng)濟(jì)和生活負(fù)擔(dān)遠(yuǎn)遠(yuǎn)超過其他領(lǐng)域,已成為全球致殘的首要因素。2013?年歐盟推出了?15?個(gè)歐洲國家參與、預(yù)期?10?年的“人類腦計(jì)劃”,該計(jì)劃側(cè)重于借用超級計(jì)算機(jī)技術(shù),通過研究腦連接圖譜模擬腦神經(jīng)網(wǎng)絡(luò)功能。自該計(jì)劃以后,其他國家紛紛提出各自腦計(jì)劃。人腦大約由?1010個(gè)神經(jīng)元和?1014個(gè)突觸組成。現(xiàn)有的模擬研究多用于小區(qū)塊模擬,規(guī)模約?105個(gè)神經(jīng)元。小規(guī)模模擬存在明顯局限性,其中神經(jīng)元連接的約?50%?突觸分布在區(qū)塊以外,而功能回路在整個(gè)大腦內(nèi)完成,區(qū)塊之間相互影響明顯。全腦模擬計(jì)算規(guī)模巨大,現(xiàn)階段難以實(shí)現(xiàn)。當(dāng)前,已達(dá)到的最大規(guī)模腦網(wǎng)絡(luò)模擬是基于開源軟件?NEST?完成的。該網(wǎng)絡(luò)包括?1.51×109個(gè)神經(jīng)元和?1.68×1012個(gè)突觸,在日本超級計(jì)算機(jī)?K(共?88?128?節(jié)點(diǎn),每節(jié)點(diǎn)?8?核,2?GHz,16 GB RAM)上全節(jié)點(diǎn)運(yùn)行模擬。該模擬達(dá)到了人腦規(guī)模的?10%。
在新藥創(chuàng)制應(yīng)用方面。高性能計(jì)算可在加速藥物研發(fā),降低藥物開發(fā)風(fēng)險(xiǎn)的多個(gè)方面發(fā)揮重要作用,如超大規(guī)模篩選藥物先導(dǎo)化合物、大規(guī)模搜尋藥物潛在靶點(diǎn)、精確計(jì)算蛋白配體自由結(jié)合能、精確計(jì)算電子級別靶點(diǎn)藥物共價(jià)和非共價(jià)作用、復(fù)雜生物體系模擬、藥物網(wǎng)絡(luò)化相互作用等。國內(nèi),北京大學(xué)、中國科學(xué)院上海藥物研究所、上海交通大學(xué)在相關(guān)領(lǐng)域做出了可喜成果。