加強(qiáng)開放數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),推動開放科學(xué)發(fā)展
當(dāng)前,開放科學(xué)進(jìn)入全球共識階段,科研人員基于活動論、方法論、方式論、過程論、文化論和實踐論等從不同視角對開放科學(xué)給出了不同的定義。開放科學(xué)將科學(xué)作為一種共同利益加以推廣,包括分享數(shù)據(jù)、方法、結(jié)果和由此產(chǎn)生的知識等。作為一種全新的知識體系,開放科學(xué)強(qiáng)調(diào)整個科學(xué)過程的透明,鼓勵開放獲取與合作。在更深層次的理解上,開放科學(xué)是科學(xué)研究范式的轉(zhuǎn)變,將深刻改變?nèi)祟惪茖W(xué)研究、科學(xué)發(fā)現(xiàn)的方式,對于加強(qiáng)科技合作,共同探索解決全球性挑戰(zhàn)具有重要意義。
為推動全球開放科學(xué)的發(fā)展,2021?年,聯(lián)合國教科文組織(UNESCO)大會第?41?屆會議審議通過《開放科學(xué)建議書》(Recommendation on Open Science),意在讓開放科學(xué)更透明、更可及,進(jìn)而使其更加公平和包容。這不僅為開放科學(xué)提供了國際發(fā)展方向,還為個人、機(jī)構(gòu)、國家、地區(qū)和國際等不同層面提供了促進(jìn)交流、建立信任的渠道。
近年來,隨著大科學(xué)裝置的建設(shè)、重大科學(xué)實驗的實施,以及科學(xué)傳感器和傳感網(wǎng)絡(luò)的廣泛應(yīng)用,產(chǎn)生了多源、異構(gòu)、海量的科學(xué)數(shù)據(jù)。數(shù)據(jù)已不僅是研究過程中事實或觀察的結(jié)果,更成為研究的實體工具。數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)成為大數(shù)據(jù)時代的科學(xué)研究新范式。
開放科學(xué)數(shù)據(jù)是開放科學(xué)的核心要素之一。通常由政府和機(jī)構(gòu)組織制定開放數(shù)據(jù)政策,定義共享數(shù)據(jù)類型、共享對象、共享條件。實現(xiàn)科學(xué)數(shù)據(jù)的公開使用、重復(fù)使用、長期保存和更新發(fā)布,將會大力促進(jìn)開放科學(xué)的發(fā)展,提升科技創(chuàng)新活動的透明度、可重復(fù)性、協(xié)作性,并可最大化科學(xué)對社會發(fā)展的價值。
開放科學(xué)數(shù)據(jù)
科學(xué)數(shù)據(jù),作為最基本、最活躍的一類科技資源,既是科技創(chuàng)新活動的重要產(chǎn)出,也是新一輪創(chuàng)新活動和經(jīng)濟(jì)社會發(fā)展的重要基礎(chǔ),具有巨大的應(yīng)用和開發(fā)價值,在全球諸多國家機(jī)構(gòu)得到高度重視。
開放科學(xué)數(shù)據(jù)是指可公開獲取,并可通過下載、復(fù)制、分析、再加工等方式,用于系統(tǒng)構(gòu)建和任何其他應(yīng)用目的科學(xué)數(shù)據(jù)。
國際開放科學(xué)數(shù)據(jù)的發(fā)展與現(xiàn)狀
在美國,開放科學(xué)數(shù)據(jù)已成為美國“信息自由、開放政府”的重要組成;德國科學(xué)基金會(DFG)2010?年發(fā)布的《研究數(shù)據(jù)操作指南》(Guidelines on the Handling of Research Data),明確“科學(xué)數(shù)據(jù)的共享與再利用對科學(xué)研究甚至人類社會都具有巨大意義”。國際科學(xué)理事會數(shù)據(jù)委員會(CODATA)2019?年發(fā)布的《科研數(shù)據(jù)北京宣言》(The Beijing Declaration on Research Data)指出,公共經(jīng)費資助產(chǎn)出的科學(xué)數(shù)據(jù)應(yīng)盡可能在全球范圍內(nèi)共享重復(fù)使用。以?Dimensions?平臺統(tǒng)計數(shù)據(jù)為例,2012—2021?年全球開放科學(xué)數(shù)據(jù)集合計?9?918?741?條,其中中國擁有?253?441?條,繼美國之后排名全球第?2?位;在研究領(lǐng)域上,數(shù)據(jù)量排名前?3?位的學(xué)科分別為信息與計算機(jī)科學(xué)、信息系統(tǒng)、地球科學(xué)(圖?1)。
為推進(jìn)開放數(shù)據(jù)更加規(guī)范化,2016?年?FAIR?原則——可查找(findable)、可獲?。╝ccessible)、可交互(interoperable)、可重復(fù)使用(reusable)應(yīng)運而生。作為?FAIR?原則的補充,CARE?原則——集體收益(collective benefit)、質(zhì)量保證(authority to control)、責(zé)任(responsibility)、倫理(ethics)則倡導(dǎo)以目標(biāo)為導(dǎo)向,發(fā)揮數(shù)據(jù)的創(chuàng)新作用。FAIR?原則強(qiáng)調(diào)技術(shù)進(jìn)步,而?CARE?原則更側(cè)重政策變革,兩者相輔相成。
全球開放數(shù)據(jù)在眾多研究領(lǐng)域蓬勃發(fā)展。作為開放科學(xué)的引領(lǐng)者,天文學(xué)領(lǐng)域越來越多的數(shù)據(jù)資源實現(xiàn)了即時開放,如美國大型綜合巡天望遠(yuǎn)鏡(LSST)。在空間科學(xué)領(lǐng)域的探索中,美國和加拿大最為積極,歐洲以試點為主,俄羅斯和日本則強(qiáng)調(diào)國際合作;在高能物理領(lǐng)域,依托大科學(xué)裝置的數(shù)據(jù)積累與協(xié)作管理經(jīng)驗為全球大規(guī)模數(shù)據(jù)合作共享提供了典范。
我國開放科學(xué)數(shù)據(jù)發(fā)展與現(xiàn)狀
作為國家科技創(chuàng)新發(fā)展和經(jīng)濟(jì)社會發(fā)展的重要基礎(chǔ)性戰(zhàn)略資源,開放科學(xué)數(shù)據(jù)已在我國全社會達(dá)成高度共識。
歷史上形成了豐富的、覆蓋各個領(lǐng)域的科學(xué)數(shù)據(jù)資源
據(jù)不完全統(tǒng)計,到?20?世紀(jì)末,我國已建成?5?000—6?000?個規(guī)模不等、質(zhì)量參差的科學(xué)數(shù)據(jù)庫,涉及科學(xué)技術(shù)的各個領(lǐng)域。在科學(xué)數(shù)據(jù)采集和積累方面,初步形成了以部門為主體、科研院所和高等院?;パa的格局,并逐步建立了專門的數(shù)據(jù)管理機(jī)構(gòu)和國際數(shù)據(jù)合作與交換渠道。
據(jù)《國家科學(xué)數(shù)據(jù)資源發(fā)展報告(2018)》統(tǒng)計,截至?2017?年底,我國有效管理與保存的科學(xué)數(shù)據(jù)資源總量共計約?83.72 PB。其中,生命科學(xué)與醫(yī)學(xué)領(lǐng)域、地球與環(huán)境科學(xué)領(lǐng)域、物理與化學(xué)領(lǐng)域、對地觀測領(lǐng)域、天文與空間科學(xué)等5個領(lǐng)域數(shù)據(jù)積累分別為26.81 PB、24.48 PB、16.64 PB、9.73 PB?和?5.27 PB。
科學(xué)數(shù)據(jù)開放共享被逐步納入我國政策法規(guī)制度體系
我國一直重視科學(xué)數(shù)據(jù)的匯交管理與開放共享。先后從國家、部門多層面出臺相關(guān)政策,并從行動上予以落實。
2006?年,國務(wù)院發(fā)布《國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006—2020?年)》,明確提出要建設(shè)數(shù)字科技平臺,促進(jìn)科學(xué)數(shù)據(jù)共享。我國逐步開始形成由以政府、行業(yè)機(jī)構(gòu)和領(lǐng)域數(shù)據(jù)中心為主體的數(shù)據(jù)政策體系。2015?年,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,提出發(fā)展科學(xué)大數(shù)據(jù)的具體行動。2018?年,國務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》,進(jìn)一步明確了科學(xué)數(shù)據(jù)管理與共享的職責(zé),并對科學(xué)數(shù)據(jù)的定義、管理、責(zé)任主體、使用方法、使用范圍和保密安全進(jìn)行了清晰的界定,為科學(xué)數(shù)據(jù)的開放和共享奠定了基礎(chǔ)。
積極參與并推動國際科學(xué)數(shù)據(jù)合作共享
當(dāng)前國際科學(xué)理事會(ISC)有兩大數(shù)據(jù)組織——國際數(shù)據(jù)委員會(CODATA)和世界數(shù)據(jù)系統(tǒng)(WDS,前身為世界數(shù)據(jù)中心?WDC),主要致力于將科學(xué)技術(shù)各領(lǐng)域從事數(shù)據(jù)工作的科學(xué)家組織起來,利用國際網(wǎng)絡(luò)構(gòu)建全球尺度的科學(xué)數(shù)據(jù)交換體系。1988?年我國加入?WDS,并于當(dāng)年建立了天文、空間科學(xué)、海洋、氣象、地質(zhì)、地震、地球物理、冰川凍土、可再生資源與環(huán)境?9?個數(shù)據(jù)中心。目前,天文數(shù)據(jù)中心、空間科學(xué)數(shù)據(jù)中心和海洋數(shù)據(jù)中心均為?WDS?的常規(guī)成員機(jī)構(gòu)。1984?年我國加入?CODATA。2011?年,我國學(xué)者在?CODATA?提出“手拉手合作伙伴計劃”,旨在促進(jìn)國際項目之間的合作,幫助重復(fù)利用已有數(shù)據(jù)資源,減少重復(fù)勞動,提高科研成果產(chǎn)出,加速科研成果轉(zhuǎn)化,消減數(shù)字鴻溝。
2018?年立項的中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(A?類)“地球大數(shù)據(jù)科學(xué)工程”(CASEarth)遵循從開放數(shù)據(jù)到開放科學(xué)的發(fā)展潮流,將人工智能賦能地球大數(shù)據(jù),打造集數(shù)據(jù)、計算、服務(wù)于一體的數(shù)據(jù)共享新模式。同時,CASEarth?促進(jìn)地球科學(xué)數(shù)據(jù)的整合,實現(xiàn)多學(xué)科數(shù)據(jù)關(guān)聯(lián)分析和信息融合,驅(qū)動重大科學(xué)發(fā)現(xiàn)與決策支持,應(yīng)對全球可持續(xù)發(fā)展等重大挑戰(zhàn)。
在?CASEarth?基礎(chǔ)上,可持續(xù)發(fā)展大數(shù)據(jù)國際研究中心于?2021?年?9?月?6?日正式成立,旨在為解決中國乃至全球重大可持續(xù)發(fā)展問題提供基礎(chǔ)理論、技術(shù)方法、決策支持和智庫服務(wù)支撐。這是我國積極推動大數(shù)據(jù)服務(wù)于《聯(lián)合國?2030?年可持續(xù)發(fā)展議程》的重要舉措和創(chuàng)新方向。
積極創(chuàng)辦數(shù)據(jù)期刊和創(chuàng)建數(shù)據(jù)倉儲,推動數(shù)據(jù)開放共享
隨著開放數(shù)據(jù)理念不斷深入,我國也開始了科學(xué)數(shù)據(jù)期刊的建設(shè)。中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心于2016?年創(chuàng)辦的《中國科學(xué)數(shù)據(jù)》是我國目前首批面向多學(xué)科領(lǐng)域的數(shù)據(jù)期刊之一。生物學(xué)、遙感科學(xué)與技術(shù)和圖書情報學(xué)等領(lǐng)域享有較高聲譽的學(xué)術(shù)期刊也陸續(xù)設(shè)置了數(shù)據(jù)論文專欄。由國際數(shù)字地球?qū)W會和?CASEarth?共同主辦的?Big Earth Data?于?2017?年?12?月創(chuàng)刊,是全球首本聚焦大數(shù)據(jù)的地學(xué)刊物,旨在為從事地球大數(shù)據(jù)的采集、管理、處理、分析和可視化研究的學(xué)者搭建一流的國際學(xué)術(shù)交流平臺。
我國還在不同領(lǐng)域創(chuàng)建了數(shù)據(jù)倉儲平臺,來促進(jìn)各領(lǐng)域數(shù)據(jù)資源的開放共享。國內(nèi)多個數(shù)據(jù)平臺還被國際認(rèn)證為數(shù)據(jù)倉儲中心,從而更好地保障了我國科學(xué)家的數(shù)據(jù)主權(quán)。
我國開放數(shù)據(jù)基礎(chǔ)設(shè)施的現(xiàn)狀與問題
開放數(shù)據(jù)基礎(chǔ)設(shè)施是支撐開放數(shù)據(jù)和滿足不同科學(xué)領(lǐng)域研究的共享設(shè)施,其發(fā)展是信息技術(shù)面向數(shù)字化、智能化演進(jìn)的必然結(jié)果。數(shù)據(jù)中心是開放數(shù)據(jù)基礎(chǔ)設(shè)施的具體體現(xiàn),以數(shù)據(jù)為核心,通過深度整合計算、存儲、網(wǎng)絡(luò)和軟件資源,實現(xiàn)開放數(shù)據(jù)的價值最大化。
開放數(shù)據(jù)基礎(chǔ)設(shè)施的要素包括數(shù)據(jù)、物理、技術(shù)、制度?4?部分。其中,數(shù)據(jù)要素是開放數(shù)據(jù)基礎(chǔ)設(shè)施的第一要素,包括數(shù)據(jù)集、數(shù)據(jù)標(biāo)識和數(shù)據(jù)注冊等;物理要素是指面向數(shù)據(jù)標(biāo)準(zhǔn)、存儲、管理、共享、分析、使用所需的軟硬件基礎(chǔ)設(shè)施;技術(shù)要素是面指向開放數(shù)據(jù)基礎(chǔ)設(shè)施的核心技術(shù)研發(fā),實現(xiàn)協(xié)作式和多學(xué)科數(shù)據(jù)分析的開放計算和數(shù)據(jù)處理能力;制度要素為開放數(shù)據(jù)和開放數(shù)據(jù)基礎(chǔ)設(shè)施的使用和管理提供政策指導(dǎo)。
開放數(shù)據(jù)基礎(chǔ)設(shè)施對促進(jìn)開放科學(xué)實施的意義和積極作用
開放數(shù)據(jù)基礎(chǔ)設(shè)施是科研范式變革的重要助推劑,是重要科技突破的“新引擎”。隨著互聯(lián)網(wǎng)、大數(shù)據(jù)與人工智能的發(fā)展,科學(xué)發(fā)現(xiàn)的路徑進(jìn)入了新階段。例如,中國科學(xué)院高能物理研究所與國家高能物理科學(xué)數(shù)據(jù)中心聯(lián)合研建的大規(guī)模分布式數(shù)據(jù)服務(wù)基礎(chǔ)設(shè)施平臺,通過超高速網(wǎng)絡(luò)將國際上重要的高能物理科學(xué)數(shù)據(jù)及計算資源進(jìn)行整合,為粒子物理、天體物理、中子科學(xué)、光子科學(xué)等領(lǐng)域的科學(xué)發(fā)現(xiàn)提供數(shù)據(jù)服務(wù)。高海拔宇宙線觀測站項目(LHAASO)利用該平臺部署了?Coryda?數(shù)據(jù)處理系統(tǒng),全面收集和處理超高能伽馬射線等宇宙線數(shù)據(jù)。以?2022?年為例,LHAASO?全年共采集了?11 PB?的數(shù)據(jù),包含?10?萬億個宇宙線事例;數(shù)據(jù)和計算資源向全球開放,全年的數(shù)據(jù)訪問和處理量達(dá)到?448 PB,在宇宙線前沿研究方面獲得了“PeV?超高能光子”“超高質(zhì)量暗物質(zhì)壽命”等多項重大科技成果。
我國開放數(shù)據(jù)基礎(chǔ)設(shè)施的基礎(chǔ)與優(yōu)勢
開放數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)需求因所服務(wù)對象不同及應(yīng)用差異而呈現(xiàn)多樣化。開放數(shù)據(jù)基礎(chǔ)設(shè)施主要可分為兩類:①大科學(xué)裝置,根據(jù)共性需求提供服務(wù)的國家基礎(chǔ)設(shè)施,是海量數(shù)據(jù)的生產(chǎn)單元;②科學(xué)數(shù)據(jù)中心,屬于集中式數(shù)據(jù)基礎(chǔ)設(shè)施,可支持跨學(xué)科領(lǐng)域的綜合研究。中國科學(xué)院在我國開放數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)和體系化運行中發(fā)揮了重要作用。
大科學(xué)裝置
我國大科學(xué)裝置最早可追溯到為“兩彈一星”研制任務(wù)建設(shè)的大型科研裝置。20?世紀(jì)?80?年代末中國科學(xué)院率先建設(shè)北京正負(fù)電子對撞機(jī);我國“九五”“十五”期間建設(shè)了11項大科學(xué)裝置;“十一五”之后進(jìn)入快速發(fā)展時期,“十二五”期間形成了建成?22?項、在建?16?項的布局;“十三五”“十四五”期間則逐步形成以綜合性國家科學(xué)中心為依托的大科學(xué)裝置建設(shè)規(guī)劃。目前,我國在建和運行的大科學(xué)裝置總量約?50?余個,部分裝置綜合水平進(jìn)入全球“第一方陣”。
大科學(xué)裝置分為三大類:①專用研究設(shè)施,主要為特定學(xué)科領(lǐng)域的重大科學(xué)技術(shù)目標(biāo)建設(shè);②公共實驗設(shè)施,主要支撐多學(xué)科領(lǐng)域的基礎(chǔ)和應(yīng)用研究服務(wù);③公益科技設(shè)施,主要為國家經(jīng)濟(jì)建設(shè)、國家安全和社會發(fā)展提供基礎(chǔ)數(shù)據(jù)。前兩類裝置一般通過實驗與觀測產(chǎn)生大量具有極高科學(xué)價值的數(shù)據(jù),提供給專業(yè)領(lǐng)域和多學(xué)科用于科學(xué)研究;第三類裝置通過科學(xué)考察、綜合檢測等手段獲取科學(xué)數(shù)據(jù)及資源,為科學(xué)研究及國家發(fā)展提供保障。
大科學(xué)裝置是科學(xué)數(shù)據(jù)最重要的生產(chǎn)源。我國與世界發(fā)達(dá)國家都高度重視大科學(xué)裝置發(fā)展,但在對大科學(xué)裝置的地位和作用規(guī)定的內(nèi)涵的定位上有很大差別,主要體現(xiàn)在我國更加突出“目標(biāo)牽引、問題導(dǎo)向”。在國家有關(guān)部門的統(tǒng)一部署下,我國大科學(xué)裝置布局逐步完善、運行更加高效、產(chǎn)出更加豐碩,這對促進(jìn)我國科學(xué)技術(shù)事業(yè)發(fā)展起到了巨大的支撐作用,為解決國家發(fā)展中遇到的關(guān)鍵瓶頸問題作出了突出貢獻(xiàn)。
科學(xué)數(shù)據(jù)中心
國際科學(xué)數(shù)據(jù)中心。國際科學(xué)數(shù)據(jù)中心是指面向國家和全球發(fā)展部署,服務(wù)解決重大科學(xué)問題,推動技術(shù)創(chuàng)新,促進(jìn)可持續(xù)發(fā)展的基礎(chǔ)設(shè)施。例如,可持續(xù)發(fā)展大數(shù)據(jù)國際研究中心(CBAS)是典型的國際科學(xué)數(shù)據(jù)中心,其研發(fā)的大數(shù)據(jù)平臺系統(tǒng)(SDGs 大數(shù)據(jù)平臺)整合了基礎(chǔ)地理、遙感、地面監(jiān)測、社會統(tǒng)計等多種數(shù)據(jù),貫通“大數(shù)據(jù)存儲—管理—計算分析—可視化”流程;研發(fā)可持續(xù)發(fā)展目標(biāo)(SDGs)數(shù)據(jù)產(chǎn)品生產(chǎn)系統(tǒng),實現(xiàn)?TB?量級數(shù)據(jù)交互式在線分析,以及各類指標(biāo)在線計算和可視化展示;研發(fā)?SDGs?專用存儲庫等核心功能,支持全球?SDGs?數(shù)據(jù)資源的持續(xù)匯聚與開放共享;建設(shè)支撐地球大數(shù)據(jù)管理、處理與分析的專有環(huán)境,具備每秒?1?000?萬億次的雙精度浮點超級計算能力,50 PB?數(shù)據(jù)存儲能力,10000 CPU?核心云計算能力。目前,平臺已匯聚數(shù)據(jù)量達(dá)?16 PB,可面向公眾、科研人員、決策者三類典型場景,提供“一站式”數(shù)據(jù)計算、分析、展示、共享服務(wù),已通過?CODATA?的評估,科學(xué)數(shù)據(jù)服務(wù)于?174?個國家和地區(qū)。
國家科學(xué)數(shù)據(jù)中心。2019?年,為進(jìn)一步完善科技資源共享服務(wù)體系,推動科技資源向社會開放共享,科學(xué)技術(shù)部、財政部聯(lián)合認(rèn)定了?20?個國家科學(xué)數(shù)據(jù)中心(表?1),涵蓋了高能物理、空間科學(xué)與天文、生物基因、環(huán)境與生態(tài)、地質(zhì)與地震、農(nóng)林、氣象等領(lǐng)域,負(fù)責(zé)我國相關(guān)領(lǐng)域科學(xué)數(shù)據(jù)的匯交與共享、科學(xué)計算、數(shù)據(jù)技術(shù)研究等工作。至?2021?年底,國家科學(xué)數(shù)據(jù)中心匯集的數(shù)據(jù)超過?100 PB,每年被訪問的數(shù)據(jù)達(dá)數(shù)百?PB,提供的科學(xué)計算服務(wù)超過?1?億?CPU?小時,為科學(xué)發(fā)現(xiàn)、技術(shù)創(chuàng)新和國民經(jīng)濟(jì)提供了重要支撐。
中國科學(xué)院科學(xué)數(shù)據(jù)中心體系。為落實《科學(xué)數(shù)據(jù)管理辦法》,2019?年?2?月中國科學(xué)院出臺《中國科學(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法》,并啟動建設(shè)了以“總中心-學(xué)科中心-所級中心”三類科學(xué)數(shù)據(jù)中心為核心,安全體系、運行體系和評價體系共同保障與驅(qū)動的一體化科學(xué)數(shù)據(jù)中心網(wǎng)絡(luò)。初步建成中國科學(xué)院科學(xué)數(shù)據(jù)中心體系(表?2),在支持我國科技創(chuàng)新方面取得了積極成效,在支撐國家重大戰(zhàn)略、重大工程建設(shè)中發(fā)揮了積極作用。
我國開放數(shù)據(jù)基礎(chǔ)設(shè)施發(fā)展面臨的挑戰(zhàn)
我國早期的開放數(shù)據(jù)基礎(chǔ)設(shè)施可靠性較差,且相對孤立。過去?20?年間,國家重點鼓勵創(chuàng)建數(shù)據(jù)門戶,重點解決科學(xué)數(shù)據(jù)的“可檢索、可瀏覽、可共享”的共性基礎(chǔ)問題,在開放數(shù)據(jù)公共平臺和配套設(shè)施建設(shè)方面取得了較大的進(jìn)展。但總體來看,在促進(jìn)數(shù)據(jù)重用、促進(jìn)科研創(chuàng)新和社會開放創(chuàng)新等方面仍面臨巨大挑戰(zhàn)。具體存在?4?個方面的問題。
當(dāng)前建設(shè)規(guī)模不能滿足日益增長的數(shù)據(jù)管理和使用的需要。從建設(shè)規(guī)模和財政資金投入而言,目前較為重視的仍然是大科學(xué)裝置層級或國家級數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè),還無法滿足整個科技界乃至社會對開放科學(xué)數(shù)據(jù)管理和使用的需要。
現(xiàn)有標(biāo)準(zhǔn)體系和技術(shù)能力仍無法滿足建設(shè)需求。目前,針對大數(shù)據(jù)管理和處理標(biāo)準(zhǔn)、算法及工具層出不窮,但建設(shè)滿足各類需求的開放數(shù)據(jù)基礎(chǔ)設(shè)施挑戰(zhàn)仍然很大,包括:①缺乏有效的標(biāo)準(zhǔn)體系和查詢手段;②缺乏對體系架構(gòu)的標(biāo)準(zhǔn)化建模,導(dǎo)致不同學(xué)科不同行業(yè)的數(shù)據(jù)很難重用,系統(tǒng)間集成和互通困難;③缺乏對數(shù)據(jù)管理標(biāo)準(zhǔn)化環(huán)節(jié)的重視;④缺乏有效的標(biāo)準(zhǔn)使用和升級指南,導(dǎo)致歷史遺留系統(tǒng)和新系統(tǒng)之間的兼容較為困難。
建設(shè)模式單一,支持?jǐn)?shù)據(jù)整合、數(shù)據(jù)分析和支撐科技決策的功能較弱。當(dāng)前,國內(nèi)開放數(shù)據(jù)基礎(chǔ)設(shè)施的資金來源單一,跨部門跨領(lǐng)域的合作少,存在自成體系或者重復(fù)建設(shè)的情況。開放數(shù)據(jù)基礎(chǔ)設(shè)施目前主要支持對同領(lǐng)域同類型的數(shù)據(jù)整合功能,而對不同領(lǐng)域來源的不同類型的數(shù)據(jù)集進(jìn)行整合、協(xié)同數(shù)據(jù)分析和支撐科技決策的功能較弱。
在科學(xué)數(shù)據(jù)長期保存和再利用方面缺乏整體規(guī)劃。我國大科學(xué)裝置產(chǎn)生的科學(xué)數(shù)據(jù)規(guī)模巨大,長期利用價值高。尤其是在大科學(xué)裝置或大科學(xué)項目結(jié)束運行后,需要有效的數(shù)據(jù)保存與管理、軟件與計算支撐、完善的技術(shù)檔案來確??茖W(xué)數(shù)據(jù)的長期可用。目前除少數(shù)領(lǐng)域開始研究制定長期保存和再利用的規(guī)劃外,我國還缺乏相關(guān)的整體規(guī)劃。
除上述問題外,我國對開放數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的政策尚缺乏系統(tǒng)性設(shè)計和全方位考慮,各級政府、各類機(jī)構(gòu)發(fā)布的相關(guān)政策意見主要側(cè)重于“硬”條件的建設(shè),而對“軟”內(nèi)容建設(shè)的重視和支持不足。
加強(qiáng)我國開放數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的思考與建議
開放科學(xué)數(shù)據(jù)需要強(qiáng)大的、可持續(xù)的基礎(chǔ)設(shè)施和健全的政策制度支持,開放數(shù)據(jù)基礎(chǔ)設(shè)施的實施路徑應(yīng)以充分挖掘數(shù)據(jù)價值為目標(biāo),使數(shù)據(jù)“存得下、流得動、用得好”。針對我國開放數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),提出以下?4?點建議。
加強(qiáng)頂層設(shè)計,統(tǒng)一規(guī)劃布局開放數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),建立綜合性的國家數(shù)據(jù)中心和國際數(shù)據(jù)中心
開放數(shù)據(jù)基礎(chǔ)設(shè)施外延廣、內(nèi)涵豐富,需要加強(qiáng)國家層面的頂層設(shè)計和實施路徑規(guī)劃,以保障開放數(shù)據(jù)基礎(chǔ)設(shè)施政策制定的連貫性和可操作性。
建議:開放數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)應(yīng)以開放數(shù)據(jù)平臺建設(shè)為核心。開放數(shù)據(jù)平臺以數(shù)據(jù)為主體,通過高度融合存儲、計算、網(wǎng)絡(luò)和軟件資源,實現(xiàn)開放數(shù)據(jù)的最大價值的挖掘。一方面,統(tǒng)籌開放數(shù)據(jù)平臺建設(shè),研究確立開放數(shù)據(jù)平臺的整體框架、服務(wù)體系、認(rèn)證標(biāo)準(zhǔn)和評價機(jī)制;另一方面,重視開放數(shù)據(jù)平臺的可持續(xù)發(fā)展,從制定差異化數(shù)據(jù)政策、提供數(shù)據(jù)采集和使用的評價、提供支持服務(wù)3個方面入手,進(jìn)一步優(yōu)化投入機(jī)制,鼓勵引導(dǎo)不同創(chuàng)新主體參與數(shù)據(jù)發(fā)展,形成以國家、部委和國家數(shù)據(jù)中心運行機(jī)構(gòu)投入為主導(dǎo),多元化投入相結(jié)合的數(shù)據(jù)資源建設(shè)和服務(wù)運行的資金保障體系,確保開放數(shù)據(jù)平臺的可持續(xù)發(fā)展。開放數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)有助于打破數(shù)據(jù)壁壘。我國現(xiàn)有開放數(shù)據(jù)基礎(chǔ)設(shè)施主要集中在各類學(xué)科數(shù)據(jù)中心或共享平臺,不能適應(yīng)以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能為代表的新技術(shù)革命蓬勃發(fā)展,無法加速多領(lǐng)域科學(xué)數(shù)據(jù)交叉應(yīng)用和向現(xiàn)實生產(chǎn)力的轉(zhuǎn)化。建設(shè)綜合性基礎(chǔ)性國家數(shù)據(jù)中心和國際數(shù)據(jù)中心是必然的解決途徑。可持續(xù)發(fā)展大數(shù)據(jù)國際研究中心已經(jīng)進(jìn)行了先行探索,并取得了顯著成效,為推動我國的開放數(shù)據(jù)基礎(chǔ)設(shè)施的跨越式發(fā)展提供了經(jīng)驗積累。
堅持合作開放的科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施云建設(shè)-云安全-云應(yīng)用的實施路徑
開放數(shù)據(jù)基礎(chǔ)設(shè)施能有效提升科研的效率、參與度與可見性,加強(qiáng)科研質(zhì)量與嚴(yán)謹(jǐn)度,促進(jìn)科研團(tuán)隊跨學(xué)科合作。2019年,在CODATA北京會議上,中國科學(xué)家代表提出協(xié)作共建“全球開放科學(xué)云”(GOSC)的倡議,目前已與全球主要信息基礎(chǔ)設(shè)施和國際組織、平臺達(dá)成廣泛共識并建立定期對話機(jī)制,研發(fā)構(gòu)建了首個中歐跨洲際云聯(lián)邦實驗床。
建議:未來,我國應(yīng)在國際大科學(xué)計劃、大科學(xué)裝置的牽引和推動下,充分發(fā)揮我國具有明顯優(yōu)勢的數(shù)據(jù)資源的主導(dǎo)作用,著力推動相關(guān)數(shù)據(jù)分析方法及工具集合的研發(fā),加強(qiáng)與國際組織、國家之間的溝通交流和培訓(xùn),積極參與并推動國際層面的數(shù)據(jù)共享與合作應(yīng)用;同時,應(yīng)充分發(fā)揮中國科學(xué)院開放基礎(chǔ)設(shè)施的引領(lǐng)和推動作用,合作建立國際共享的開放數(shù)據(jù)云服務(wù)體系。
營造融通數(shù)據(jù)生態(tài),發(fā)展基于開放科學(xué)的創(chuàng)新驅(qū)動發(fā)展的范式
以開放數(shù)據(jù)獲取為前導(dǎo)發(fā)展起來的開放科學(xué)和公民科學(xué),與可持續(xù)科學(xué)密切相關(guān)。面向發(fā)展與合作,科技創(chuàng)新應(yīng)該主要體現(xiàn)在將科技進(jìn)步用于創(chuàng)造新需求、新應(yīng)用、新業(yè)態(tài)和新市場,同時創(chuàng)新科技合作模式。
近年,歐美等國新布局的一批科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施呈現(xiàn)問題導(dǎo)向、打破科學(xué)數(shù)據(jù)學(xué)科領(lǐng)域邊界的趨勢。例如,融合神經(jīng)科學(xué)、分布式計算技術(shù)的歐洲腦研究基礎(chǔ)設(shè)施;支持能源消耗和綠色交易的歐洲計算/通信實驗大型研究基礎(chǔ)設(shè)施等。這些設(shè)施有望充分調(diào)動多領(lǐng)域數(shù)據(jù)資源,融合自然科學(xué)各領(lǐng)域、自然科學(xué)與社會科學(xué),成為推進(jìn)交叉融合和跨領(lǐng)域互操作的先行者,營造跨學(xué)科、跨尺度、跨時空的科學(xué)數(shù)據(jù)共享生態(tài)。
建議:鼓勵發(fā)起和建設(shè)科學(xué)、社會問題導(dǎo)向的科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施,調(diào)動盤活多學(xué)科、跨領(lǐng)域的科學(xué)數(shù)據(jù)資源,為解決大規(guī)模、復(fù)雜性科學(xué)問題和社會挑戰(zhàn)提供支撐。
發(fā)展基于開放科學(xué)的創(chuàng)新驅(qū)動發(fā)展的范式,重塑國際科技合作治理模式
開放科學(xué)有利于新科技革命和產(chǎn)業(yè)變革突破經(jīng)典技術(shù)極限,形成新規(guī)則、新政策、新評估標(biāo)準(zhǔn)和新指標(biāo)體系。開放科學(xué)通過對科學(xué)技術(shù)的兼收并蓄,耦合了不同地域、不同領(lǐng)域、不同團(tuán)隊的科研優(yōu)勢,利于促進(jìn)全人類都能夠站在巨人肩膀上做科研,形成累積效應(yīng)。開放科學(xué)數(shù)據(jù)是實現(xiàn)開放科學(xué)的基本條件之一。秉承開放科學(xué)理念,有利于迅速提升我國科研實力。
開放數(shù)據(jù)基礎(chǔ)設(shè)施作為開放科學(xué)數(shù)據(jù)的載體,可為政策制定者提供更為全面的綜合數(shù)據(jù)和信息,為全球性挑戰(zhàn)的綜合政策制定提供方案,同時也可為科研人員的跨領(lǐng)域、跨區(qū)域合作提供新路徑。
建議:遵循從開放數(shù)據(jù)到開放科學(xué)的發(fā)展潮流,利用云計算、大數(shù)據(jù)、區(qū)塊鏈等先進(jìn)技術(shù)與方法,將人工智能賦能大數(shù)據(jù),打造集數(shù)據(jù)-計算-服務(wù)于一體的數(shù)據(jù)共享新模式,促進(jìn)多學(xué)科數(shù)據(jù)關(guān)聯(lián)分析和信息融合,深化多領(lǐng)域數(shù)據(jù)的綜合應(yīng)用,驅(qū)動重大科學(xué)發(fā)現(xiàn)與決策支持。
(作者:郭華東、閆冬梅、何國金、梁棟、孔玲貽,可持續(xù)發(fā)展大數(shù)據(jù)國際研究中心、中國科學(xué)院空天信息創(chuàng)新研究院;陳和生、陳剛,中國科學(xué)院高能物理研究所;黎建輝,可持續(xù)發(fā)展大數(shù)據(jù)國際研究中心、中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心;馬俊才,中國科學(xué)院微生物研究所;編審:黃瑋,《中國科學(xué)院院刊》供稿)