智能化科研(AI4R):第五科研范式
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 人類早期的科研活動至少可以追溯到公元前6世紀(jì)的古希臘,以亞里士多德、歐幾里得為代表的思想家和科學(xué)家作出了重要貢獻(xiàn)。現(xiàn)代科學(xué)研究開始于16—17世紀(jì)的科學(xué)革命,伽利略、牛頓是現(xiàn)代科學(xué)研究的鼻祖。20世紀(jì)中葉以前的幾百年間,科學(xué)研究的方法只有兩種:基于觀察和歸納的實(shí)驗(yàn)研究(第一范式);基于科學(xué)假設(shè)和邏輯演繹的理論研究(第二范式)。電子計(jì)算機(jī)流行以來,計(jì)算機(jī)對復(fù)雜現(xiàn)象的仿真成為第3種科研方式(第三范式)。由于互聯(lián)網(wǎng)的普及引發(fā)數(shù)據(jù)爆炸,近20年來出現(xiàn)了數(shù)據(jù)密集型科學(xué)研究方式(第四范式)。
2007年1月,圖靈獎(jiǎng)得主吉姆·格雷(Jim Gray)在他生前最后一次演講中,描繪了關(guān)于科學(xué)研究第四范式的愿景。他的報(bào)告題目是“eScience:科學(xué)方法的一次革命”,他把數(shù)據(jù)密集型科研看成eScience的組成部分之一,主要強(qiáng)調(diào)數(shù)據(jù)的管理和共享,基本上不涉及人工智能(AI)技術(shù)在科研中的作用。“大數(shù)據(jù)”形成熱潮以來,數(shù)據(jù)驅(qū)動的科研越來越受到重視。但單純的數(shù)據(jù)驅(qū)動有明顯的局限性,模型驅(qū)動與數(shù)據(jù)驅(qū)動一樣重要,兩者需要融合。
“科學(xué)范式”(scientific paradigm)是托馬斯·庫恩在其名著《科學(xué)革命的結(jié)構(gòu)》中首先使用的術(shù)語,主要是指各個(gè)學(xué)科在一定歷史時(shí)期形成的對某種專業(yè)知識的見解與共識。現(xiàn)在這個(gè)術(shù)語已成為很流行的熱詞,含義已經(jīng)泛化。本文討論的“科研范式”是指從宏觀角度看到的科學(xué)研究方式。近幾年來,不少學(xué)者開始倡導(dǎo)第五科研范式。曾經(jīng)大力宣傳第四科研范式的微軟研究院最近也在提倡第五科研范式,成立了新的AI4Science研究中心。2019年11月,筆者發(fā)起舉辦了第667次香山科學(xué)會議,會后在《中國科學(xué)院院刊》2020年第12期發(fā)表了《數(shù)據(jù)科學(xué)與計(jì)算智能:內(nèi)涵、范式與機(jī)遇》綜述論文,文章中明確提出要開啟“第五范式”科學(xué)研究,指出“第五范式”不僅僅是傳統(tǒng)的科學(xué)發(fā)現(xiàn),更是對智能系統(tǒng)的探索和實(shí)現(xiàn),強(qiáng)調(diào)人腦與計(jì)算機(jī)的有機(jī)融合,并預(yù)言再過10—20年,“第五范式”可能逐步成為科學(xué)研究的主流范式之一。
現(xiàn)在還很難對第五科研范式做出嚴(yán)格定義,但其特征已逐步顯露出來,概括起來包括以下6點(diǎn):人工智能全面融入科學(xué)、技術(shù)和工程研究,知識自動化,科研全過程智能化;人機(jī)融合,機(jī)器涌現(xiàn)智能成為科研的組成部分,暗知識和機(jī)器猜想應(yīng)運(yùn)而生;以復(fù)雜系統(tǒng)為主要研究對象,有效應(yīng)對計(jì)算復(fù)雜性非常高的組合爆炸問題;面向非確定性問題,概率和統(tǒng)計(jì)推理在科研中發(fā)揮更大的作用;跨學(xué)科合作成為主流科研方式,實(shí)現(xiàn)前4種科研范式的融合,特別是基于第一性原理的模型驅(qū)動和數(shù)據(jù)驅(qū)動的融合;科研更加依靠以大模型為特征的大平臺,科學(xué)研究與工程實(shí)現(xiàn)密切結(jié)合等。
鄂維南等科學(xué)家將“AI for Science”翻譯成“科學(xué)智能”,這個(gè)術(shù)語已經(jīng)開始流行,可作為第五科研范式定名與翻譯的借鑒,但智能化的科研不限于基礎(chǔ)科學(xué)研究,也包括技術(shù)研究和工程研究的智能化。科學(xué)技術(shù)部和國家自然科學(xué)基金委員會啟動部署的“AI for Science”專項(xiàng)稱為“人工智能驅(qū)動的科學(xué)研究”,但在與實(shí)驗(yàn)、理論、計(jì)算機(jī)仿真、數(shù)據(jù)驅(qū)動等范式名稱放在一起時(shí),又顯得不夠精煉。在以上基礎(chǔ)上,本文將第五科研范式稱為“智能化科研”(AI for Research,簡稱“AI4R”),文字相對精煉一些,內(nèi)容更廣泛,含義也更深刻。
智能化科研(AI4R):成功案例
數(shù)據(jù)驅(qū)動研究方式往往足夠快但不夠精確;而基于第一性原理的理論推演和計(jì)算方式算得準(zhǔn)但不夠快,只能處理小規(guī)模的科學(xué)問題。近幾年,人工智能技術(shù)在生物、材料、制藥等領(lǐng)域的科學(xué)研究中得到廣泛應(yīng)用,AI4R既可以提高科研效率,又能保證科研要求的精確性,成為科學(xué)研究的強(qiáng)大推動力。AI4R的成功案例很多,本文介紹與中國科學(xué)院計(jì)算技術(shù)研究所(以下簡稱“計(jì)算所”)有關(guān)的3個(gè)案例。
蛋白質(zhì)三維結(jié)構(gòu)預(yù)測。利用深度學(xué)習(xí)技術(shù)預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)是AI4R的里程碑式的科研成果。到目前為止,AlphaFold 2已預(yù)測了超過100萬個(gè)物種的2.14億個(gè)蛋白質(zhì)三維結(jié)構(gòu),幾乎涵蓋了地球上所有已知的蛋白質(zhì)。AlphaFold 2不僅是結(jié)構(gòu)生物學(xué)領(lǐng)域的顛覆性突破,更重要的意義是消除了科學(xué)家對人工智能認(rèn)識上的障礙,照亮了AI4R前進(jìn)的道路。過去即使計(jì)算機(jī)科學(xué)家非常精確地預(yù)測了蛋白質(zhì)三維結(jié)構(gòu),也只認(rèn)為是所謂“干實(shí)驗(yàn)”成果,必須要生物學(xué)家做了“濕實(shí)驗(yàn)”以后才會接受。現(xiàn)在生物學(xué)家已能夠相信人工智能的預(yù)測,這是科學(xué)界的跨時(shí)代進(jìn)步。在AlphaFold 2推出以前,計(jì)算所在蛋白質(zhì)三維結(jié)構(gòu)預(yù)測方面就曾經(jīng)做出過國際領(lǐng)先的科研成果。
分子動力學(xué)模擬。中美合作的深度勢能團(tuán)隊(duì)采用全新的“基于深度學(xué)習(xí)的分子動力學(xué)模擬”研究方法,將具有第一性原理精度的分子動力學(xué)模擬規(guī)模擴(kuò)展到1億個(gè)原子,計(jì)算效率提升1 000倍以上。這是國際上首次實(shí)現(xiàn)智能超算與物理模型相結(jié)合,引領(lǐng)了科學(xué)計(jì)算從傳統(tǒng)的計(jì)算模式朝著智能超算方向前進(jìn)。此論文的第一作者賈偉樂目前在計(jì)算所工作。2022年,他將分子動力學(xué)的計(jì)算規(guī)模提升至170億個(gè)原子,計(jì)算模擬的速度提高7倍,一天能夠模擬11.2納秒的物理過程,比2020年獲得戈登·貝爾獎(jiǎng)的成果又提升1—2個(gè)數(shù)量級。
芯片全自動設(shè)計(jì)。2022年5月,計(jì)算所成功利用人工智能技術(shù)設(shè)計(jì)出全球首款全自動生成的32位第五代精簡指令集(RISC-V)中央處理器(CPU)——“啟蒙1號”。設(shè)計(jì)周期縮短至傳統(tǒng)設(shè)計(jì)方法的1/1 000,僅用5小時(shí)就生成了400萬邏輯門。這一創(chuàng)新成果是人工智能在復(fù)雜的工程設(shè)計(jì)領(lǐng)域取得的重大突破,預(yù)示著“AI for Technology”與“AI for Science”一樣,具有十分光明的前途。CPU設(shè)計(jì)的準(zhǔn)確率要達(dá)到99.999 999 999 99%(13個(gè)9!)以上;而若采用神經(jīng)網(wǎng)絡(luò)方法,包括最近很熱門的大語言模型,都無法保證精度。計(jì)算所陳云霽團(tuán)隊(duì)發(fā)明了用二進(jìn)制推測圖(BSD)來表示電路邏輯的新方法,可以將一般布爾函數(shù)的描述復(fù)雜度從指數(shù)級降到多項(xiàng)式級。“啟蒙1號”的一個(gè)重要發(fā)現(xiàn)是,不只是基于神經(jīng)網(wǎng)絡(luò)的語言大模型,類似決策樹的BSD也具有涌現(xiàn)功能。這一意外的發(fā)現(xiàn)引發(fā)了人們對神經(jīng)網(wǎng)絡(luò)之外的智能技術(shù)的期盼,只要模型足夠復(fù)雜,其他的人工智能技術(shù)也可能涌現(xiàn)出意想不到的功能。
智能化科研(AI4R):向智能時(shí)代邁進(jìn)中出現(xiàn)的新科研范式
科研范式隨著人類生產(chǎn)力的進(jìn)步不斷演變。農(nóng)業(yè)時(shí)代只有第一范式,工業(yè)時(shí)代開始流行第二范式,信息時(shí)代出現(xiàn)第三和第四范式。現(xiàn)在人類處于信息時(shí)代的智能化階段,正在向智能時(shí)代邁進(jìn),智能化科研范式順應(yīng)而生。
從1936年圖靈提出計(jì)算模型開始,計(jì)算機(jī)科學(xué)技術(shù)已經(jīng)研究80多年了。現(xiàn)在大家普遍認(rèn)為,所有的計(jì)算機(jī)都是圖靈機(jī)的實(shí)現(xiàn),其實(shí)圖靈模型主要是用來研究計(jì)算的不可判定性。1943年麥卡洛克(McCulloch)和皮茨(Pitts)提出了神經(jīng)元計(jì)算模型,這個(gè)模型在可計(jì)算性上與圖靈模型是等價(jià)的,但對自動機(jī)理論而言,可能比圖靈模型更有價(jià)值。馮·諾依曼曾指出:“圖靈機(jī)和神經(jīng)網(wǎng)絡(luò)模型分別代表了一種重要的研究方式:組合方法和整體方法。McCulloch和Pitts對底層的零件作了公理化定義,可以得到非常復(fù)雜的組合結(jié)構(gòu);圖靈定義了自動機(jī)的功能,并沒有涉及到具體的零件。”這兩條技術(shù)路線一直在競爭,盡管神經(jīng)網(wǎng)絡(luò)模型受到排擠打壓,但相關(guān)學(xué)者始終沒有停止研究。一直到2012年,Hinton等學(xué)者發(fā)明的深度學(xué)習(xí)方法在ImageNet圖像識別比賽中一鳴驚人,神經(jīng)網(wǎng)絡(luò)模型才一下子紅火起來。
現(xiàn)在流行的神經(jīng)網(wǎng)絡(luò)模型與McCulloch和Pitts提出的模型并沒有實(shí)質(zhì)性的改變,能在圖像、語音識別和自然語言理解上取得重大突破,除了采用反向傳播和梯度下降算法外,主要是數(shù)據(jù)量大了幾個(gè)數(shù)量級,計(jì)算機(jī)的算力也增強(qiáng)了幾個(gè)數(shù)量級,量變引起了質(zhì)變。馮·諾伊曼的著作《自復(fù)制自動機(jī)理論》中指出,“自動機(jī)理論的核心概念在于復(fù)雜性,超復(fù)雜的系統(tǒng)會涌現(xiàn)出新的原理”,并提出一個(gè)重要概念——復(fù)雜度閾值。低于復(fù)雜度閾值的系統(tǒng),就會無情地衰退耗散,突破了復(fù)雜度閾值的系統(tǒng),就會由于在數(shù)據(jù)層的擴(kuò)散和變異作用而不斷進(jìn)化,可以做很困難的事情。
現(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型有數(shù)千億甚至上萬億參數(shù),可能已接近能處理困難問題的復(fù)雜度閾值點(diǎn)。神經(jīng)網(wǎng)絡(luò)不是按照確定的算法實(shí)現(xiàn)圖靈計(jì)算,其主要功能是“猜測加驗(yàn)證”。現(xiàn)在流行的卷積神經(jīng)網(wǎng)絡(luò)能夠用于猜下一個(gè)字是什么。猜測和計(jì)算是兩個(gè)不同的概念,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器更合適的名稱是“猜測機(jī)”,而不是“計(jì)算機(jī)”,其解決復(fù)雜問題的效率大大高于圖靈模型。神經(jīng)網(wǎng)絡(luò)模型只是人工智能眾多模型中的一種,只要跨過復(fù)雜度閾值點(diǎn),其他人工智能模型也有可能表現(xiàn)出超乎尋常的功能。智能化科研就是要讓各種人工智能技術(shù)在科研工作中大放異彩。
人工智能技術(shù)經(jīng)過60多年的沉淀和積累,在數(shù)據(jù)和算力均足夠豐富的條件下,已經(jīng)成為推動科研和生產(chǎn)的利器,爆發(fā)出前所未有的能量。盡管實(shí)現(xiàn)真正的通用人工智能還要走很長的路,但毫無疑問,智能化已經(jīng)成為當(dāng)今時(shí)代的主要追求。對時(shí)代的認(rèn)識不能犯錯(cuò)誤,錯(cuò)過時(shí)代轉(zhuǎn)變機(jī)遇將遭受歷史性的降維打擊。
智能化科研(AI4R)的標(biāo)志:機(jī)器涌現(xiàn)智能,人機(jī)物智能融合
第五科研范式的標(biāo)志性事件是,在AlphaFold 2實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)預(yù)測和后來GPT-4表現(xiàn)出的令人驚艷的功能中,機(jī)器猜想都發(fā)揮了關(guān)鍵作用,說明大規(guī)模的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已涌現(xiàn)出某種程度的認(rèn)知智能。盡管開發(fā)者并不能完全解釋機(jī)器的認(rèn)知智能是如何產(chǎn)生的,但實(shí)踐已證明,在很多應(yīng)用中,機(jī)器的猜測是正確的。人造的硅基產(chǎn)品涌現(xiàn)出超出常規(guī)計(jì)算和信息處理的認(rèn)知智能,這是一個(gè)劃時(shí)代的變化。
所謂“涌現(xiàn)”,是指系統(tǒng)中的個(gè)體遵循簡單的規(guī)則,通過局部的相互作用構(gòu)成一個(gè)整體時(shí),一些意想不到的屬性或者規(guī)律會突然在系統(tǒng)層面出現(xiàn),即“系統(tǒng)定量上的變化可以導(dǎo)致系統(tǒng)行為上的定性變化”。生命的形成,蟻群、鳥群的群體性行為,人腦的智慧,人類許多社會行為等都源自“涌現(xiàn)”。人們常說,21世紀(jì)是“復(fù)雜性科學(xué)的世紀(jì)”,而“涌現(xiàn)”就是復(fù)雜性科學(xué)最關(guān)注的主題。美國圣塔菲研究所1984年就開始探索科學(xué)和社會中的涌現(xiàn)行為,試圖創(chuàng)造一種統(tǒng)一的復(fù)雜科學(xué)理論來解釋“涌現(xiàn)”,但至今揭示“涌現(xiàn)”的機(jī)理仍然是一個(gè)開放性的科學(xué)問題。
機(jī)器具有人類解釋不清楚的“暗知識”,這對我們曾經(jīng)固有的認(rèn)識論是一次巨大的沖擊。有些學(xué)者認(rèn)為,計(jì)算機(jī)只能機(jī)械地執(zhí)行人編寫的程序,不可能有智能。但上千億自動生成的參數(shù)構(gòu)成的人工神經(jīng)網(wǎng)絡(luò)已經(jīng)是一個(gè)有“認(rèn)知”能力的復(fù)雜系統(tǒng),其涌現(xiàn)能力不是程序員編程時(shí)直接輸入的,是機(jī)器學(xué)習(xí)形成的復(fù)雜系統(tǒng)自己具有的。所以我們應(yīng)當(dāng)承認(rèn),人有人智,機(jī)有機(jī)“智”。人機(jī)互補(bǔ)是第五科研范式的主要特征之一,今后要爭取做到人類和人工智能“各顯其智,智智與共”。
這里所說的“機(jī)器的認(rèn)知能力”不同于人的認(rèn)知能力,“機(jī)器理解”也不同于人的理解。所謂“機(jī)器理解”是指,如果機(jī)器通過學(xué)習(xí)形成某些規(guī)則,可以實(shí)現(xiàn)一個(gè)符號空間到意義空間的映射,就說它對符號空間具有一定的理解能力。例如,機(jī)器翻譯可以不懂語義,但能將中文“映射”到其他語言,哪怕是沒有接觸過的小語種。人工智能天氣預(yù)報(bào)模型可以不懂氣象理論,但能做出比數(shù)值天氣預(yù)報(bào)還精確的預(yù)報(bào)。這可能是一種新穎的“理解”形式,一種能夠?qū)崿F(xiàn)預(yù)測的理解形式。如同我們可以說飛機(jī)具有與鳥類不同的飛行能力一樣,不必糾纏機(jī)器的“理解”是否與人類一樣。理解和意識有不同層次的內(nèi)涵,有理解能力未必有自我意識。將理解能力與自我意識剝離,有助于降低人們對人工智能莫名其妙的恐懼。對機(jī)器學(xué)習(xí)形成的大模型是否會具有類似人腦的涌現(xiàn)能力,不同的學(xué)者有不同的判斷。Hinton等學(xué)者始終堅(jiān)信,人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元雖然簡單,但復(fù)雜的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)與人類的大腦有某種程度的相似性。正是由于少數(shù)有前瞻眼光的科學(xué)家的這一份堅(jiān)信,默默耕耘幾十年,才達(dá)成今天人工智能技術(shù)的大突破。筆者曾問過ChatGPT和“文心一言”:“機(jī)器是不是真的具有智能?”ChatGPT回答:“機(jī)器確實(shí)擁有自己的智能”。“文心一言”回答:“目前的主流觀點(diǎn)認(rèn)為,機(jī)器暫時(shí)沒有真正的智能。”機(jī)器的回答與創(chuàng)建者選擇學(xué)習(xí)內(nèi)容的意向有關(guān),也許,中美兩國學(xué)者對機(jī)器智能的不同認(rèn)識是導(dǎo)致我們在大模型研發(fā)上落后的背后原因之一。
智能化科研(AI4R)的主要目標(biāo):有效應(yīng)對難解的組合爆炸問題
傳統(tǒng)科學(xué)不但能揭示自然界的一些奧秘,而且能解決很多困難的工程問題,例如大飛機(jī)的制造。一架大飛機(jī)有數(shù)百萬個(gè)零部件,因?yàn)槲覀兠靼酌總€(gè)零件的作用,也理解它的整個(gè)系統(tǒng)的空氣動力學(xué)原理,其復(fù)雜性已經(jīng)在我們的掌握之中。但對于大腦,即使我們理解了每一個(gè)神經(jīng)元,仍然不能解釋意識和智慧是如何產(chǎn)生的,因?yàn)閺?fù)雜系統(tǒng)的功能和性質(zhì)并不是其組成部分的線性之和。在生物、化學(xué)、材料、制藥等許多領(lǐng)域,科學(xué)問題中假設(shè)空間非常大,例如小分子候選藥物的數(shù)量估計(jì)有1060種,可能成為穩(wěn)定材料的總數(shù)多達(dá)10180種,逐個(gè)篩選完全不可行。這就是我們常說的“組合爆炸”,數(shù)學(xué)家稱之為“維度災(zāi)難”。我們有了打開科學(xué)大門的鑰匙,卻沒有力氣把沉重的大門推開。經(jīng)過300多年的科學(xué)探索,知識之樹底層的果實(shí)差不多都摘光了,留在樹尖的果實(shí)幾乎都是難啃的復(fù)雜之果。過去4種科研范式難以解決的組合爆炸問題是第五范式的主要用武之地。
人工智能的目標(biāo)不是一味地模擬語音、視覺、語言等人類自身的基本技能,而是要讓人工智能擁有和人類一樣認(rèn)識世界和改造世界的能力。人腦中并沒有確定性的算法,而是采用抽象、模糊、類比、近似等非確定的方法來降低認(rèn)知的復(fù)雜性。馮·諾伊曼早就預(yù)言,“信息理論包括兩大塊:嚴(yán)格的信息論和概率的信息論。以概率統(tǒng)計(jì)為基礎(chǔ)的信息理論大概對于現(xiàn)代計(jì)算機(jī)設(shè)計(jì)更加重要。”近幾年機(jī)器學(xué)習(xí)的巨大進(jìn)步,主要是采用了概率統(tǒng)計(jì)模型,對我們不完全了解的問題進(jìn)行建模分析。機(jī)器學(xué)習(xí)提供了跨尺度建模的工具,能跨越所有物理尺度進(jìn)行建模和計(jì)算,通過試錯(cuò)和調(diào)整,不斷完善所獲得的結(jié)果,追求統(tǒng)計(jì)意義上最終結(jié)果的可接受性。統(tǒng)計(jì)意義的正確性與確定性計(jì)算程序的嚴(yán)格正確性是解決復(fù)雜問題的不同思路。人工智能研究的新近發(fā)展體現(xiàn)一種趨勢:放棄絕對性,擁抱不確定性,即只求近似解或滿足一定精度的解。這或許是這次人工智能“意外”取得成功的深層原因。
我們把第五科學(xué)范式稱為智能化科研,原因之一就是,只有突破還原論和經(jīng)典計(jì)算范式的思想枷鎖,采用智能化的新范式,才能應(yīng)對輸入、輸出和求解過程的不確定性。問題的復(fù)雜性隨計(jì)算模型的改變而改變。人們常說的NP困難問題是對圖靈計(jì)算模型而言的。自然語言理解、模式識別等NP困難問題在大模型上能有效解決,說明大語言模型(LLM)對這類問題的求解效率遠(yuǎn)遠(yuǎn)超過圖靈計(jì)算模型。AI4R的成功本質(zhì)上不是大算力出奇跡,而是改變計(jì)算模型的勝利。
解決復(fù)雜度不高的問題,人們追求采用“白盒模型”,強(qiáng)調(diào)可解釋性。但對于非常復(fù)雜的問題,短期內(nèi)難以獲得“白盒模型”。科學(xué)研究可以被視為將“黑盒模型”轉(zhuǎn)化為“白盒模型”的過程,即從對某現(xiàn)象或過程不了解逐步推進(jìn)到充分理解其內(nèi)部機(jī)制和原理。智能化科研提醒我們,一定時(shí)期內(nèi)對深度學(xué)習(xí)這一類“黑盒模型”要有一定的容忍度,既要以“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”為原則,承認(rèn)“黑盒模型”某種程度的合理性,在其基礎(chǔ)上開展深入研究,促進(jìn)科學(xué)技術(shù)發(fā)展;又要防止?jié)撛诘氖Э鼗虿涣己蠊钥萍紓惱肀O(jiān)管科研。
智能化科研(AI4R)的重要特征:平臺型科研
今天的科研還需要依靠科技工作者個(gè)人的聰明才智和想象力,好奇心驅(qū)動的科研仍然是科研的重要組成部分,但科研工作越來越離不開科研的三要素:高質(zhì)量的數(shù)據(jù)、先進(jìn)的算法模型和強(qiáng)大的計(jì)算能力。近幾年,這3個(gè)要素的規(guī)模都在迅速擴(kuò)大,大數(shù)據(jù)、大模型和大算力已開始構(gòu)成不可或缺的科研大平臺,平臺型科研也成為第五科學(xué)范式的重要特征。
ChatGPT的問世掀起了構(gòu)建大模型的熱潮,模型的參數(shù)規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超出人們過去的想象。大模型確實(shí)涌現(xiàn)了一些小模型不具備的功能和性能,但大模型究竟做到多大規(guī)模才到盡頭,現(xiàn)在還沒有定論。大模型必然需要大算力,訓(xùn)練大模型需要的巨大電力引起了人們的擔(dān)憂,也促使科技界探索大幅度節(jié)能的變革性器件和計(jì)算系統(tǒng)。大語言模型目前主要受到企業(yè)界的青睞,能不能把大語言模型當(dāng)成通用的知識庫,為大科學(xué)模型提供一些基礎(chǔ)的知識和常識,提高科學(xué)大模型的泛化能力,是需要探索的重大科學(xué)問題。以大模型為代表的人工智能還處在發(fā)展的初期,現(xiàn)在的人工智能計(jì)算只相當(dāng)于科學(xué)計(jì)算的電子管計(jì)算機(jī)時(shí)代,迫切需要晶體管和集成電路式的重大發(fā)明。
現(xiàn)在流行的說法是“大算力出奇跡”,這種說法強(qiáng)調(diào)了模型規(guī)模和數(shù)據(jù)規(guī)模的作用,在一定程度上是正確的。但從理論的角度來看,線性擴(kuò)展計(jì)算能力對擴(kuò)大可解決的NP困難問題的規(guī)模沒有本質(zhì)性幫助,單純提高算力不是萬能藥。如果圍棋擴(kuò)大到20×20的棋盤,只用在19×19的基礎(chǔ)上橫縱兩邊各多加1條線,但野蠻搜索的算力需要提高1018倍。訓(xùn)練圍棋模型搜索到的游戲位置占所有可能游戲位置的比例是幾乎無窮小的數(shù)(10-150)。計(jì)算所全自動設(shè)計(jì)CPU的算法將幾乎無窮大的搜索空間壓縮到106。這些成功案例都說明,出奇跡的真正原因是壓縮搜索空間,這是靠智能算法和模型優(yōu)化!世界著名的計(jì)算機(jī)科學(xué)家李明教授從第一性原理出發(fā),證明了“理解就是壓縮,大語言模型本質(zhì)上就是壓縮”。現(xiàn)在全國推出了幾百個(gè)大大小小的機(jī)器學(xué)習(xí)模型,但如果只是用小模型模仿大模型,不在算法的優(yōu)化、模型的微調(diào)對齊和數(shù)據(jù)的清洗整理上大功夫,只會浪費(fèi)大量算力,難以縮小與國外的差距。
目前,科技界對大模型的前途存在兩種爭鋒相對的預(yù)判。以O(shè)penAI公司為代表的一些科學(xué)家認(rèn)為,只要擴(kuò)大模型和數(shù)據(jù)的規(guī)模,增加算力,未來的大模型很可能會涌現(xiàn)出現(xiàn)在沒有的新功能,呈現(xiàn)更好的通用性。更多學(xué)者認(rèn)為,大模型不會一直保持這兩年的發(fā)展速度,與其他技術(shù)一樣,會從爆發(fā)式增長走向飽和。因?yàn)榘茨壳坝?xùn)練大模型的算力3個(gè)月翻一番的增長速度,如果延續(xù)10年,算力就要增加1萬億倍,這是不可能發(fā)生的事。現(xiàn)在下結(jié)論哪種預(yù)判正確還為時(shí)過早。大語言模型可能不是實(shí)現(xiàn)通用人工智能的最佳道路,只是人工智能發(fā)展過程中的一個(gè)階段性技術(shù),但它比前兩波人工智能采用的技術(shù)具有更大的使用價(jià)值。我國必須盡快縮小在大模型科研與產(chǎn)業(yè)化上與國外的差距,走出符合國情的大模型發(fā)展之路,同時(shí)努力探索不同于大模型的人工智能新途徑。
第五科研范式需要的科研大平臺實(shí)際上是涵蓋科研三要素的智能化科研基礎(chǔ)設(shè)施,除了共享的大科學(xué)模型和工具軟件,還包括海量的科學(xué)數(shù)據(jù)、知識庫,當(dāng)然還要提供統(tǒng)一調(diào)度的算力。基于大平臺的新科研范式將降低獲取數(shù)據(jù)、模型和知識的成本,提升算法和模型的應(yīng)用能力,加速新知識的迭代。麥卡錫和尼爾森對人工智能(AI)做出過另一種解釋:AI=Automation of Intelligence(智能的自動化)。知識獲取、處理和存儲的自動化也需要大平臺來實(shí)現(xiàn)。建設(shè)全國規(guī)模先進(jìn)的科研基礎(chǔ)設(shè)施,需要充分認(rèn)證、精心謀劃。其中,跨領(lǐng)域的大科學(xué)模型與垂直領(lǐng)域?qū)I(yè)模型的協(xié)同配合是需要考慮的重要問題。人工智能發(fā)展的歷史已經(jīng)證明,忽視模型的泛化能力,退回到過去的專家系統(tǒng)是一條沒有希望的道路。但通用性也是一個(gè)相對概念,人類本身也不具有絕對的通用性,發(fā)展人工智能不必把理想的通用性作為唯一追求的目標(biāo),應(yīng)重視借助大模型在一個(gè)行業(yè)或領(lǐng)域內(nèi)提高效率,降低成本。真正通用的人工智能至少還需要20年以上的時(shí)間才能實(shí)現(xiàn),近20年內(nèi)要采取通用和專用并重的技術(shù)路線。算力網(wǎng)的建設(shè)既要考慮“塊塊”的地域需求,也要考慮“條條”的各行業(yè)業(yè)務(wù)特點(diǎn),各個(gè)不同的行業(yè)都應(yīng)該構(gòu)成高效率的知識和資源共享的專業(yè)子網(wǎng)。
智能化科研(AI4R)的重要實(shí)現(xiàn)途徑:跨學(xué)科交叉與多種科研范式的融合
計(jì)算科學(xué)與不同學(xué)科的融合,正在驅(qū)動一場科學(xué)的數(shù)字革命。孤立地追求單學(xué)科發(fā)展已經(jīng)不合理了,學(xué)科交叉融合是第五科研范式——智能化科研(AI4R)的重要實(shí)現(xiàn)途徑之一。近百年來,學(xué)科越分越細(xì)。1900年約有500門學(xué)科,2000年大約是5 000門,100年增加10倍。如果繼續(xù)按照這個(gè)趨勢發(fā)展,2100年可能增加到50 000門。我國教育部門設(shè)置的學(xué)科也是越來越多,與學(xué)科融合發(fā)展的趨勢是否背道而馳?如何在推動智能化科研的過程中,大力改革我國的科研和教育,值得高度重視。
人工智能已經(jīng)廣泛應(yīng)用到前4種科研范式,不論是自動化的實(shí)驗(yàn)設(shè)備、計(jì)算機(jī)輔助的理論分析、可視化的計(jì)算機(jī)模擬,還是智能化的數(shù)據(jù)挖掘,人工智能技術(shù)都發(fā)揮了關(guān)鍵的作用。第五科研范式并沒有取代原來的4種范式,只是在前4種范式無能為力的情況下才凸顯它的威力。第五科研范式也不是科研范式演進(jìn)的終結(jié),今后可能出現(xiàn)第六科研范式、第七科研范式……。在第五科研范式中,模型驅(qū)動和數(shù)據(jù)驅(qū)動深度融合,“數(shù)據(jù)”和“原理”可以相互轉(zhuǎn)化,從“數(shù)據(jù)”中可以提煉出經(jīng)驗(yàn)性“原理”,也可以從第一性原理出發(fā)仿真模擬出高質(zhì)量的數(shù)據(jù)。現(xiàn)在各個(gè)領(lǐng)域中需要解決的難題大多需要人機(jī)交互,人在回路中,人機(jī)融合的具身智能將發(fā)揮越來越大的作用。
第五科研范式還有一個(gè)特點(diǎn)是科研與工程的融合。構(gòu)建科研大平臺,篩選高質(zhì)量的數(shù)據(jù),將大模型做到極致,都需要高水平的工程師。今天世界上引領(lǐng)人工智能的不是一流的大學(xué),也不是國立實(shí)驗(yàn)室,而是OpenAI、DeepMind這樣的創(chuàng)業(yè)公司。這些科研團(tuán)隊(duì)不僅具備前沿性、原創(chuàng)性基礎(chǔ)科研能力,還做了大量系統(tǒng)研發(fā)和工程開發(fā),而且具備開發(fā)技術(shù)平臺、研發(fā)產(chǎn)品、推進(jìn)商業(yè)化的能力。我國要在人工智能領(lǐng)域進(jìn)入國際第一方陣,需要集中全國優(yōu)勢力量,構(gòu)建集產(chǎn)學(xué)研和工程開發(fā)于一體的新型科研團(tuán)隊(duì)。
結(jié)語:積極主動參與到科研智能化的革命中
科研的智能化是一場科技上的革命。它帶來的機(jī)遇和挑戰(zhàn)將決定未來20年,中國在科技發(fā)展上是與國際先進(jìn)水平拉大差距還是迎頭趕上。決定前途的不完全是技術(shù)上被人“卡脖子”,而是我們自己思想認(rèn)識上的障礙。有兩種認(rèn)識在影響我們的決策:認(rèn)為只要是計(jì)算機(jī)執(zhí)行的軟件都是人事先編好的算法,所謂機(jī)器智能都是無稽之談;人工智能可能產(chǎn)生人控制不了的風(fēng)險(xiǎn),必須事先確定其產(chǎn)生的結(jié)果是完全安全可信的,才能允許推廣使用。第1種認(rèn)識主要是來自計(jì)算機(jī)科學(xué)家內(nèi)部,第2種認(rèn)識可能主要來自政府部門。其實(shí),計(jì)算機(jī)開始出現(xiàn)認(rèn)知智能是一件劃時(shí)代的重大突破,我們不能視而不見。機(jī)器產(chǎn)生的認(rèn)知是基于隨機(jī)性和概率分布,令人震驚的正確預(yù)測和所謂“幻覺”是一個(gè)硬幣的兩面,相輔相成。如果強(qiáng)行決定人工智能模型不允許出現(xiàn)幻覺,那它的涌現(xiàn)能力也就沒有了。我們必須在與幻覺共存的環(huán)境下發(fā)展人工智能技術(shù),發(fā)展與安全必須雙輪驅(qū)動。
所謂“AI for Science”本質(zhì)上是“AI for Scientists”。人工智能科學(xué)家和工程師不是智能化科研的主角,各行業(yè)的科學(xué)家才是主角,因?yàn)楦鱾€(gè)領(lǐng)域的智能化建模一定是以本領(lǐng)域的科學(xué)家為主來完成。各領(lǐng)域的科學(xué)家要擔(dān)當(dāng)起這份重任,自身需要智能化轉(zhuǎn)型。如果科學(xué)家不懂計(jì)算機(jī)、不懂人工智能,要推動AI4R就非常困難。目前,推動AI4R主要的阻力來自科學(xué)家本身,因?yàn)檫€有不少科學(xué)家認(rèn)為智能化不屬于本科學(xué)的范疇,認(rèn)為學(xué)科的交叉融合不是正統(tǒng)科學(xué)。只有廣大科學(xué)家積極主動地參與,智能化科研才能走上健康快速發(fā)展的軌道。
(作者:李國杰中國科學(xué)院計(jì)算技術(shù)研究所。《中國科學(xué)院院刊》供稿)