推動我國大模型開源創(chuàng)新生態(tài)建設(shè)的挑戰(zhàn)與建議
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 大模型的涌現(xiàn)和同質(zhì)化能力不僅將大幅提升人類的認(rèn)知效率,還將引發(fā)經(jīng)濟、社會、文化等領(lǐng)域的變革與重塑。世界主要國家爭相加快推進大模型發(fā)展,探索大模型發(fā)展的有效路徑成為當(dāng)前關(guān)注的焦點。美國大模型開源創(chuàng)新生態(tài)的繁榮是其技術(shù)和產(chǎn)業(yè)發(fā)展始終走在前列的重要原因。一方面,大量開源的基礎(chǔ)大模型層出不窮,不斷推動底層技術(shù)性能的進步。例如,以開放式大語言預(yù)訓(xùn)練模型OPT、GPT-NeoX-20B等為代表的早期開源大模型的推出促進了開源社區(qū)對大模型的研究,美國OpenAI公司推出的GPT大模型的早期版本也完全開源。開源情況下,研發(fā)者能直接接觸具有前沿性能的大模型,通過對已有開源大模型進行微調(diào)或者采用更大、更高質(zhì)量數(shù)據(jù)集及更大規(guī)模模型參數(shù)創(chuàng)建性能更優(yōu)的基礎(chǔ)大模型,推動開源大模型技術(shù)性能快速進步。另一方面,以開源大模型為基礎(chǔ)的開源應(yīng)用不斷出現(xiàn),推動大模型產(chǎn)業(yè)的壯大。以AI(人工智能)繪畫生成工具Stable Diffusion為代表的開源大模型形成了廣泛的用戶社區(qū),衍生出極具多樣性的應(yīng)用場景,打開了大模型產(chǎn)業(yè)應(yīng)用的想象空間。
與之相比,盡管我國部分大模型性能突出,但大模型上下游產(chǎn)業(yè)鏈各個環(huán)節(jié)缺乏協(xié)同,存在競爭無序和資源浪費現(xiàn)象。一方面,存在大量未開源的低質(zhì)量大模型,導(dǎo)致低水平重復(fù)建設(shè),難以真正推動我國大模型的發(fā)展;另一方面,大模型上游涉及的數(shù)據(jù)、算力,以及下游涉及的應(yīng)用,均未能建立起真正的開源開放生態(tài),阻礙了我國大模型產(chǎn)業(yè)的發(fā)展。這一狀態(tài)將影響我國大模型產(chǎn)業(yè)的可持續(xù)發(fā)展,難以保障我國科技安全和產(chǎn)業(yè)鏈安全。
經(jīng)驗表明,開源創(chuàng)新生態(tài)能幫助匯聚全球開發(fā)者智慧以推動大模型技術(shù)進步,并激發(fā)社會創(chuàng)新活力加快大模型應(yīng)用落地,能夠憑借開源開放這一全球公認(rèn)的突破科技壟斷或制約的有力手段推動我國大模型及相關(guān)產(chǎn)業(yè)發(fā)展。然而,現(xiàn)有研究缺乏對大模型開源創(chuàng)新生態(tài)的關(guān)注。本文從上游供應(yīng)生態(tài)、下游應(yīng)用生態(tài)和治理協(xié)調(diào)生態(tài)3個維度回顧開源創(chuàng)新生態(tài)構(gòu)建的相關(guān)經(jīng)驗;從關(guān)系到大模型性能的底層算法、數(shù)據(jù)和算力維度,大模型下游產(chǎn)業(yè)生態(tài)搭建現(xiàn)狀,大模型開源治理體系,以及政府系統(tǒng)協(xié)同政策推動方面,分析目前我國大模型開源創(chuàng)新生態(tài)構(gòu)建存在的問題;在此基礎(chǔ)上,提出構(gòu)建開源創(chuàng)新生態(tài)推動大模型產(chǎn)業(yè)發(fā)展的相關(guān)對策建議。
開源創(chuàng)新生態(tài)對發(fā)展我國大模型的重要意義
大模型是指包含超大規(guī)模參數(shù)(通常在10億個以上)的深度學(xué)習(xí)或機器學(xué)習(xí)模型,具有基礎(chǔ)資源門檻高、產(chǎn)業(yè)集群效應(yīng)強和潛在壟斷性大等特點,后發(fā)企業(yè)難以快速形成行業(yè)積累實現(xiàn)追趕。開發(fā)貢獻者、行業(yè)開源者、開源使用者等多元創(chuàng)新主體基于開放、協(xié)作和共享理念,圍繞數(shù)字基礎(chǔ)設(shè)施構(gòu)建協(xié)同創(chuàng)新和價值共創(chuàng)的開源創(chuàng)新生態(tài),有助于整合資源降低大模型研發(fā)成本,匯聚眾智促進大模型技術(shù)迭代演進,形成相對競爭優(yōu)勢,從而有效推動大模型的發(fā)展與趕超。
整合底層基礎(chǔ)資源,降低行業(yè)研發(fā)成本
大模型往往需要大量的訓(xùn)練數(shù)據(jù)、多種不同的學(xué)習(xí)任務(wù)及強大的計算資源支撐,致使訓(xùn)練成本巨大(例如,GPT-3的訓(xùn)練據(jù)估計花費超過4 600萬美元)。開源創(chuàng)新生態(tài)一方面能夠促進基礎(chǔ)數(shù)據(jù)資源的自由流動和高速聚集整合,從頂層設(shè)計上擴大數(shù)據(jù)規(guī)模、提高數(shù)據(jù)質(zhì)量和多樣性,加強中文數(shù)據(jù)的標(biāo)準(zhǔn)化集成和持續(xù)積累優(yōu)化,為大模型算法和技術(shù)研發(fā)提供數(shù)據(jù)保障;另一方面可以提供基礎(chǔ)的大模型算法技術(shù)并促進算力基礎(chǔ)設(shè)施的共建共用,以低成本的開放協(xié)作模式推動開發(fā)者充分探索參數(shù)、數(shù)據(jù)和算力組合情況下的性能表現(xiàn),推動大模型整體的改進創(chuàng)新。由此,開源創(chuàng)新生態(tài)能夠通過數(shù)據(jù)共享、算法開源、算力基礎(chǔ)設(shè)施共建共用等方式,解決大模型研發(fā)和應(yīng)用中單一機構(gòu)難以完全滿足數(shù)據(jù)、算法和算力資源要求的問題,從而降低企業(yè)乃至全社會商業(yè)化大模型的成本。可見,開源創(chuàng)新生態(tài)有助于打破壟斷、降低大模型技術(shù)研發(fā)和優(yōu)化的競爭壁壘,提高大模型數(shù)據(jù)和算力等基礎(chǔ)設(shè)施的使用效率,加速推動我國大模型技術(shù)的創(chuàng)新發(fā)展及快速應(yīng)用。
推動技術(shù)透明可信,促進技術(shù)迭代創(chuàng)新
大模型高昂的研發(fā)成本限制了學(xué)術(shù)界、非營利組織和較小規(guī)模工業(yè)實驗室研究人員對大模型的研究和訪問;不僅如此,閉源的大模型研發(fā)過程大幅降低了技術(shù)透明度和可信度,難以匯聚社會多方力量深化對大模型技術(shù)相關(guān)道德倫理風(fēng)險的認(rèn)知,進而阻礙大模型技術(shù)在各行業(yè)中的落地應(yīng)用。大模型開源創(chuàng)新生態(tài)能降低各方潛在參與者參與大模型研究的難度,使得研究者更好理解大模型工作原理,提升社會對大模型應(yīng)用接受度。同時,大模型的發(fā)展具有較強的產(chǎn)業(yè)集群效應(yīng)(圖1),開源創(chuàng)新生態(tài)有助于數(shù)據(jù)、算法和算力全方位協(xié)同,供應(yīng)商、從業(yè)人員、平臺、服務(wù)、數(shù)據(jù)和生產(chǎn)有效結(jié)合,加快大模型在各個產(chǎn)業(yè)中的應(yīng)用,促進從模型層、中間層到應(yīng)用層的多元主體價值共創(chuàng)。開源開放有助于建立社會對大模型技術(shù)的信任,推動不同級別大模型在各個行業(yè)的應(yīng)用,而通過廣泛應(yīng)用場景積累的技術(shù)需求和技術(shù)問題將反哺大模型技術(shù)本身,推動大模型技術(shù)迭代發(fā)展。
以非對稱競爭優(yōu)勢,打破潛在行業(yè)壟斷
開源開放是全球公認(rèn)的突破科技壟斷或制約的有力手段,推動大模型開源創(chuàng)新生態(tài)建設(shè)不僅將為我國大模型技術(shù)提供新的發(fā)展機遇,還有望推動我國大模型產(chǎn)業(yè)出海,打破潛在行業(yè)壟斷,化被動為主動。“微軟Windows+OpenAI大模型+英偉達(dá)GPU”通過強強聯(lián)合綁定形成新的壟斷生態(tài),阻礙我國信創(chuàng)產(chǎn)業(yè)發(fā)展、威脅我國信創(chuàng)產(chǎn)業(yè)的科技安全和產(chǎn)業(yè)鏈安全。大模型開源創(chuàng)新生態(tài)能充分發(fā)揮我國在開源芯片等領(lǐng)域的技術(shù)優(yōu)勢,并通過集中攻關(guān)開辟新賽道形成非對稱競爭優(yōu)勢。同時,推動我國大模型開源創(chuàng)新生態(tài)在全球大模型生態(tài)中占據(jù)一席之地,可為我國大模型技術(shù)在其他國家的應(yīng)用提供良好契機。這能夠打破國外大模型的潛在壟斷生態(tài),擺脫對歐美科技基于封閉知識產(chǎn)權(quán)的“非對稱依賴”。既往發(fā)展經(jīng)驗表明,構(gòu)建開源創(chuàng)新生態(tài)不僅能推動上下游相關(guān)產(chǎn)業(yè)健康有序協(xié)同發(fā)展,還能掌握一定技術(shù)發(fā)展路線話語權(quán)和主導(dǎo)權(quán),使我國軟件產(chǎn)業(yè)牢牢嵌套在國際整體生態(tài)之中,打破制約壟斷。
構(gòu)建開源創(chuàng)新生態(tài)的國際經(jīng)驗
開源運動從軟件代碼的公開協(xié)作開始,其開放共享的理念逐步擴散到計算機及相關(guān)產(chǎn)業(yè)的方方面面。越來越多來自全球的個人開發(fā)者和組織積極投身到開源運動中,數(shù)十年間國際上圍繞開源逐步構(gòu)建起穩(wěn)固完善的上游供應(yīng)生態(tài)、豐富多元的下游應(yīng)用生態(tài)和公開有效的治理協(xié)調(diào)生態(tài),其發(fā)展經(jīng)驗值得借鑒以構(gòu)建我國大模型開源創(chuàng)新生態(tài)。
構(gòu)建穩(wěn)固完善的開源上游供應(yīng)生態(tài)
上游供應(yīng)生態(tài)的發(fā)展為開源項目的技術(shù)進步和持續(xù)創(chuàng)新奠定了基礎(chǔ)。
支持開發(fā)者的開發(fā)工具和資源是上游供應(yīng)生態(tài)的關(guān)鍵組成部分。開源項目可以為開發(fā)者提供友好的協(xié)作工具、文檔和教育資源,以幫助他們理解和使用項目,提高開發(fā)效率并確保代碼質(zhì)量。在國際大模型開源過程中,這些開發(fā)工具和資源也被大量采用。例如,開源分布式版本控制系統(tǒng)Git為開發(fā)者提供了管理代碼版本、協(xié)作開發(fā)和代碼審查等功能,其廣泛應(yīng)用使得開發(fā)者能夠更好地管理和追蹤代碼的變更,同時也有助于團隊間的協(xié)作和合作。集成開發(fā)環(huán)境(IDE)和編程語言工具鏈等開發(fā)工具為開發(fā)者提供了高效的編寫環(huán)境,Visual Studio Code、Eclipse、PyCharm等開放的集成開發(fā)環(huán)境提供了豐富的功能和插件生態(tài)系統(tǒng),使得開發(fā)者能夠高效地編寫、測試和調(diào)試代碼。
支持開發(fā)者的數(shù)據(jù)是上游供應(yīng)生態(tài)的關(guān)鍵一環(huán)。作為軟件開發(fā)的重要底座,數(shù)據(jù)對應(yīng)用性能訓(xùn)練的提升至關(guān)重要。開放的數(shù)據(jù)集不僅有利于構(gòu)建公開透明的協(xié)作環(huán)境,同時能大幅降低技術(shù)開發(fā)前期成本及開發(fā)門檻,推動技術(shù)進步。目標(biāo)檢測、自動駕駛、人臉識別、自然語言處理、文本監(jiān)測、醫(yī)療等方向均有大量經(jīng)典開源數(shù)據(jù)集,例如人臉識別領(lǐng)域的YouTube Face Database包含1595個不同人的3425個視頻,總計671.41 GB數(shù)據(jù),能夠幫助訓(xùn)練優(yōu)化人臉識別算法,減少開發(fā)人員在技術(shù)早期開發(fā)過程中遇到的困難。這些經(jīng)典開源數(shù)據(jù)集也是大模型產(chǎn)生之初可靠的數(shù)據(jù)來源。
打造豐富多元的開源下游應(yīng)用生態(tài)
下游應(yīng)用生態(tài)包括開源軟件的應(yīng)用和集成,以及相關(guān)的商業(yè)生態(tài)系統(tǒng)。豐富多元的下游應(yīng)用生態(tài)能吸引更多開發(fā)者和企業(yè)使用、擴展和創(chuàng)造基于開源項目的應(yīng)用,促進相關(guān)產(chǎn)業(yè)的繁榮發(fā)展。以往的開源下游應(yīng)用生態(tài)構(gòu)建經(jīng)驗值得我國在打造大模型開源下游應(yīng)用生態(tài)過程中學(xué)習(xí)。
廣泛的用戶和開發(fā)者參與,從不同的角度和需求出發(fā)為軟件貢獻代碼、提供反饋并解決問題,從而推動軟件本身的發(fā)展和改進。例如,Android移動操作系統(tǒng)的成功很大程度上得益于其擁有豐富多樣的下游應(yīng)用。開發(fā)者可以通過使用Android開發(fā)工具包(SDK)創(chuàng)建應(yīng)用程序,并通過Google Play商店這一應(yīng)用市場將大量涵蓋各種領(lǐng)域和需求的應(yīng)用程序分發(fā)給用戶。由此,Android打造的多元下游應(yīng)用生態(tài)為用戶提供了廣泛的選擇,這種繁榮的應(yīng)用生態(tài)系統(tǒng)吸引了全球范圍內(nèi)的開發(fā)者和企業(yè),推動了Android平臺的發(fā)展和創(chuàng)新,促進Android系統(tǒng)產(chǎn)業(yè)整體的發(fā)展。又如,OpenAI也開放其大模型應(yīng)用程序接口(API),鼓勵其他開發(fā)者將其大模型服務(wù)集成進其應(yīng)用產(chǎn)品中,充分開發(fā)下游應(yīng)用生態(tài)。
通過專門的支持機構(gòu)或社區(qū)來提供技術(shù)支持、文檔、培訓(xùn)和社區(qū)管理等服務(wù)。這可以幫助用戶和開發(fā)者更好地理解和使用開源軟件,并解決在實際應(yīng)用中遇到的問題。例如,開源機器學(xué)習(xí)框架TensorFlow和PyTorch都有龐大的社區(qū)支持和專門的支持機構(gòu)。這些支持機構(gòu)提供了官方文檔、教程、示例代碼等資源,幫助用戶和開發(fā)者學(xué)習(xí)和使用這些框架。同時,還通過舉辦培訓(xùn)課程、開發(fā)者大會等活動,促進用戶和開發(fā)者之間的交流和合作。
發(fā)展基于開源軟件的下游商業(yè)生態(tài)系統(tǒng)。開源軟件商業(yè)生態(tài)系統(tǒng)的核心在于開源軟件的產(chǎn)品和服務(wù)提供商,他們在開源軟件的基礎(chǔ)上通過提供定制化的解決方案、額外高級功能、代碼托管或整合、搭建并運營插件市場、提供培訓(xùn)和咨詢等運維服務(wù)等模式(表1)來謀求商業(yè)回報。經(jīng)驗表明,開源商業(yè)化有助于開源產(chǎn)出成果發(fā)揮價值,幫助其實現(xiàn)“價值創(chuàng)造—價值實現(xiàn)—價值分配”的合理閉環(huán)。形成有效商業(yè)模式的下游開源商業(yè)生態(tài)系統(tǒng)不僅對開源項目本身的健康可持續(xù)發(fā)展具有重要作用,還能促進同類技術(shù)的持續(xù)創(chuàng)新和市場競爭。美國大模型領(lǐng)域也積極探索開源商業(yè)化模式,意圖構(gòu)建起繁榮可持續(xù)的開源大模型下游商業(yè)生態(tài)。例如,美國Stability AI公司通過開發(fā)開源大模型Stable Diffusion的商用版本,為客戶提供定制拓展服務(wù)來促進大模型的應(yīng)用。
培育公開有效的開源治理協(xié)調(diào)生態(tài)
開源治理協(xié)調(diào)生態(tài)涉及開源項目的決策、管理和社區(qū)參與等方面,開源治理協(xié)調(diào)生態(tài)的健康發(fā)展對于項目的長期穩(wěn)定和社區(qū)的繁榮至關(guān)重要。主要包括以下3個方面。
公開透明的決策流程和溝通機制能使所有人了解技術(shù)路線決策細(xì)節(jié),從而對項目建立長期的信任,促進參與和合作。例如,在美國發(fā)布的Linux內(nèi)核社區(qū)采用郵件列表作為主要溝通方式,由此使得項目成員能隨時了解項目發(fā)展方向和最新動態(tài);通過一系列公開的解釋文檔詳細(xì)說明了技術(shù)開發(fā)相關(guān)的決策執(zhí)行機制和協(xié)作模式。所有決策流程和相關(guān)信息公開可追溯增強了社區(qū)的信任感,鼓勵更多人參與到開源項目貢獻中,從而促進了項目的健康長久發(fā)展。
建立有效的沖突解決機制也是構(gòu)建成功開源治理協(xié)調(diào)生態(tài)中的關(guān)鍵一環(huán)。例如,位于美國的云原生計算基金會(CNCF)下設(shè)技術(shù)監(jiān)督委員會來協(xié)調(diào)組件之間兼容性沖突,其技術(shù)監(jiān)督委員會成員通過選舉產(chǎn)生,其成員來自供應(yīng)商、最終用戶等多個方面,能充分代表開源社區(qū)內(nèi)各方的利益,有助于維護社區(qū)的和諧與穩(wěn)定,并推動項目的進展。
良好有效的開源制度設(shè)計對開源參與者長期可持續(xù)參與到開源項目貢獻之中非常重要。其中,開源許可證是開源制度設(shè)計中的關(guān)鍵,它決定了如何使用、修改和分發(fā)開源軟件。選擇符合項目目標(biāo)和社區(qū)需求的開源許可證能保護貢獻者的權(quán)益、推動創(chuàng)新和知識共享。常見的開源許可證包括MIT許可證、Apache許可證和GNU通用公共許可證等。阿聯(lián)酋開發(fā)的Falcon大模型就采用Apache-2.0許可證,其成為第一個可以免費商用的開源大模型,這將促進其模型在科研及商業(yè)化中的應(yīng)用。
我國大模型開源創(chuàng)新生態(tài)建設(shè)面臨的挑戰(zhàn)
我國開源創(chuàng)新生態(tài)尚處于初步探索階段,社會對開源認(rèn)知不夠,且缺乏建設(shè)開源創(chuàng)新生態(tài)的經(jīng)驗及配套完善的體制機制。大模型作為新興技術(shù)和產(chǎn)業(yè),其開源創(chuàng)新生態(tài)的建設(shè)將面臨更大的挑戰(zhàn)。一方面,我國大模型底層基礎(chǔ)研究能力相對薄弱,數(shù)據(jù)和算力基礎(chǔ)制約大模型性能提升;另一方面,大模型產(chǎn)業(yè)內(nèi)各類創(chuàng)新主體間未形成有效協(xié)同,產(chǎn)業(yè)內(nèi)無序競爭引發(fā)亂象叢生。這些挑戰(zhàn)不僅限制了我國大模型進一步的發(fā)展應(yīng)用,更阻礙了我國大模型參與國際競爭,在全球范圍內(nèi)影響力的輻射擴散。
系統(tǒng)協(xié)同政策架構(gòu)設(shè)計缺失
盡管我國在國家層面(表2)及各省級地方政府層面(表3)均高度重視大模型發(fā)展,從算力支持、場景開放、技術(shù)突破、產(chǎn)品生態(tài)等多方面積極出臺大模型產(chǎn)業(yè)發(fā)展措施,鼓勵大模型應(yīng)用落地。然而,我國現(xiàn)有政策系統(tǒng)性不足,主要集中在大模型本身,對大模型產(chǎn)業(yè)鏈條的其他環(huán)節(jié)關(guān)注不夠,尤其是數(shù)字公共產(chǎn)品制度、開源商業(yè)化制度等適應(yīng)開源創(chuàng)新生態(tài)的體制機制建設(shè)尚不健全,導(dǎo)致產(chǎn)業(yè)鏈上下游協(xié)同不足,難以滿足建設(shè)大模型開源創(chuàng)新生態(tài)需求。同時,各部門間缺乏有效信息互通、各地政府間技術(shù)要素不流動,政策趨同致使無法形成合力推動人工智能大模型產(chǎn)業(yè)整體發(fā)展,未充分發(fā)揮出對實體經(jīng)濟的賦能作用。多個部門同時負(fù)有促進大模型應(yīng)用落地、產(chǎn)業(yè)繁榮的職責(zé),部門職能存在重疊導(dǎo)致政策間的協(xié)調(diào)不足,無法充分發(fā)揮政策指導(dǎo)促進的作用。
技術(shù)能力制約生態(tài)形成
我國大模型整體技術(shù)實力與國外頭部企業(yè)差距明顯,在算法、人才和科研投入方面與國外頭部企業(yè)差距較大,同時部分關(guān)鍵核心技術(shù)尚未突破,尚未形成促進國產(chǎn)大模型發(fā)展的支撐基礎(chǔ)。根據(jù)權(quán)威測評榜單Super CLUE的評測,截至2023年10月,GPT-4、Claude2和GPT-3.5在基礎(chǔ)模型領(lǐng)域綜合排名前3位(圖2),我國基礎(chǔ)模型在計算、代碼、生成與創(chuàng)作、上下文對話、角色扮演、工具使用方面得分與GPT-4的相應(yīng)指標(biāo)相差10分以上,部分指標(biāo)接近GPT-3.5,僅在中文知識題目方面明顯優(yōu)于國際模型。大模型廠商技術(shù)上的基本同源導(dǎo)致現(xiàn)階段較為相似的模型性能,尚未形成顯著技術(shù)性能優(yōu)勢,同質(zhì)化嚴(yán)重影響了下游應(yīng)用生態(tài)的構(gòu)建。同時,我國基礎(chǔ)模型缺乏原創(chuàng)性,版本迭代和技術(shù)演進高度依賴國外進展。特別是我國目前廣泛應(yīng)用的主流模型大多基于Transformer架構(gòu),而非我國自主研發(fā)的架構(gòu),在一定程度上制約了我國國產(chǎn)大模型自主創(chuàng)新生態(tài)的形成。
數(shù)據(jù)算力顯著限制技術(shù)發(fā)展
OpenAI、Google人工智能研究團隊相繼證明,人工智能模型的性能隨著模型規(guī)模的指數(shù)級上升而線性增長,并在模型規(guī)模達(dá)到某個閾值時對某些問題的處理性能突增,具備涌現(xiàn)能力。這一現(xiàn)象凸顯數(shù)據(jù)和算力在提升大模型性能中的重要意義。在數(shù)據(jù)方面,盡管我國已有部分中文開源數(shù)據(jù)集,但從數(shù)據(jù)規(guī)模和語料質(zhì)量上均與海外有較大差距,且部分內(nèi)容較為陳舊,高質(zhì)量全面完整可信的開放中文數(shù)據(jù)集匱乏。同時,我國尚未建立有效的數(shù)據(jù)流通規(guī)則和數(shù)據(jù)供需對接機制,企業(yè)獲取數(shù)據(jù)資源的成本極高。數(shù)據(jù)產(chǎn)品供應(yīng)鏈尚不完善嚴(yán)重制約了我國大模型的訓(xùn)練表現(xiàn)。在算力方面,中國、美國在全球算力規(guī)模中的份額分別為33%、34%,其中以圖形處理器(GPU)和神經(jīng)網(wǎng)絡(luò)處理器(NPU)為主的智能算力規(guī)模方面中國高于美國,分別為39%、31%,具備發(fā)展大模型產(chǎn)業(yè)的有利基礎(chǔ)。然而,現(xiàn)階段國產(chǎn)GPU性能難以滿足大模型訓(xùn)練要求,與國際主要采用的英偉達(dá)A100芯片存在顯著差距。例如,國產(chǎn)算力最高的昇騰910芯片計算速度(320 TFLOPS)僅與英偉達(dá)A100 PCle版本持平,與英偉達(dá)H100 NVL版本相差10倍以上(表4)。另外,國產(chǎn)人工智能智算芯片配套的編程環(huán)境尚不成熟。與英偉達(dá)的并行計算平臺和編程模型(CUDA)工具包相比,我國相應(yīng)軟件生態(tài)建設(shè)仍需加強,這是一個投入巨大并且漫長的過程。
創(chuàng)新主體無序競爭制約整體發(fā)展速度
包括:“百模大戰(zhàn)”引發(fā)無序競爭,由于數(shù)據(jù)“孤島”、賽道重疊、市場競爭等原因企業(yè)各自為戰(zhàn),造成資源投入分散、共創(chuàng)共建開源意愿不足等問題。數(shù)據(jù)顯示,截至2023年10月,我國有互聯(lián)網(wǎng)企業(yè)(百度、字節(jié)跳動、阿里巴巴等)、新興創(chuàng)業(yè)公司(百川智能、MiniMax、月之暗面等)、傳統(tǒng)AI企業(yè)(科大訊飛、商湯科技等),以及高校科研院所等254家單位開展了通用大模型研發(fā),導(dǎo)致資源碎片化投入,重復(fù)低水平建設(shè),計算資源競爭加劇。國產(chǎn)大模型應(yīng)用軟硬件適配與協(xié)同優(yōu)化尚顯不足,軟硬件生態(tài)有待進一步豐富。對比國內(nèi)外大模型產(chǎn)品應(yīng)用流量來源,國外大模型來自移動端的用戶流量遠(yuǎn)高于國產(chǎn)大模型,且國產(chǎn)大模型產(chǎn)品應(yīng)用在電子郵件、社交應(yīng)用程序、自然搜索等外接應(yīng)用流量上也遠(yuǎn)低于ChatGPT(表5)。現(xiàn)有國產(chǎn)大模型尚未探索出合適的大模型開源商業(yè)模式。我國在開源商業(yè)化方面的實踐經(jīng)驗不足,采取的開源商業(yè)策略單一,企業(yè)多面臨“技術(shù)業(yè)務(wù)兩張皮”的困境,尚未實現(xiàn)諸如微軟Office365 Copilot、ChatGPT企業(yè)版等對企產(chǎn)品的商業(yè)化落地,難以搭建起可持續(xù)的大模型下游開源商業(yè)生態(tài)。目前,按照交易量收取費用、定制開發(fā)收取費用是國產(chǎn)大模型產(chǎn)品主要收費模式,這些商業(yè)模式難以覆蓋大模型開發(fā)所需的巨大算力及人力成本,且多為一次性付費,致使與軟硬件生態(tài)之間的開源協(xié)作受阻。
開源支持體系建設(shè)水平較低
目前,我國從大模型開發(fā)、訓(xùn)練到應(yīng)用的全鏈條開源支持體系水平較低,不利于集中優(yōu)勢力量,阻礙了技術(shù)突破的步伐。在開源開發(fā)平臺方面,我國Gitee、GitLink、AtomGit等開源代碼托管平臺發(fā)展尚不完善。例如,國內(nèi)Gitee等代碼托管平臺因網(wǎng)絡(luò)及設(shè)備故障而導(dǎo)致用戶存儲代碼丟失的大型故障時有發(fā)生,且維護不透明,運營穩(wěn)定性較差,因此難以維持用戶使用黏性;而國外的美國Github專門有網(wǎng)站記錄所有故障及修復(fù)時間,穩(wěn)定的運營機制極大增強了用戶信任度,從而促進了用戶的使用量。這一差距充分反映在訪問統(tǒng)計數(shù)據(jù)上,我國開源代碼托管平臺Gitee的每月訪問量為800萬次,美國Github平臺則高達(dá)4.32億次。在開源測試和訓(xùn)練平臺方面,國際流行的人工智能開源模型庫和社區(qū)平臺Hugging Face發(fā)展至今已集成了超過50萬具備圖像識別、語音生成、文本生成等多種功能的開源大模型和超過11萬包含多種數(shù)據(jù)類型的高質(zhì)量開源數(shù)據(jù)集,有全球超過5萬家組織使用該平臺,形成了較為成熟的大模型開源工具平臺生態(tài)。然而,我國類似的開源平臺發(fā)展仍處于初級階段,ModelScope魔搭開源平臺不僅公布的數(shù)據(jù)集、模型質(zhì)量參差不齊,部分有較多漏洞,難以進一步開發(fā)優(yōu)化或直接應(yīng)用,而且開源共建水平較低,如ModelScope魔搭社區(qū)開源的2 158個模型中接近60%的模型由排名前10位的貢獻者捐出,超1/3模型由阿里巴巴達(dá)摩院一家貢獻。大模型開源代碼托管、訓(xùn)練、測試平臺的低水平致使國產(chǎn)大模型往往托管在國外平臺上,造成我國大模型的訓(xùn)練環(huán)境和應(yīng)用場景流失在國外,難以保留在國內(nèi),不利于自主發(fā)展。在開源治理協(xié)調(diào)平臺方面,我國相關(guān)治理機構(gòu)缺乏與業(yè)界的及時深度交流,導(dǎo)致對開源大模型中涉及的“開源”認(rèn)定、版權(quán)歸屬界定等關(guān)鍵問題認(rèn)知不足,難以在負(fù)責(zé)任開源大模型生態(tài)建設(shè)過程中發(fā)揮引導(dǎo)和平衡作用。同時,開源基金會等開源促進組織發(fā)展尚處于初級階段,開源項目運營經(jīng)驗不足,運營能力欠缺,難以有效支持大模型開源項目的持續(xù)發(fā)展。
我國構(gòu)建大模型開源創(chuàng)新生態(tài)的建議
我國應(yīng)充分吸收開源創(chuàng)新生態(tài)構(gòu)建經(jīng)驗,秉持開源開放的理念構(gòu)建大模型開源創(chuàng)新生態(tài),推動大模型全產(chǎn)業(yè)鏈的繁榮有序發(fā)展。一方面,政府要處理好打造大模型開源生態(tài)過程中政府和市場之間的關(guān)系,相關(guān)部委要明確職責(zé),形成政策合力。另一方面,社會要建立起對開源的合理認(rèn)知,通過數(shù)字公共品制度等探索構(gòu)建符合大模型產(chǎn)業(yè)特性的開源治理體系,推動形成涵蓋大模型上下游全產(chǎn)業(yè)鏈的健康開源創(chuàng)新生態(tài),促進大模型產(chǎn)業(yè)創(chuàng)新與可持續(xù)發(fā)展。具體包括以下4個方面。
加強頂層設(shè)計,明確各個部門職責(zé)
建議效仿中央科技委員會統(tǒng)籌全國科技發(fā)展總體部署的機制,國家層面建立統(tǒng)籌大模型發(fā)展的組織或機制。明確中央網(wǎng)絡(luò)安全和信息化委員會辦公室、國家發(fā)展和改革委員會、工業(yè)和信息化部、科學(xué)技術(shù)部、教育部、國家數(shù)據(jù)局等相關(guān)部委在大模型及上下游產(chǎn)業(yè)鏈各環(huán)節(jié)發(fā)展中的具體職責(zé),并進行有效統(tǒng)籌。持續(xù)關(guān)注大模型產(chǎn)業(yè)及上下游發(fā)展需求,為打造可持續(xù)的大模型開源創(chuàng)新生態(tài)提供協(xié)同有差異的政策支持與資源保障,形成合力促進大模型產(chǎn)業(yè)發(fā)展。
以數(shù)據(jù)、算力和算法為抓手補短板、固底板,推動產(chǎn)學(xué)研持續(xù)投入大模型開源技術(shù)研發(fā)。建議由中央網(wǎng)絡(luò)安全和信息化委員會辦公室、工業(yè)和信息化部負(fù)責(zé)大模型產(chǎn)業(yè)培育引導(dǎo),科學(xué)技術(shù)部、中國科學(xué)院、教育部等合作推動大模型底層技術(shù)及原理研究,培養(yǎng)產(chǎn)業(yè)發(fā)展所需的人工智能架構(gòu)設(shè)計方面人才,國家發(fā)展和改革委員會牽頭地方政府做好算力中心、跨區(qū)域算力網(wǎng)絡(luò)的建設(shè)及運營;數(shù)據(jù)局厘清數(shù)據(jù)產(chǎn)權(quán)、數(shù)據(jù)資產(chǎn)評估等相關(guān)阻礙數(shù)據(jù)產(chǎn)業(yè)鏈發(fā)展的相關(guān)問題,推動上游數(shù)據(jù)產(chǎn)業(yè)鏈繁榮有序健康發(fā)展。
打造共享的大模型研發(fā)基礎(chǔ)體系
建設(shè)開放國家算力平臺支持大模型訓(xùn)練。解決跨數(shù)據(jù)中心算力協(xié)同面臨的相關(guān)體制機制挑戰(zhàn),提高各地已有智算中心的利用率和使用效率。推動國家實驗室算力平臺向社會開放,支持組建算力聯(lián)盟引導(dǎo)算力開放,集中高檔GPU算力資源,降低各類大模型研發(fā)訓(xùn)練成本。設(shè)立國家級開源項目推動頭部科技企業(yè)搭建公共大模型基礎(chǔ)平臺、構(gòu)建低代碼開發(fā)工具,促進上、中、下游企業(yè)間的協(xié)同創(chuàng)新。加快落實《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,發(fā)揮算力對大模型發(fā)展的驅(qū)動作用。
推動建立國產(chǎn)智算芯片開源編譯生態(tài)。統(tǒng)一各國產(chǎn)智算芯片編譯環(huán)境接口,構(gòu)建類CUDA平臺打通硬件和AI訓(xùn)練之間的中間軟件層,加大對適應(yīng)人工智能計算所具有的計算密度高、需要大量低精度計算等特點的軟硬件協(xié)同設(shè)計研發(fā)。這能夠降低采用不同GPU進行大模型訓(xùn)練時額外的學(xué)習(xí)成本,有利于大模型發(fā)展。同時開源所匯聚的合力能降低芯片廠家的開發(fā)成本,促進算力領(lǐng)域技術(shù)研發(fā),加快國產(chǎn)GPU芯片發(fā)展。注重與國內(nèi)硬件生態(tài)連接,形成軟硬件有效協(xié)同,提升產(chǎn)業(yè)創(chuàng)新體系整體效能。通過設(shè)立大模型開源大基金等方式,推動國產(chǎn)大模型開源軟硬件生態(tài)發(fā)展,形成基礎(chǔ)軟硬件與大模型有效協(xié)同。
促進開放數(shù)據(jù)體系建設(shè)。發(fā)揮國家數(shù)據(jù)局的統(tǒng)一協(xié)調(diào)作用構(gòu)建高質(zhì)量數(shù)據(jù)集,擴大政府開放數(shù)據(jù)范圍并通過建立多層次數(shù)據(jù)開放體系加強數(shù)據(jù)交換共享,形成大模型發(fā)展的開放數(shù)據(jù)支撐。加快構(gòu)建有利于促進大模型產(chǎn)業(yè)發(fā)展的數(shù)據(jù)版權(quán)制度,借鑒國外大模型訓(xùn)練版權(quán)責(zé)任豁免機制,探索實現(xiàn)更為邏輯周密和利益平衡的數(shù)據(jù)版權(quán)規(guī)則設(shè)計。
強化全產(chǎn)業(yè)鏈開源開放體系建設(shè)
加強大模型相關(guān)全產(chǎn)業(yè)鏈生態(tài)布局,推動大模型開發(fā)、訓(xùn)練、應(yīng)用全鏈條支撐平臺有組織地建設(shè),由中立的組織機構(gòu)主導(dǎo)、科技企業(yè)參與大模型產(chǎn)業(yè)創(chuàng)新生態(tài)基礎(chǔ)層和模型層的開源,由科技企業(yè)主導(dǎo)大模型產(chǎn)業(yè)創(chuàng)新生態(tài)中間層和應(yīng)用層的開源。
從產(chǎn)業(yè)生態(tài)的角度引導(dǎo)推動大模型產(chǎn)業(yè)應(yīng)用落地。全面調(diào)研和布局大模型相關(guān)的產(chǎn)業(yè)鏈,促進開源大模型在行業(yè)核心應(yīng)用場景如生物醫(yī)藥、智能化教育教學(xué)、智能制造等領(lǐng)域進行應(yīng)用示范,推動開發(fā)各類新型應(yīng)用場景,支持AI創(chuàng)新企業(yè)采用公共算力開發(fā)行業(yè)智能應(yīng)用,引導(dǎo)行業(yè)用戶與大模型廠商合作,推動各行業(yè)智能化升級。
加強面向開源代碼的計算和訓(xùn)練型大模型平臺的設(shè)計開發(fā)和推廣。對標(biāo)GitHub和Hugging Face等建設(shè)利于大模型開發(fā)、測試和訓(xùn)練的開源平臺,開展我國開源平臺建設(shè)工作,助力大模型的利用和推廣。發(fā)揮開源基金會或新型研發(fā)機構(gòu)作用,引導(dǎo)企業(yè)依托國內(nèi)代碼托管平臺開源一批具有行業(yè)影響力的軟件項目,積極培育我國開源生態(tài)環(huán)境。
探索新型大模型商業(yè)開源運營機制。借鑒OpenAI的“非營利性機構(gòu)+有限入股營利回報”模式,加強市場主導(dǎo)和產(chǎn)業(yè)政策支撐共同推進基礎(chǔ)大模型市場建設(shè),構(gòu)建可持續(xù)的開源創(chuàng)新成果商業(yè)模式。
鼓勵社會資本參與開源大模型技術(shù)的產(chǎn)業(yè)投資。推動社會資本參與大模型產(chǎn)業(yè)的風(fēng)險投資和產(chǎn)業(yè)投資,探索建立線下孵化器空間,聯(lián)合開源社區(qū)及代碼托管平臺共同打造線上線下融合、極具活力的開發(fā)者社區(qū),促進開源大模型下游商業(yè)生態(tài)繁榮發(fā)展。
完善開源創(chuàng)新治理體系鼓勵發(fā)展
推動商業(yè)開源政策研究。研究制定有利于開源商業(yè)化實施的相關(guān)政策,推動建成公眾貢獻數(shù)據(jù)和使用數(shù)據(jù)行業(yè)規(guī)范等數(shù)字公共產(chǎn)品制度,強化開源許可證的法律效力,有力保護開源成果知識產(chǎn)權(quán),將“開源不等于免費”的開源理念貫徹到大模型產(chǎn)學(xué)研用全過程。研究制定實驗室開源大模型開源許可機制,針對開源社區(qū)上不同類型下游開發(fā)者和用戶,打造不同開源層級的許可協(xié)議,授權(quán)開源使用。推動開源產(chǎn)業(yè)發(fā)展,以稅收優(yōu)惠等方式鼓勵企業(yè)積極探索開源,參與開源生態(tài)建設(shè),深入了解開源回饋方式,尋找有效的基于開源的商業(yè)反饋模式。
推動開源社區(qū)治理水平提升。持續(xù)支持國內(nèi)開源基金會、開源社區(qū)等開源力量發(fā)展,推動開源文化理念在社會的廣泛傳播。提高開源社區(qū)運營水平,運用大數(shù)據(jù)分析手段精確評估社區(qū)內(nèi)參與合作者的貢獻情況,精準(zhǔn)識別社區(qū)內(nèi)核心開源貢獻者并予以獎勵,形成良好的“貢獻-承認(rèn)”正向反饋循環(huán)。完善大模型開源評價、安全評估框架等監(jiān)測機制,以推動大模型產(chǎn)業(yè)良性健康發(fā)展。
推動大模型開源國際交流合作。打造具有國際先進技術(shù)水平的大模型開源開放平臺,并加強與國際溝通大模型倫理治理,參與探討制定國際標(biāo)準(zhǔn)。鼓勵企業(yè)融入國際頂尖開源社區(qū)、參與開源規(guī)則制定等,通過開源爭取全球智慧。依托開源社區(qū),加強大模型技術(shù)人才自主培養(yǎng)和國際交流,推動高校、科研院所與企業(yè)培育更多有熱情做開源貢獻的人才。
(作者:溫馨、馮澤,中國科學(xué)院科技戰(zhàn)略咨詢研究院;張超,上海交通大學(xué)國家戰(zhàn)略研究院;郭銳、陳凱華,中國科學(xué)院大學(xué)公共政策與管理學(xué)院;朱其罡,上海開源信息技術(shù)協(xié)會 對外經(jīng)濟貿(mào)易大學(xué)。《中國科學(xué)院院刊》供稿)