基于LDA模型與政策工具的中國數(shù)據(jù)主權(quán)政策研究
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 數(shù)據(jù)主權(quán)是指一個國家對其政權(quán)管轄范圍內(nèi)的網(wǎng)絡(luò)設(shè)施、數(shù)據(jù)主體、數(shù)據(jù)行為和數(shù)據(jù)資源及相關(guān)數(shù)據(jù)產(chǎn)品具有生成、傳播、管理、控制、利用和保護的主導權(quán),其正在成為數(shù)字時代國家主權(quán)的重要組成部分。美國、歐盟和中國等國家和地區(qū)均認識到數(shù)據(jù)資源所具有的戰(zhàn)略價值,積極開展數(shù)據(jù)主權(quán)戰(zhàn)略部署。由于技術(shù)能力和經(jīng)濟發(fā)展狀況不同等因素,各國采取了差異化的數(shù)據(jù)主權(quán)政策。
數(shù)據(jù)主權(quán)政策對于維護國家安全、保障國家利益具有重要作用,近年來引起學術(shù)界較為廣泛的關(guān)注。有的學者從國家主體的視角提出了數(shù)據(jù)主權(quán)概念,也有學者從組織和個人主體的視角界定了數(shù)據(jù)主權(quán)內(nèi)涵。冉從敬定性總結(jié)了數(shù)據(jù)主權(quán)戰(zhàn)略部署的全球態(tài)勢。鄭琳等闡釋了國家數(shù)據(jù)主權(quán)概念,并歸納分析了歐美數(shù)據(jù)主權(quán)戰(zhàn)略。然而,已有研究主要通過定性歸納方法從國家宏觀層面剖析數(shù)據(jù)主權(quán)戰(zhàn)略的特點,但缺乏關(guān)于數(shù)據(jù)主權(quán)政策文本內(nèi)涵和特征的定量分析。本文采用政策文本分析方法研究我國數(shù)據(jù)主權(quán)政策,運用LDA(Latent Dirichlet Allocation)主題模型和政策工具定量分析中國數(shù)據(jù)主權(quán)政策的演化、態(tài)勢,基于此與全球數(shù)據(jù)主權(quán)政策進行國際比較并提出對策與建議。這一研究既拓展了政策文本分析方法的應用領(lǐng)域,將其應用于數(shù)據(jù)主權(quán)領(lǐng)域的政策分析,也為優(yōu)化設(shè)計我國數(shù)據(jù)主權(quán)政策提供方法論指導。
數(shù)據(jù)主權(quán)政策研究的分析框架構(gòu)建與設(shè)計
研究方法與框架維度
本文從政策工具的角度出發(fā),運用LDA主題模型對中國2010—2022年的數(shù)據(jù)主權(quán)相關(guān)政策進行分析與量化。本文建立了數(shù)據(jù)主權(quán)政策工具的分析框架(圖1)。對政策文本進行統(tǒng)計分析,圍繞政策時間、政策機構(gòu)和政策類型分布展開,探究數(shù)據(jù)主權(quán)政策的演化過程、機構(gòu)分布和政策效力。供給型、環(huán)境型和需求型政策工具分類法在既有研究中最為常見,本文采用此種政策工具的維度劃分對數(shù)據(jù)主權(quán)政策進行編碼分析。運用LDA主題模型挖掘數(shù)據(jù)主權(quán)政策文本中的核心主題詞,并進行可視化展示。
數(shù)據(jù)來源及編碼
本文選用“北大法寶在線數(shù)據(jù)庫”作為數(shù)據(jù)主權(quán)相關(guān)政策文本的收集來源,以“數(shù)據(jù)主權(quán)”“數(shù)據(jù)安全”“數(shù)據(jù)跨境”“國家安全”等關(guān)鍵詞搭配組合進行全文檢索,篩選“中央法規(guī)”政策文件作為分析文本,共計收集45份政策文件(表1展示了部分數(shù)據(jù)主權(quán)政策文本)。對納入樣本的45份中央法規(guī)政策文件進行摘錄和編碼(部分數(shù)據(jù)主權(quán)政策文件內(nèi)容編碼情況見表2),以便更清晰地標注不同政策與具體條款中包含的政策工具,將非結(jié)構(gòu)化的文本數(shù)據(jù)進行轉(zhuǎn)換用于定量分析。
數(shù)據(jù)主權(quán)政策總體情況
政策時間演化分布
根據(jù)政策文本的發(fā)布時間統(tǒng)計結(jié)果,中國數(shù)據(jù)主權(quán)相關(guān)政策始于2012年5月工信部發(fā)布的《互聯(lián)網(wǎng)行業(yè)“十二五”發(fā)展規(guī)劃》;“數(shù)據(jù)主權(quán)”這一名詞首次出現(xiàn)在2015年國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》,指出應“增強網(wǎng)絡(luò)空間數(shù)據(jù)主權(quán)保護能力,維護國家安全,有效提升國家競爭力”。然而,早在2010年已經(jīng)開始出現(xiàn)互聯(lián)網(wǎng)主權(quán)的概念。數(shù)據(jù)主權(quán)政策發(fā)布數(shù)量在2016年和2021年迎來了2次大幅提升(圖2)。結(jié)合大數(shù)據(jù)、云計算和區(qū)塊鏈等新技術(shù)的出現(xiàn)與快速發(fā)展,將數(shù)據(jù)主權(quán)政策演化劃分為4個階段。
互聯(lián)網(wǎng)主權(quán)階段(2010—2013年)。2010年,國務院新聞辦公室發(fā)布《中國互聯(lián)網(wǎng)狀況》白皮書,指出“中華人民共和國境內(nèi)的互聯(lián)網(wǎng)屬于中國主權(quán)管轄范圍,中國的互聯(lián)網(wǎng)主權(quán)應受到尊重和維護”。中國逐步完善互聯(lián)網(wǎng)法律法規(guī),積極推動互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè),加強對互聯(lián)網(wǎng)的管理和監(jiān)管,確保互聯(lián)網(wǎng)安全,推動互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展。
信息主權(quán)階段(2014—2015年)。2014年7月16日,習近平主席在巴西國會發(fā)表題為《弘揚傳統(tǒng)友好共譜合作新篇》演講,強調(diào)每一個國家在信息領(lǐng)域的主權(quán)權(quán)益都不應受到侵犯。這一階段,相關(guān)政策強調(diào)加強信息自主可控,建設(shè)信息基礎(chǔ)設(shè)施,推進信息安全技術(shù)和標準的研發(fā),提升中國在信息主權(quán)領(lǐng)域的實際管控能力和國際話語權(quán)。
網(wǎng)絡(luò)空間主權(quán)階段(2015—2018年)。2015年7月頒布實施的《中華人民共和國國家安全法》首次明確了網(wǎng)絡(luò)空間主權(quán)的概念。在2017年3月發(fā)布的《網(wǎng)絡(luò)空間國際合作戰(zhàn)略》中將“堅定維護中國網(wǎng)絡(luò)主權(quán)、安全和發(fā)展利益”作為中國參與網(wǎng)絡(luò)空間國際合作的戰(zhàn)略目標之一。2018年5月,在國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《數(shù)字中國建設(shè)發(fā)展報告(2017年)》中,將“維護網(wǎng)絡(luò)主權(quán)”作為數(shù)字中國建設(shè)面臨的形勢和努力方向。這一階段,相關(guān)政策強調(diào)加強網(wǎng)絡(luò)安全保護、建立網(wǎng)絡(luò)主權(quán)管理機制、推進網(wǎng)絡(luò)空間治理等,以確保國家在網(wǎng)絡(luò)空間中有權(quán)利和能力保護國家安全和維護國家利益。
數(shù)據(jù)主權(quán)階段(2019年至今)。2019年7月,《加強工業(yè)互聯(lián)網(wǎng)安全工作的指導意見》指出,依據(jù)工業(yè)門類領(lǐng)域、數(shù)據(jù)類型、數(shù)據(jù)價值等建立工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)分級分類管理制度,開展重要數(shù)據(jù)出境安全評估和監(jiān)測。2020年9月,中國發(fā)起《全球數(shù)據(jù)安全倡議》,呼吁各國未經(jīng)他國法律允許不得直接向企業(yè)或個人調(diào)取位于他國的數(shù)據(jù)。2021年9月開始施行的《中華人民共和國數(shù)據(jù)安全法》規(guī)定,維護數(shù)據(jù)安全,應當堅持總體國家安全觀,建立健全數(shù)據(jù)安全治理體系,提高數(shù)據(jù)安全保障能力;同年,《中華人民共和國個人信息保護法》也對個人信息的跨境流動、數(shù)據(jù)本地化存儲及域外效力做出了相關(guān)規(guī)定。這一階段,相關(guān)政策強調(diào)建立數(shù)據(jù)分級分類制度、明確數(shù)據(jù)出境安全評估要求、推進數(shù)據(jù)保護能力認證機制等,以確保數(shù)據(jù)在跨境流動過程中得到有效保護和合規(guī)使用。
綜上,中國的數(shù)據(jù)主權(quán)戰(zhàn)略經(jīng)歷了“互聯(lián)網(wǎng)主權(quán)—信息主權(quán)—網(wǎng)絡(luò)空間主權(quán)—數(shù)據(jù)主權(quán)”的演化,整體政策特點為以安全為綱,推動定規(guī)立制,促進數(shù)據(jù)有序流動,加強數(shù)據(jù)跨境流動過程和出境后的風險評估和監(jiān)管。
政策發(fā)文機構(gòu)分布
政策發(fā)文機構(gòu)能夠反映出各政策法規(guī)的效力級別。國務院、工業(yè)和信息化部、商務部、全國人大常委會等共計33個機構(gòu)參與數(shù)據(jù)主權(quán)政策制定,表3展示了發(fā)布政策的核心機構(gòu)分布情況。我國數(shù)據(jù)主權(quán)政策有聯(lián)合發(fā)布和單獨發(fā)布2種形式;45份中央法規(guī)政策文件中,8份為聯(lián)合發(fā)布,37份為單獨發(fā)布,單獨發(fā)布占比82.2%。
基于統(tǒng)計結(jié)果可知,發(fā)布政策文件較多的機構(gòu)依次為國務院、工業(yè)和信息化部、商務部;聯(lián)合發(fā)文的主要為國家發(fā)展和改革委員會、工業(yè)和信息化部。政策發(fā)布核心主體共有5個,占比15.2%,非核心主體共有28個,占比84.8%,各政策主體在整體分布上較為分散。總體來看,參與數(shù)據(jù)主權(quán)政策制定的主體眾多,但核心主體的發(fā)文數(shù)量占比54.2%,較為集中。整體呈現(xiàn)出以國務院、工業(yè)和信息化部、商務部、全國人大常委會、國家互聯(lián)網(wǎng)信息辦公室為五大中心發(fā)文的結(jié)構(gòu)特征(表3)。
政策類型分布
政策發(fā)布所采用的文種類型因政策性質(zhì)和目標的不同而有所差異,由此導致了不同政策的效力不同。本文所收集的政策樣本中,數(shù)據(jù)主權(quán)政策采用了9種不同的形式進行發(fā)布,包括方案、意見、規(guī)劃、法律、通知、綱要和辦法等,展現(xiàn)出形式多樣性(表4)。其中,方案、意見和規(guī)劃在政策文本中占比較高,這說明現(xiàn)有政策中相關(guān)部門提出的見解和處理意見較多;而針對性更強、更具體的辦法在整體政策分布中較少;全國人大及其常務委員會共頒布4項法律。
數(shù)據(jù)主權(quán)政策二維分析
政策工具是政策主體為實現(xiàn)政策目標而采取的具體措施和手段,本文根據(jù)已有研究從需求型、環(huán)境型和供給型3個方面構(gòu)建了數(shù)據(jù)主權(quán)政策工具分析維度,通過政策工具識別出政策實施的重要途徑和保障措施,并基于LDA主題模型進行政策主題分析,揭示了政策的核心內(nèi)容和主要目標,以期為國家進一步優(yōu)化完善數(shù)據(jù)主權(quán)政策制定提供決策參考。
考慮到一個政策分析單元可能同時應用多種政策工具,因此本文用于分析的政策工具數(shù)量之和超過編碼單元總數(shù)。從政策工具應用類型來看,我國數(shù)據(jù)主權(quán)政策對政策工具的應用較為全面,需求型、環(huán)境型、供給型政策工具分別占比21.6%、59.6%、18.8%(圖3)。其中,環(huán)境型政策工具較為常用,需求型和供給型政策工具應用頻率次之。我國采用多種政策工具共同推動數(shù)據(jù)跨境安全流動和數(shù)據(jù)主權(quán)保護。
政策工具維度的實證分析
需求型政策工具,旨在引入各方力量進行交流與合作,積極開展數(shù)據(jù)安全管理、跨境流動和國際合作規(guī)則等試點,突出重要領(lǐng)域和關(guān)鍵環(huán)節(jié),從而促進數(shù)據(jù)安全有序流動(表5)。需求型數(shù)據(jù)主權(quán)政策工具以試點示范和國際合作為主,著重于通過試點示范和國際合作等發(fā)展模式先行先試,積累數(shù)據(jù)安全管理和數(shù)據(jù)主權(quán)保護有效經(jīng)驗并推廣普及于全社會,注重引導社會力量參與,開展宣傳推廣,從而推動行業(yè)規(guī)范發(fā)展、提高數(shù)據(jù)主權(quán)保護意識。
環(huán)境型政策工具,旨在通過優(yōu)化各主體、各環(huán)節(jié)實施的環(huán)境條件、政策導向、標準規(guī)范和問責機制等引導和監(jiān)管各主體采取更積極的數(shù)據(jù)安全管理和數(shù)據(jù)主權(quán)保護措施(表6)。整體而言,環(huán)境型政策工具占比超過半數(shù),作為一種間接調(diào)控手段受到政策主體的青睞。法規(guī)管制是常用方法,隨著新技術(shù)的發(fā)展,數(shù)據(jù)規(guī)模不斷擴大,國際數(shù)據(jù)主權(quán)威脅等問題日益凸顯,需要加強規(guī)制積極應對域外效力等問題。標準規(guī)范、安全規(guī)范、保障措施和審查評估是引導新興數(shù)字產(chǎn)業(yè)規(guī)范發(fā)展、保障數(shù)據(jù)安全有序流動等正在逐步完善的政策文件,包括跨境流通準則、安全評估和保障機制等。策略性措施對政策體系起到補充作用。當前知識產(chǎn)權(quán)政策工具應用較少,是數(shù)據(jù)主權(quán)政策中的明顯空白點。
供給型政策工具,旨在為各主體的數(shù)據(jù)安全管理、數(shù)據(jù)主權(quán)保護、信息基礎(chǔ)設(shè)施建設(shè)、技術(shù)研發(fā)、人才培養(yǎng)、統(tǒng)籌協(xié)調(diào)等提供各類資源支持(表7)。在供給型政策工具中,信息基礎(chǔ)設(shè)施建設(shè)、技術(shù)支持和組織建設(shè)占比較高。隨著大數(shù)據(jù)、云計算和區(qū)塊鏈等新技術(shù)的出現(xiàn),信息化設(shè)施成為數(shù)字經(jīng)濟發(fā)展的重要基礎(chǔ)條件。《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》和《中華人民共和國網(wǎng)絡(luò)安全法》均提出要建立健全關(guān)鍵信息基礎(chǔ)設(shè)施保護體系。技術(shù)支持是保障數(shù)據(jù)安全流動的重要力量,應通過開發(fā)核心技術(shù)構(gòu)建安全可靠的數(shù)據(jù)流通環(huán)境。在組織建設(shè)的統(tǒng)籌協(xié)調(diào)下,信息基礎(chǔ)設(shè)施建設(shè)和技術(shù)支持相輔相成,為數(shù)據(jù)安全流動和數(shù)據(jù)主權(quán)保護提供持續(xù)動力。當前人才支持和資金支持政策工具應用較少,分別為6.67%和8.89%。資金支持具有定向性優(yōu)勢,人才培養(yǎng)則具有長期效益,應適當增加這兩個政策工具的應用。
政策主題維度的實證分析
LDA主題模型主題數(shù)與一致性分析
LDA主題模型可用于挖掘大量文本的潛在主題特征。它是一種無監(jiān)督的、非結(jié)構(gòu)化的概率模型,運用了單詞共現(xiàn)具有語義關(guān)聯(lián)的規(guī)律,無需預先設(shè)置字典或主題類別便可發(fā)現(xiàn)文檔語料庫中的潛在主題,減少了研究者主觀判斷對主題分類的影響。本文將每個編碼單元視為一個文檔,選擇主題一致性指標模型用于判定最優(yōu)主題數(shù)量,若一致性處于較高水平,模型的主題結(jié)構(gòu)將更加穩(wěn)定。本文選用“哈工大停用詞表”對文檔進行文本預處理(中文分詞、去停用詞),主題數(shù)與一致性結(jié)果如圖4所示。通過主題評估,本文選用3作為主題個數(shù),并使用pyLDAvis算法對LDA主題模型結(jié)果進行可視化分析與展示。
詞云可視化
圖5展示了基于LDA主題模型挖掘出的數(shù)據(jù)主權(quán)政策的主題詞袋(bag of words)。根據(jù)LDA主題模型可視化結(jié)果,當前數(shù)據(jù)主權(quán)政策分為3類:數(shù)據(jù)安全與個人信息保護;數(shù)據(jù)跨境與國際合作;數(shù)據(jù)安全評估與數(shù)據(jù)出境。
數(shù)據(jù)安全與個人信息保護(圖5a)。推動建設(shè)全面數(shù)據(jù)安全保護體系,包括完善數(shù)據(jù)分級分類制度和個人信息授權(quán)使用制度。為形成數(shù)據(jù)資源匯集共享、數(shù)據(jù)流動安全有序的數(shù)據(jù)要素良性發(fā)展格局,應妥善處理國家安全、數(shù)據(jù)跨境流通和個人隱私保護三者的關(guān)系。
數(shù)據(jù)跨境與國際合作(圖5b)。明確數(shù)據(jù)安全法在域外的適用效力,進一步健全數(shù)據(jù)跨境流通規(guī)范,實施數(shù)據(jù)跨境傳輸與安全管控試點。探索加入?yún)^(qū)域性國際數(shù)據(jù)跨境流通規(guī)則制定,促進形成數(shù)據(jù)跨境流通的全球協(xié)同機制,強化中國同世界其他國家和地區(qū)之間的安全協(xié)作與信息資源共享。
數(shù)據(jù)安全評估與數(shù)據(jù)出境(圖5c)。健全數(shù)據(jù)分級分類管理制度和數(shù)據(jù)出境安全審查機制。確保數(shù)據(jù)在出境前能夠進行全面的事前評估、持續(xù)監(jiān)督和風險自評估,有效識別和防范數(shù)據(jù)出境帶來的安全風險,保護國家和個人的敏感信息。探索數(shù)據(jù)保護能力認證機制設(shè)計,為數(shù)據(jù)出境提供客觀和可信的評估標準,確保數(shù)據(jù)的合法性、安全性和可控性。
綜上,中國數(shù)據(jù)主權(quán)政策主要運用了環(huán)境型政策工具,輔之需求型和供給型政策工具,推動數(shù)據(jù)跨境安全流動和數(shù)據(jù)主權(quán)保護。政策文本內(nèi)容呈現(xiàn)出“數(shù)據(jù)安全與個人信息保護”“數(shù)據(jù)跨境與國際合作”“數(shù)據(jù)安全評估與數(shù)據(jù)出境”三大主題特征。我國陸續(xù)制定了《中華人民共和國個人信息保護法》《中華人民共和國數(shù)據(jù)安全法》等法律,出臺了《數(shù)據(jù)出境安全評估辦法》等一系列規(guī)章制度,實行嚴格數(shù)據(jù)出境和信息保護管理模式,確保我國數(shù)據(jù)主權(quán)得以保護。
啟示與建議
本文在對數(shù)據(jù)主權(quán)領(lǐng)域政策進行分析的基礎(chǔ)上,對我國數(shù)據(jù)跨境安全流動與數(shù)據(jù)主權(quán)保護提出4條政策建議。
積極主導和參與國際規(guī)則制定,建立互信機制,提高國際話語權(quán)。積極主導和建設(shè)性參與制定、完善數(shù)字時代的國際規(guī)則和標準,與更廣泛的國家建立多種形式的數(shù)據(jù)合作平臺,就數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)資源開發(fā)利用、數(shù)據(jù)安全保障等方面進行技術(shù)支持和能力建設(shè),促進數(shù)據(jù)互聯(lián)互通和共享共贏。推動與其他國家或地區(qū)在數(shù)據(jù)保護水平、標準、規(guī)范等方面的合作討論,爭取更多一致意見和共識,實現(xiàn)數(shù)據(jù)保護標準和規(guī)范的相互認可或互惠適當性。
優(yōu)化數(shù)據(jù)出境安全評估流程,提高評估效率和準確性。建立以風險為導向的數(shù)據(jù)分類管理制度,對不同類型和等級的數(shù)據(jù)采取差異化的管控措施,加強數(shù)據(jù)安全評估的標準制定和實施,明確數(shù)據(jù)安全評估的要求和指導,確保數(shù)據(jù)出境過程中的安全性和可信性。利用先進技術(shù)手段提高數(shù)據(jù)出境安全評估的效率和準確性。例如,可以通過引入人工智能和大數(shù)據(jù)分析技術(shù)等自動化評估流程,快速識別高風險的數(shù)據(jù)出境行為,以提高評估結(jié)果的準確性和可靠性。
完善個人信息出境標準合同模版,提高合規(guī)運營的效率。《個人信息出境標準合同辦法》于2023年6月1日起施行,旨在確保個人信息合法、安全、有序地跨境傳輸。通過使用標準合同模板,我國能夠通過《個人信息出境標準合同辦法》賦予的法律約束力來將境內(nèi)的管轄權(quán)“延伸”至境外,達到一定“境內(nèi)法域外適用”的效果,實現(xiàn)數(shù)據(jù)跨境流動保護。未來,可以將標準合同模板進行模塊化拓展,根據(jù)組織、企業(yè)或個人的業(yè)務需求,制定更多可以選擇的模塊,以降低相關(guān)實體合規(guī)運營成本,提高效率。
強化數(shù)據(jù)安全法治保障,構(gòu)筑數(shù)據(jù)主權(quán)防線。以總體國家安全觀為指導,完善保障數(shù)據(jù)安全的法律法規(guī),強化數(shù)據(jù)安全治理體系。明確數(shù)據(jù)安全的法律責任,保護關(guān)鍵數(shù)據(jù)基礎(chǔ)設(shè)施;建立數(shù)據(jù)安全風險評估和應急響應機制;開展數(shù)據(jù)主權(quán)與安全宣傳教育,提高全民數(shù)據(jù)安全意識和能力;推動國際合作,加強與其他國家和地區(qū)在數(shù)據(jù)安全法律法規(guī)方面的交流和互鑒,共同促進國際數(shù)據(jù)安全標準制定,提升中國在全球數(shù)據(jù)治理中的話語權(quán)和影響力。
(作者:喬晗、徐君如,中國科學院大學經(jīng)濟與管理學院 中國科學院大學數(shù)字經(jīng)濟監(jiān)測預測預警與政策仿真教育部哲學社會科學實驗室。《中國科學院院刊》供稿)