来源:上海市法学会 东方法学
发布日期:2026年04月03日


党的二十届三中全会《决定》提出“完善生成式人工智能发展和管理机制”,并将“建立人工智能安全监管制度”置于“十三、推进国家安全体系和能力现代化”之下,将生成式人工智能的数据安全置于国家安全的场域中。然而,传统数据治理模式包括回应型治理、集中型治理、敏捷型治理等都存在一定的不足,难以满足国家安全的需要。在总体国家安全观视角下,数据治理模式应当革新至“新集中型”治理,以国家安全利益优位为价值取向,强调预防治理与回应治理相结合,强调将治理职权集中配置给国家机关,强调以法律规范为治理的根本依据,由此以应对涉及国家安全的数据风险。

一、引言
生成式人工智能(Generative AI)是人工智能的重要技术类型,《生成式人工智能服务管理暂行办法》第22条第1项将其界定为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。以ChatGPT为例,经过大量数据训练,它可以学习和理解人类的语言,并进行撰写邮件、制作视频脚本、翻译、编写代码等任务,具有极强的“内容创作”和“思考”能力。ChatGPT首先在智能办公、智慧教育等较为日常生活的领域中得到运用,而后逐渐拓展到专业领域。据报道,哥伦比亚已有法官借助ChatGPT的生成内容撰写裁判文书,印度一名法官曾基于ChatGPT生成的报告而否决了被告的保释请求。可见,生成式人工智能的应用范围不断扩张,已在人类社会中扮演着弥足重要的角色。
生成式人工智能的运用,建立在深入学习大规模文本数据的基础上。正因如此,生成式人工智能技术的发展和应用,往往伴随着数据非法获取、数据泄露、数据不当使用等数据安全风险。例如,因ChatGPT涉嫌违反数据处理与隐私规则,2023年3月意大利个人数据局要求停止其运行;再如,法国数据监管机构多次收到与ChatGPT数据安全相关的投诉。当前,中国诸多科技企业继续推进生成式人工智能技术的研发,如百度的“文心一言”、360公司的“360智脑”、阿里的“通义千问”、腾讯的“混元大模型”等。在生成式人工智能技术不断发展、应用范围不断扩张的情况下,其中所潜藏的数据安全风险或将显化并不断加剧。
2024年7月,党的二十届三中全会通过《中共中央关于进一步全面深化改革、推进中国式现代化的决定》(以下简称《决定》),一方面提出“完善生成式人工智能发展和管理机制”的要求,另一方面则在“十三、推进国家安全体系和能力现代化”中明确提出,“建立人工智能安全监管制度”。生成式人工智能的数据安全,是人工智能安全体系乃至国家安全体系的重要组成部分。目前学界对生成式人工智能数据安全的研究,主要集中于构建语料库数据类型化基础上的数据安全分类治理机制、融合制度和技术推进AIGC数据算法可信治理、构建数据安全风险治理的元规则,等等。然而,多数研究都未能将对生成式人工智能数据安全的治理放置于国家安全体系全局之中,所提出的治理模式与总体国家安全观的要求存在错位。对此,本文将以生成式人工智能数据安全风险的内容及其特征为始发点,横向比较现有治理模式之优缺,提出更能应对数据安全风险、更契合国家安全体系的治理新模式。
二、生成式人工智能数据的安全风险检视
“在生成式人工智能技术中,数据安全风险大致可以分为两类:一是训练数据本身的内在安全风险,二是数据采集、使用等过程中的安全风险。”由是,数据安全风险的类型大致如下:以数据本身为视角,可能面临着数据的真实性、偏见性等风险;以生成式人工智能与数据交互的全过程为视角,可分为输入环节、加工环节、输出环节,分别对应着对数据的获取、对数据的利用以及产生生成物,每一环节中都可能面临着特定的风险。
(一)
数据材料:真实性与偏见性风险
生成式人工智能实质上是大型的自然语言处理模型,其模仿能力、编辑能力乃至“创造”能力等都建立在对数据的提炼、分析和学习的基础之上。因此,为了培养生成式人工智能的能力,需要对此饲养足够的数据量。以ChatGPT为例,GPT-3中的语言处理引擎使用了超过1750亿个参数和变量,随后,GPT-4的参数量甚至达到了100万亿,是上一版本GPT-3的500倍。如今,生成式人工智能模型的版本不断更迭,对数据的需求量不断加大。为使自身的生成式人工智能模型可获得更先进的功能,开发者不断提高数据饲养规模,这也造成了巨量数据中必然存在真实性与偏见性等潜藏风险。
数据存在真实性风险。生成式人工智能一般可以“自主地利用互联网收集全球开发者及用户的反馈数据”。在收集的过程中,生成式人工智能会基于相关字段等对现有数据进行无差别的采集与处理。一者,生成式人工智能难以依据价值标准进行“真假”判断,无法对数据进行实质性甄别,可能会采取到存在虚假信息甚至全然错误的数据;二者,开发者培育生成式人工智能的根本目的一般在于获取经济利益,出于成本的考量,往往不会对数据进行严格控制或者甄别,仅仅是将数据作为语料进行饲养,忽略了对数据真实性的把控。由是,前端输入的数据真实性的缺失,可能会造成后端输出虚假的数据。假如输入的数据忽略乃至歪曲了某些重要的历史事实、政治事实等,则可能直接对国家的政治文化等安全造成伤害。
数据的偏见性风险。一是,数据本身的偏见性。生成式人工智能的重要数据来源之一是互联网,但网络空间中各种价值观念乃至意识形态相互碰撞,诸多数据本身便具有一定的价值倾向性乃至意识形态倾向性。二是,开发者本身的倾向性。首先,数据选取中的偏见性。例如,在ChatGPT-3的训练数据集中,英语语料约占92.65%,汉语语料占比不到0.1%。Meta公司开发的Llama2语料中,英语占比仍有89.7%,汉语语料占比为0.13%。语言反映着国家的文化、政治等内容,语料来源比例的严重失衡,可能导致生成式人工智能模型的认识与认知产生一定的倾向性乃至某种特定立场。即便选择同一语言来源,开发者也有可能基于自身价值立场而投喂特定语料。其次,数据训练中人工标注数据的价值偏差。生成式人工智能的培育,需要人类训练师作为用户进行模拟对话,并在训练中进行“数据标注”以提升生成式人工智能的能力。数据标注,取决于人类训练师的选择,而价值观、专业知识、国别背景等要素则决定着人类训练师的选择。申言之,人类训练师的倾向性、偏见性,直接影响对数据的解读,乃至决定着对数据的标注结果。
(二)
输入环节:获取方式的违法风险
“数据是生成式人工智能的研发燃料”,ChatGPT等生成式人工智能的培育建立在对大量数据的收集和训练的基础之上。收集数据是训练的基础,生成式人工智能收集数据的方式可概括为主动与被动两种类型。主动收集方式以网络爬虫技术为典型,被动收集方式则主要指在与用户“对话”的过程中保存其相关数据。无论是主动收集抑或被动收集,都存在着违法收集数据的风险。
网络爬虫“是一种能够自动化收集并存储数据的技术”,为多数主流的生成式人工智能技术所采用。例如,GPT-4的训练数据量已超过13万亿,这些数据的主要来源便是公共爬虫数据。虽然网络爬虫能够快速获取海量数据,但对其的使用可能触及一定的违法情形:一者,网络爬虫技术一般用于海量数据的抓取,数据抓取者很难逐一清晰告知用户并获其同意,这涉嫌违背个人信息保护法第13条第2款的“知情同意原则”。二者,根据2022年11月公布的反不正当竞争法(修订草案)第18条,禁止违反数据抓取协议获取和使用他人商业数据的行为。若抓取的对象是已声明禁止第三方爬取数据条款的网站等,那么则可能构成不正当竞争。非法的数据爬取的行为,不仅会涉及个人信息权益或企业利益,还可能会涉及国家的数据安全。在爬取数据之后,会迅速整理数据发回开发机构,并应用于数据训练。但是,爬虫技术不会主动判断和区分所获取的数据是否涉及国家利益。在此基础上,若开发机构将涉及国家利益的数据进行跨境传输,不仅会损害对该部分数据的自主控制利益,甚至会损害我国的数据主权。
被动收集方式中的违法风险。基于效率和利益的考量,生成式人工智能服务提供者多采取“默认同意+例外”的数据采集方式,即“默认用户同意模型运用期间的数据采集,如存在例外情况则需向服务提供者另行申报”。例如,根据OpenAI公司的隐私政策,用户使用ChatGPT时的数据将被收集用于模型训练,若用户拒绝,则需要向OpenAI公司提出专门申请。这种设计,既通过“默认同意”授权的形式使用户放松警惕,又通过设置专门申请增加了用户维护自身数据的成本,使用户往往无法精细化评估生成式人工智能对自身数据的利用范围与程度,以致个人信息保护法第13条规定的“知情同意原则”在事实上被虚置。
(三)
加工环节:运行过程的泄露风险
生成式人工智能的语料库中收集和储藏着海量的数据,在其运行过程中同样存在着数据泄露的风险。从动态的视角来看,在用户与生成式人工智能模型交互的过程中,可能会泄露数据。生成式人工智能模型建立在大规模的数据训练基础之上,这些数据可能直接包含着用户在使用模型中所提供的涉密数据等内容。即便输入的数据并未直接包含涉密数据,生成式人工智能模型也可能通过数据的深度发掘在算法逻辑上推得涉密数据。语料库包括其中可能的涉密数据,共同组成生成式人工智能模型输出“回答”的材料,并可能在与用户交互过程中复现或部分复现在输出的“回答”中。这就可能间接泄露了语料库中的涉密数据。
从静态的视角来看,储存于语料库中的数据可能因系统漏洞或外部攻击而泄露。生成式人工智能的语料库中一般储存着海量的数据,其中包含着可能涉及国家安全的数据,这意味着一旦出现泄露则损失巨大。一者,语料库自身可能存在系统安全漏洞。例如,2023年3月,因内部开源数据库错误,ChatGPT Plus的1.2%用户的数据遭遇泄露风险,一些用户在与ChatGPT对话中可以看到他人的历史搜索记录乃至姓名、电子邮箱等隐私数据。生成式人工智能尚处于发展阶段,其语料库的安全系统亦须不断经受实践检验。因此,语料库自身的系统安全问题确实不容忽视。二者,外部的黑客攻击等导致数据泄露。据《纽约时报》报道,OpenAI曾在2023年4月遭遇黑客攻击。虽然此次攻击并未造成直接的数据泄露,但也佐证了黑客攻击等行为的实际存在。而且,在生成式人工智能模型本身便可能存在安全漏洞的情况下,外部力量可以通过这些漏洞进行攻击,所采取的手段包括修改模型的输出、篡改模型的训练数据、窃取模型的参数,乃至直接窃取数据等。
无论是用户与生成式人工智能模型的交互,还是静态的语料库存储,其实都面临着数据泄露的风险。如果泄露的主要是个人数据,那么可能涉及侵犯个人隐私等。若泄露的数据涉及政务信息、国家重要数据、国家秘密等,则直接侵害到国家的安全和利益。
(四)
输出环节:恶意内容的生成风险
生成式人工智能模型的“生成能力”,实质上建立在数据训练的基础之上,其技术逻辑在于“根据给定的提示或上下文语境生成类似人类的文本”。生成式人工智能模型的生成物虽然尽可能在向人类智力成果靠拢,但实质上遵循着开发者所设定的算法逻辑,其自身并不具有事实判断和价值判断的能力。申言之,生成式人工智能模型为用户提供的生成物,只是基于数据训练、用户提示词而给定的算法逻辑之下的单一化且标准化的内容。因此,生成式人工智能模型无法对其生成内容进行事实判断或价值判断,自然无法以真实性、准确性等标准来限定自身的生成内容。
在此技术逻辑之下,恶意内容的生成风险主要来源于以下四个方面:一是,训练数据存在问题。生成式人工智能模型的训练数据很多都来源于开放的网络空间。但是,开放的网络空间中鱼龙混杂,存在着诸多虚假的、误导性的数据,而这些数据往往未经严格控制或者甄别便被饲喂给生成式人工智能模型。二是,人工标注的“偏差基因”。人工标注是生成式人工智能模型训练的“内在基因”,可以塑造生成内容的倾向性等。如果人类训练师自身存在认识错误或价值倾向性,很可能会对生成式人工智能模型注入“偏差基因”。三是,用户的“错误互动”。生成式人工智能模型基于用户的提示词而生成特定内容,如果用户特意提供存在错误或者误导性等之类的数据,则可能使生成式人工智能模型生成恶意内容。例如,根据美国新闻可信度评估与研究机构NewsGuard的测试,研究人员在提出存在阴谋论或者误导性的叙述后,ChatGPT在对80%的问题的回答中生成了虚假叙述。而且,即便生成式人工智能模型已对一些敏感词汇采取过滤机制,用户仍然可能通过改写问题而绕过其限制,催生“恶意内容”。
生成式人工智能模型的“恶意内容”可能造成严重的危害。例如,如果训练数据存在忽略乃至扭曲历史事实的情况,在用户提问相关问题时,该生成式人工智能模型则可能输出基于错误历史的内容。这会影响该用户对历史问题的认识,乃至影响其历史观。若生成式人工智能模型被用于国家间的恶意竞争,那么开发者则可能是通过输入特定数据、算法逻辑等内容,使其制造虚假的政治信息等不良信息扰乱社会秩序和政治安定,提高国家维护稳定的成本,或通过其窃取国家机密信息等方式直接损害国家安全和利益。
三、生成式人工智能数据安全治理模式的更新
随着生成式人工智能的快速发展,其中蕴藏的数据安全风险从无到有、从轻到重,愈发需要更多关注和积极应对。与此同时,安全观念亦在不断更新,影响塑造着数据安全风险治理模式的更迭。
(一)
传统数据安全治理模式及其缺漏
在过去应对生成式人工智能数据安全风险的过程中,从无明确主体的探索中形成国家部门独立引导的“回应型治理”,接着发展形成国家多部门合作治理的“集中型治理”。为应对“数据风险的难测性特征”等,“敏捷治理”模式被提上议程。以上三者,便是如今主流的数据安全治理模式。然而,该三种治理模式都有自身无法克服的缺陷,难以回应国家安全的要求。
1.回应型治理:缺乏前瞻性
回应型治理诞生于数据安全治理早期。在起始阶段,保障和推动各类数字技术快速发展是当时的主基调。在该时期中,国家更加关注发展,尽可能避免或者减少对生成式人工智能技术的干预。对此,诸多国家颁布具有指导性的法案等,引导和鼓励市场主体主动承担安全责任,希望市场主体可以主动参与数据安全治理、自主把控数据安全风险,推动和强化市场主体间的数据安全治理协作。在此基础上,才会辅以一定程度的国家干预,以此作为市场主体自治之外的兜底性机制。而且,国家对其的干预,往往是出现问题且市场主体自治难以解决之时。可见,回应型治理具有如是特征:一是,以市场主体自治为主导,以国家干预为辅助;二者,国家干预的启动发生在问题出现之后,是一种事后治理。
回应型治理强调市场主体自治,国家的干预较为滞后。市场主体存在的目的就是追求利益最大化。出于成本的考量,市场主体往往会故意省略需要较高代价的防风险机制,或放松对其所获取的数据的把控和存储等。诸多技术性风险漏洞仍然存在。而且,对数据安全风险的治理需要诸多市场主体间的通力合作,但是这些市场主体之间往往存在竞争关系。一味要求其合作共赢,也违背了市场竞争的规律。由是,市场主体自治可能无法有效防范风险的出现,且难以快速应对出现的安全问题,此时国家干预的介入只发生在事后回应阶段,缺乏前瞻性,难以防范风险,而只能被动应对。
事后回应治理方式,可能会造成损失的扩大化。生成式人工智能模型往往存储海量数据,涉及方方面面的切身利益,一旦出现数据安全事故便会造成巨大损失。事后治理的方式难以将风险化解于雏形。而且,此种针对问题,才被动反应加以应对的模式,使得治理措施、治理经验等都是个殊化的,缺乏整体性规划。由是,非体系化的治理模式,难以构筑治理数据安全的体系化堤坝,阻碍了数据安全治理整体效能的实现。
2.集中型治理:缺乏灵活性
随着生成式人工智能技术的快速发展和普遍使用,其中潜藏的数据安全风险不断累积。于是,回应型治理模式的不及时等问题不断暴露,新的治理模式即集中型治理模式被逐渐提出。集中型治理,强调对行业的整体监管,强调实行严格的事前干预机制。集中型治理虽然可以满足国家在加强数据安全保护方面的需要,提高应对数据安全风险的能力,但也存在灵活性不足问题,这主要表现在治理链条较长、治理方式较为刚性两方面。
其一,集中型治理模式的治理链条较长,反应速度慢。集中型治理模式,要求统合碎片化的治理组织、分散化的治理职权等,建立统一的治理主体。例如,2023年3月,中共中央推动组建国家数据局,统筹数字社会的规划与建设等。但是,行政组织是科层化的,行政活动遵循其组织级别而逐级上报或逐级下达。于是便可能出现行政决策远远迟滞于数据安全风险的发生及其变化的情况。例如,某区委网信办发现某生成式人工智能模型在运行中泄露的部分数据可能涉及国家利益,于是层报至市,再由市层报至省,再由省层报至中央。此时,泄露的数据可能已经失控,而难以及时治理了。集中型治理模式的治理链条较长,治理的决策过程比较缓慢,难以应对快速变化的数据安全风险。
其二,集中型治理模式的治理方式较为刚性,为科技创新留下的空间较为狭窄。我国先后出台网络安全法、数据安全法等法律规范,对数据安全的治理方式作出规定。例如,数据安全法第六章共计九条,详细规定了涉及数据安全的违法行为的责任,包括对企业的罚款、责令暂停相关业务、停业整顿乃至吊销相关业务许可证或者吊销营业执照等,对个人的行政罚款乃至追究刑事处罚等。再如,根据该法第24条,数据安全审查制度中作出的安全审查决定为“最终决定”。可见,国家对数据安全的治理,是具有较强刚性的。但是,生成式人工智能是极具创新空间的领域,需要开发者不断探索前进,甚至试错而行。
3.敏捷型治理:缺乏权威性
数据安全风险复杂多变,回应型治理与集中型治理都难以完全应对。于是,敏捷型治理模式被提出。作为专业术语的“敏捷”(agile),最早溯源自20世纪80年代的制造业,是指企业通过快速自我调整以适应快速变化的市场。在2018年世界经济论坛中,敏捷治理(agile governance)被定义为“一套具有柔韧性、流动性、灵活性或适应性的行动或方法,是一种自适应、以人为本以及具有包容性和可持续的决策过程”。申言之,敏捷治理强调通过持续的快速调整变化以适应复杂多变的环境。敏捷治理模式有着自己的独特优势,但在某种程度上缺乏权威性,一者在于缺乏权威的治理机关,二者在于缺乏权威的治理依据。
敏捷治理模式中缺乏国家机关作为主导力量,难以应对涉及国家安全的数据风险。敏捷治理理论认为,生成式人工智能的数据安全风险非常复杂,往往来源于不同领域、不同主体等,因此需要利益相关者开展跨领域的协同配合。由是,以政府、企业、学者等多方利益主体共同参与,共同构建人工智能各利益方沟通衔接的人工智能治理生态。在此生态中,不强调由国家或者政府主导,而是以“多元协同、合作互动”为治理结构。虽然敏捷治理模式可以有效发挥各方利益主体的智识,但过于强调多元主体共治,其治理结构中缺乏国家机关作为主导力量。生成式人工智能的数据安全风险,既涉及个人利益,也可能直接关涉到国家的安全和利益。根据数据安全法第21条的规定,我国的数据实行分类分级保护,类别上包括涉及国家安全、国民经济命脉等的国家核心数据和重要数据等。与之相对应,数据安全风险亦可按照“对国家安全、公共利益或者个人、组织合法权益造成的危害程度”进行分类分级保护。如果数据安全风险涉及国家安全,部分企业、学者等主体并不必然具有以国家安全利益为核心依据的自觉性和判断力,而需要以国家机关主体作为主导力量,才能更好应对涉及国家安全的数据风险。
敏捷治理模式过于强调软法规则,存在轻视乃至忽视法律规范的倾向性。在敏捷治理模式中,政府等国家机关不必采取严格的风险治理规范,而只需要提供治理目标以及治理的原则框架等,治理工具则更多依赖于行业自律公约、伦理规范、标准指南等软法规范。此类软法规范,主要是由企业、学者等多元主体协商所制定,以不同利益主体之间的利益平衡为直接导向。但是,正如数据本身存在分类分级,核心数据等远远重要于其他数据。在不同的利益之中,有些利益可以在“量”的层面横向对比,但国家安全等利益则是“质”的层面重要性。因而,软法规范可通过协调多元主体利益,促进科技创新与维护数据安全的平衡,但却无法充分应对涉及国家安全等利益的数据安全风险。正如数据安全法第21条第2款的规定,“关于国家安全”等数据属于国家核心数据,“实行更加严格的管理制度”。因此,在应对涉及国家安全的风险方面,应当更加充分发挥现行法律规范的作用。
(二)
总体国家安全观下的“新集中型”治理模式
无论是何种风险治理模式,其最终目标都在于缩小风险范围、减轻风险程度,其差异性“体现在重视创新性为主还是强调稳健性为主,抑或寻求二者的兼顾平衡”。在回应型治理阶段,国家更加强调生成式人工智能技术的发展,故而不会对此加以过多或过早干预,只是在发生问题之后加以应对;在集中型治理阶段,数据安全风险不断加剧,需要国家加大监管力度,进行严格的治理乃至事前干预;敏捷治理模式,则秉持数据安全和技术发展的平衡理念,试图以多主体参与等实现其效果。但上述模式,在实现总体国家安全观下维护国家安全利益方面均存在一定的不足,对此,笔者提出以国家安全利益为优位的新型治理模式,即“新集中型治理”。
1.“新集中型”治理模式的价值取向:国家安全优位
2014年4月,习近平总书记在中央国家安全委员会第一次全体会议上首次正式提出“总体国家安全观”,强调“走出一条中国特色国家安全道路”。自此,总体国家安全观理论不断丰富和充实,形成了包括地位论、总体论、防范论、法治论等要义的内涵体系。生成式人工智能数据的安全风险,可能涉及国土安全、国民安全、非传统安全、经济安全等,贯通总体国家安全观下国家安全的各项要素和各项关系,是国家安全体系的重要组成部分。国家安全是技术发展的奠基石,是“头等大事”,这为生成式人工智能数据治理模式的革新指明了价值方向。
在以国家安全为“头等大事”的价值指引下,“新集中型”治理被提上日程。习近平总书记指出,“全面贯彻落实总体国家安全观,必须坚持统筹发展和安全两件大事。”其中,“安全是发展的前提”。推动科技发展,决不能以牺牲安全为代价。“贫瘠的土地上长不成和平的大树,连天的烽火中结不出发展的硕果。”因此,生成式人工智能技术的发展建立在国家安全的基础之上。在技术发展与维护国家安全之间,应当坚持国家安全的优位性,在此基础上协调推动生成式人工智能技术发展。
具体而言,新集中型治理强调国家安全利益优位于数据所涉之其他利益。在现实世界中一般是多种利益并存,而这些利益之间往往存在一定的冲突。“一种利益的实现总以牺牲其他的利益为代价。”根据数据安全法,数据安全所涉及之利益至少包括国家主权、安全和发展利益、公共利益、公民、组织合法权益等。“国家安全本质上就是国家重大利益”。国家安全法第2条对国家安全进行权威定义,“是指国家政权、主权、统一和领土完整、人民福祉、经济社会可持续发展和国家其他重大利益相对处于没有危险和不受内外威胁的状态,以及保障持续安全状态的能力。”国家安全,涉及国家政权、主权、统一和领土完整等诸多领域,是国家的“重大利益”,是安邦定国的重要基石。因此,新集中型治理以维护国家安全利益为本位。
新集中型治理强调维护国家安全利益,同时也兼顾其他利益。对生成式人工智能数据安全风险的治理是系统工程,其中所涉之利益虽然可能存在一定的冲突,但亦存在共通之处,都追求实现缩小风险范围、减轻风险程度等目标。而且,不同的利益主体亦是治理体系中不可或缺的治理主体。因此,在强调国家安全优位的同时,应当兼顾协调其他利益。总结而言,国家安全利益优位、合理兼顾其他利益,这便是新集中型治理模式的价值取向。
2.“新集中型”治理模式的特质优势
立基于总体国家安全观理论的新集中型治理模式,集成传统数据安全治理模式的优势,可以应对复杂多变的数据安全风险、有效维护国家安全利益,其主要特征如下:
其一,预防治理与回应治理相结合。
习近平总书记强调,“坚持把防范化解国家安全风险摆在突出位置,力争把可能带来重大风险的隐患发现和处置于萌芽状态”。生成式人工智能数据安全风险易发、频发,在出现风险征兆之后可能会迅速爆发乃至风险征兆非常轻微而难以发觉。因此,在风险尚未显现之时便应当展开风险预防措施。欧盟《人工智能法案》将人工智能系统的风险分为四个级别,包括不可接受风险、高风险、有限风险和轻微风险。对于不同的风险,可以采取不同的治理策略。例如,对于不可接受风险,可采取较高成本的预防措施,全面防范风险的产生;而对于所造成损失较小的轻微风险等,则可以采取适当预防兼具回应治理的模式。涉及国家安全的数据风险,往往会造成较高的乃至不可接受的损失,因此应当以预防为主。而间接涉及国家安全的数据风险,如果其可能造成的损失较小,在治理资源较为有限的当前,可以恰当配比预防治理与回应治理的比重,以实现治理效果的整体最大化。
其二,以治理职权集中配置给国家机关为主,以分散配置给其他主体为辅。
对国家安全的重大事项要进行总体把握,要遵循“集中统一、科学谋划、统分结合、协调行动、精干高效”的原则,并把集中统一放置于首要位置。涉及国家安全的风险,其危害程度、影响范围等往往较大。一者,公民、企业等主体所具有的治理资源较为有限,难以有效独立应对此类风险;二者,若是多个公民、企业等主体合作应对,也可能会因为彼此间利益不完全一致、协调渠道不畅通等而难以发挥完全的协作作用;再者,公民、企业等主体具有着自身的特殊利益,虽然在很大程度上与国家安全利益较为一致,但也可能存在不一致之处,难以以国家安全利益为优先本位。因此,应当将治理职权集中配置给国家机关,由其对涉及国家安全的数据风险进行更为有力的治理。而公民、企业等主体,则可以分享部分治理职权,以应对程度较浅的风险。
其三,以法律规范为治理的根本依据,以其他软法规范为辅助依据。
当前的治理模式存在过于倚重软法规则的倾向性,但是,一者,软法规则实质上“侧重于反映国家意志之外的其他共同体的利益诉求”,与国家安全利益之间,可能存在一定的偏差。二者,涉及国家安全的数据风险的危害程度、波及范围广,需要依靠国家的强制力量才能应对。软法规则虽然也可借助于国家强制力,但主要是一种社会权力,例如,行业协会依据行业协定而对其违反规定的成员加以处分。法治是治国理政的基本方式,习近平总书记强调“要把法治贯穿于维护国家安全的全过程。”为有效维护国家安全利益,应当以反映国家意志、依靠于国家强制力的法律规范作为数据安全治理的根本依据,而软法规范则只作为辅助依据。
总结而言,“新集中型”治理模式建立在总体国家安全观理论体系之中,以国家安全利益优位为价值取向,强调预防治理与回应治理相结合,强调将治理职权集中配置给国家机关,强调以法律规范为治理的根本依据,同时,并不排斥公民、企业等其他主体作为辅助治理主体,亦不排斥软法规则作为辅助的治理依据。
四、“新集中型”治理模式的制度设计
基于“新集中型”治理模式的价值取向及其特质优势,可遵循谁来治理、治理对象、如何治理三个问题而展开:在治理主体方面,将职权集中配置给国家机关使之作为主导的治理主体,同时分散配置给公民、企业等使之作为协同治理主体;在治理对象方面,主要是贯穿生成式人工智能模型运行全过程即事前事中事后的治理内容,事前事中事后则作为治理的具体场景;在如何治理方面,主要是明确法律规范作为治理行为的根本依据,同时兼顾软法规范作为辅助依据。
(一)
治理主体:治理权限的集中化与灵活化配置
1.治理权限的集中配置:作为主导治理机关的国家数据局
生成式人工智能的数据安全风险可能会涉及诸多领域,当前我国的数据安全治理机关包括国家市场监督管理总局、国家互联网信息办公室、工业和信息化部、科技部等,呈现出“九龙治水”的情况。但是,不同机关间的利益可能并不完全一致,这可能会导致争相竞争存在潜在利益的事项,而相互推诿潜在利益不足或者过于复杂的治理事项。而且,不同机关间亦存在着职权的交叉,治理领域、治理任务等可能存在重叠,如是重复治理便会浪费治理资源,降低治理实效。
为统筹数据治理,2023年3月《党和国家机构改革方案》提出建立国家数据局。但是,“该机构成立时间较短,目前在职能划分方面与传统数据治理机构、人工智能监管机构之间的职权关系尚未明确,对当前阶段生成式人工智能数据治理工作的实质统一指导有限。”对此,可从以下几个方面强化国家数据局的主导作用:其一,通过党政融合,更好地维护国家数据局的主导地位。习近平总书记强调,“坚持党对国家安全工作的领导,是做好国家安全工作的根本原则。”藉由党政融合,一方面,国家数据局在坚持党的领导下发挥自己在数据治理领域中的专业优势、治理优势,另一方面,党的领导亦为国家数据局提供了治理的政党资源,可以强化其作为主导治理机关的定位。其二,以明确的法律规范,塑造国家数据局集中统一的数据治理权。当前,关于国家数据局职权的规定来源于《第十四届全国人民代表大会第一次会议关于国务院机构改革方案的决定》,该决定仅是概括涉及国家数据局职权的大致领域,仍然有待进一步细化和明确。其三,“通过正式的组织法规范,规定国家数据局作为全国最高的数据管理机关,并整合省级、市级的数据管理机构为地方数据局。”由此,搭建以国家数据局为首的统一的数据治理组织体系,实现数据的集中统一治理。
2.灵活化的治理权限:作为协同主体公民、企业等其他主体
在数据安全治理体系中,不同主体都具有自身独特的治理优势。例如,企业最直接面对数据安全风险,可以最快作出应对。国家安全法第11条规定,“中华人民共和国公民、一切国家机关和武装力量、各政党和各人民团体、企业事业组织和其他社会组织,都有维护国家安全的责任和义务。”因此,应当积极引导企业、公民等其他主体积极参与数据安全治理。
其一,行业协会应当积极磋商,制定科学可靠的数据分级分类标准、数据安全风险识别标准、数据安全风险应对策略等内容,引导行业整体协作、正向发展。
其二,在生成式人工智能领域,企业既直接面对风险,又具有数字技术优势,可以快速控制风险。只是可能基于成本利益的考量,而对数据安全治理的投入尚未达到有效维护国家安全的程度。因此,应当鼓励和引导企业将更多资源投入到数据安全体系之中,通过研发和提升数据安全技术,以防范和治理数据安全风险。
其三,个人一般是作为用户,直接与生成式人工智能模型进行互动对话。一者,应当通过宣传教育提高公众对数据安全风险的认识,通过技术提示等措施,提醒和防止用户输入涉及国家安全的数据;二者,在使用生成式人工智能模型过程中,若发现涉及国家安全的风险隐患等,可以及时通过特定渠道反馈给相应的国家机关、模型开发者等。
(二)
治理场景:贯穿事前事中事后的全链条治理
为应对生成式人工智能数据安全风险的多发性、随时性等,应当着力构建贯通事先、事中、事后的全链条治理模式。
首先,事前阶段重在预防。一则,建立严格的数据筛选系统,科学细化涉及国家安全的数据的识别标准,在输入阶段对数据的获取来源、内容、范围等进行合法合规审查,严格把控,防患于未然。二则,根据数据安全法第25条,建立数据安全审查制度,并在此基础上不断细化审查标准、完善审查方式、提升审查能力,“对影响或者可能影响国家安全的数据处理活动”进行严格的国家安全审查,治之于未乱。三则,建立体系化科学化的风险评估与预警机制。以生成式人工智能模型的技术特点、运行机理等为基础,搭建贯通输入环节、加工环节、输出环节的数据风险常态化监测机制,实时评估安全风险,并在必要时作出不同程度的预警,以衔接应对风险的具体措施。
其次,事中阶段在于应对和控制风险。生成式人工智能模型搭建在网络空间之中,其数据风险具有很强的扩散性。一旦发生风险,必须迅速阻断扩散。对此,应当建立应急风险控制机制。这种应急风险控制机制主要是技术手段,例如阻断隔离、离线修复等,其关键在于及时遏制扩散,将风险发生的范围、程度限定在最小的空间内。
最后,事后阶段在于消解风险的影响以及总结反思。一者,在消除风险之后,应当及时消解风险的不利影响,包括修复系统漏洞、补偿或数据主体的损失等。二者,应当对已发生的数据安全风险事件进行总结回顾,巩固在此事件中可推广的有益经验,反思可以继续完善的体制机制等,并对此数据安全风险相关的风险进行排查或者进行应急处理预演。
(三)
治理依据:硬法软法相结合的二元规则体系
1.体系化建构数据治理法律规范
党的二十大报告指出,国家安全法治体系是国家安全体系的重要组成部分。推进国家安全体系和能力现代化,需要“加强法治思维,构建系统完备、科学规范、运行有效的国家安全制度体系”。可以说,法律规范是治理数据安全风险的根本依据。为应对生成式人工智能数据所涉及的国家安全问题,我国先后出台国家安全法、网络安全法、数据安全法等,初步建立起数据安全治理相关的规范体系。
然而,现有的规范体系仍然存在体系化不足、明确性不足等问题。对此,应当继续完善相关法律规范,具体而言:其一,推动数据安全风险治理规范体系化。目前,对生成式人工智能数据的管理、审查、保护等规定散见在不同的法律规范之中,部分内容交叉重叠乃至存在一定冲突,其背后便是治理目标、治理机制的相异。例如,《生成式人工智能服务管理办法(征求意见稿)》第6条,是从提供服务的角度,要求“利用生成式人工智能产品向公众提供服务前”进行算法备案;而《互联网信息服务算法推荐管理规定》则是从算法治理的角度要求进行算法备案。对此,加强相关法律规范之间的衔接协调,根据法律规范的制定主体、层级等恰当处理不同规范中的内容,避免重复规定、冲突规定等问题。更进一步而言,在此基础上,则可以根据我国实践并参考域外人工智能专门立法的相关经验,制定我国生成式人工智能治理甚至是数据安全治理的专门性法律法规。
其二,推动细化和明确数据安全风险治理相关规范。部分法律规定尚有待进一步明确,例如,《互联网信息服务算法推荐管理规定》在第6条、第9条、第10条共计四处提及“不良信息”并将其与“违法”并列,但是并未明确“不良信息”的内涵,也未提供“不良信息”的识别标准。由是,算法服务提供者只能根据各自的理解去判断入库数据等之中的“不良信息”,可能会造成标准的不统一,乃至错误遗漏涉及国家安全的数据等。对此,应当进一步细化和明确相关规范,提供统一的、执行性更强的数据治理依据。
2.推动完善行业标准等软法规则体系
由于技术快速迭代,法律规范甫一制定便必然滞后于时代。而与作为硬法的法律规范相比,国家倡导性文件、行业标准、行业自律公约等软法规范则是原则性和倡导性规则,具有极强的灵活性、通用性和适应性,可以在一定程度上弥补法律规范所不能及之处。对此,应当推动完善行业标准等软法规则体系。
软法规则的体系化建构,应当以算法和数据两要素为核心内容点。在行业规则、行业标准等涉及技术层面讨论生成式人工智能模型的运行,离不开算法和数据这两项关键要素。在算法要素方面,首先,生成式人工智能的算法仍然具有“黑箱”特性,其运行仍然是不透明的,其输出的结果是否可能涉及国家安全等也存在着不可控的风险。因此,应当继续推进“算法代码的开源工作,增强算法代码的可解释性和透明度”。其次,应当避免算法偏见。生成式人工智能模型一般采取“机器学习+人工标注”的技术组合。在机器学习阶段,应当引导完善算法审查机制的技术细则,在投入运营之前便对算法模型进行严格审查,若发现可能存在偏见的参数等便及时予以消除,避免技术层面的算法偏见。在人工标注阶段,严格防范人工标注中的算法偏见。在实践中,ChatGPT可能会基于简体字和繁体字这种形式外观,而对同一问题作出截然不同的回答,“这种算法偏见主要归咎于算法模型在学习阶段受到了差异性的人工标注的影响”。对此,“应该设置统一的人工标注规范标准,要求人工标准遵循相对一致的判断标准,避免人工标注造成的偏向性误导”。
在数据要素方面,可根据生成式人工智能模型的运行机理阶段加以针对式完善:一是采集阶段,应当正确记录数据的来源以确保可溯源、区分数据类型,尤其要识别其中涉及国家安全的敏感数据等,在获取数据方面便避免涉及国家安全问题。二是存储阶段,通过加密管理、限制访问等手段降低数据库泄露的风险。三是标注阶段,以技术准则来保障人工标注数据的质量,避免错误和价值偏见等。四是运算阶段,关键在于通过匿名化、脱密等手段处理原始数据中的敏感信息、涉及国家安全等信息,防止原始数据泄露。五是输出阶段,对生成物内容的真实性、科学性等进行技术性审核,防止存在事实性错误或错误价值倾向性的内容的产生。六是销毁阶段,主要在于对数据进行不可逆的删除处理,防止被还原。
在明确软法规则体系化建构的核心内容之后,则可明确软法规则体系的主要样态:一是,由国家发布生成式人工智能数据安全风险相关的非强制性指导文件,例如引导企业加大对数据安全防控的投入、提供企业内部数据安全防控建设的建议等。二是,制定行业标准并实时更新。与国家标准相比,行业标准的制定程序更便捷,可实时追踪技术发展以更新。企业是最直接接触生成式人工智能技术的主体,最能够捕捉技术的发展方向。因此,在制定和更新行业标准时,应当提高企业等主体的参与程度。三是,推动制定行业自律公约。硬法规制虽然可以有效维护国家安全,但也可能导致治理体系僵化、政府过度投入等问题。推动制定行业自律公约,一方面以柔性的自律规则中和法律规范的刚性、弥补法律规范可能的滞后性,另一方面则以多主体参与来调动其活力,提高数据安全治理体系的韧性。
结语
党的二十届三中全会《决定》将“建立人工智能安全监管制度”放置于“推进国家安全体系和能力现代化”的框架下进行制度设计。国家安全,涉及政治、军事、经济、文化等领域的安全问题,在生成式人工智能数据所涉及的众多利益中具有优位性。在总体国家安全观的背景下,应当以国家安全利益优位为价值取向对治理模式进行更新重塑。“新集中型”治理模式,强调预防治理与回应治理相结合,以国家数据局为主导治理机关、以公民企业等其他主体为协同治理主体,强调以法律规范为治理的根本依据、以软法规则为辅助依据,可以有效应对生成式人工智能模型中的数据安全风险,维护国家安全利益。

往期精彩回顾
上海市法学会官网