律页科技 | 专业法律科技解决方案

来源：法学学术前沿

发布日期：2026年05月01日

L L L 法学学术前沿

刑事领域数据来源合法性的类型化审查与证明

作者：谢澍，中国政法大学刑事司法学院教授，博士生导师，中国政法大学证据科学教育部重点实验室研究员。

来源：《甘肃社会科学》2026年第1期，第99-107页。

为塑造法学学术前沿微信公众平台的风格，微信推送的外标题系编辑根据文章理解所加，不代表作者立场。

摘要

数字经济时代，数据的流通与使用必须以来源合法为前提，否则将引发系列法律风险与合规危机。在刑事案件中，数据来源合法性审查更是直接影响罪责认定与证据评价的核心环节。然而，当前对于“数据来源合法性”的审查标准仍显模糊，存在审查要素分散、证明责任分配不清、证明方法单一等问题。在刑事层面，需要提出一套“类型化审查”与“整体性证明”相结合的体系化解决方案。首先，应当系统梳理数据来源合法性的核心审查要素。其次，应当依据风险与合规程度，将数据来源划分为“形式合法要素初步成立”“明显不合法”与“需进一步审查”三种类型，并明确各类型的审查标准与法律效果。最后，针对不同类型，需要建构差异化的证明体系，重点关注对形式合法要素初步成立的反驳、对主观状态的证明，并最终提出一种贯穿数据“采集-传输-使用”全流程的“整体性证明”方法。类型化审查为数据来源合法性提供了初步分流与审查导向，而整体性证明则是在审查基础上构建的动态、全流程证明体系。

关键词

数据来源；数据安全；合法性审查；类型化审查；整体性证明

目录

一、问题的提出

二、数据来源合法性的审查要素

三、数据来源合法性审查的类型划分

四、基于不同类型的数据来源合法性证明

五、结语

一、问题的提出

伴随着《网络安全法》《数据安全法》《个人信息保护法》相继出台，我国数据治理的基本法律体系和规范框架初步形成。其中，“数据来源合法”是数据处理过程中的关键要素，是数据合规的首要标准。无论是企业和平台进行数据分析、用户画像抑或针对性营销，还是权力机关以数据为基础进行的风险研判、区域管控抑或社会治理，数据使用过程中的正当性均需要溯及数据获取之源头加以审查。然而，问题在于，何谓“数据来源合法”，在司法实践中存在一定争议，并且规范标准较为模糊。首先，法律本身过于原则化。例如《个人信息保护法》第13条规定了个人信息处理的合法性基础，但对于数据提供方如何合法获取数据、如何向接收方提供数据，仅有原则性要求。此外，当数据接收方从第三方获取数据时，是否有义务审查上游数据来源的合法性、需要审查到何种程度？在实践中标准不一，以至于同案不同判现象时有发生。其次，数据合法性审查要素复杂，审查成本较高。数据来源合法性所涉及的面向较广，包括数据的授权同意、数据来源的主体资质、数据获取的具体方式以及数据内容本身的合法性，等等。并且，如果数据审查需要事无巨细，则无疑会影响数据流通和利用，大大提高数据使用成本。最后，证明方法单一，尤其是在面对复杂场景时缺乏足够全面的应对方式。过往，数据处理者通常被要求提供完整的数据授权链条对合法性加以证明。这种单一的证明要求，实际上忽视了数据运用实践中的复杂性。倘若数据是从公开渠道获取、并经过匿名化处理，那么要求后续多重流转环节均提供授权证明显然是极为困难的。同时，数据处理者的主观状态，包括是否“明知”或“应当知道”数据来源不合法作为认定其责任的关键，同样缺乏有效的证明方法。

数据来源合法性作为数字时代的重要问题，具有一定普适性，域外亦有较为成熟的实践。欧盟《通用数据保护条例》(《General Data Protection Regulation》，以下简称GDPR)作为欧盟关于数据隐私保护的统一法律，采取了一种强数据主体权利的保护模式，因此在具体的司法实践中可能因侵权数据的传递产生下游数据处理者的法律风险。具体而言，GDPR对数据以数据主体权利的角度进行审视，由此规定数据控制者、数据处理者、数据接收者、第三方等数据流转相关主体的具体义务和相关保障制度。如果数据在上游环节侵犯数据主体权利，在这一审视视角下就像被打上烙印，即使流转到下游仍保持对该侵权烙印的携带。例如，在HUBSIDE.STORE案中，法国国家信息与自由委员会（Commission Nationale de l’Informatique et des Libertés，以下简称CNIL）作为法国主要的GDPR执法机构，因数据来源合法性问题对下游数据使用企业进行了调查。该案中被调查的HUBSIDE.STORE公司从数据经纪人和产品排名测试网站处购买潜在客户信息，以便通过电话和短信对HUBSIDE.STORE公司销售的手机、笔记本电脑等产品进行营销推广。从外在形式上看，数据经纪人和产品排名测试网站本就以其所拥有的用户流量数据作为变现基础，以商业广告营销作为变现手段，作为下游企业HUBSIDE.STORE公司的潜在客户数据来源并无不当。然而，CNIL认为，数据经纪人和产品排名测试网站在收集用户数据时所使用的表格无法获得GDPR要求的自由且明确的同意，收集时未告知可能会因此获得商业勘探和关于个人数据收集和使用的所有必要信息。尽管HUBSIDE.STORE公司只是购买客户数据进行广告营销的下游企业，并未实施收集用户数据的行为，CNIL仍认为HUBSIDE.STORE公司有责任确保数据来源合法，并据此对HUBSIDE.STORE公司处以数额为营业额2%的罚款。

就我国司法实践而言，之所以强调数据来源合法性的审查和证明，一方面是因为在执法、司法乃至合规审查中，数据证据被广泛使用，但“数据来源合法性”经常性地受到忽视；另一方面是考虑到当前实践中存在三种异化趋势，包括来源不清的算法数据或爬取数据被直接使用、合规审查仅关注授权形式而忽视获取链条、各刑事程序节点中证明标准不统一存在广泛争议。须知，数据的合法性审查和证明，并非单一节点的简单判断，而应当是链路完整性与合理信赖的综合判断问题。因此，我们需要建立起一套精细化、层次化并且具备可操作性的审查与证明方法。本文主要以刑事层面的数据合法性问题为切口进行探讨。在刑事语境下，数据来源合法性涉及两种不同场景：一是数据作为犯罪构成要素，如非法获取计算机信息系统数据罪、侵犯公民个人信息罪等，审查重点是行为人获取数据的方式是否合法；二是数据作为刑事证据，即电子数据的取证程序合法性。本文主要针对前者，即数据作为犯罪构成要素时的来源合法性审查与证明问题。以此为逻辑起点，本文试图论证，针对数据来源合法性问题，应当摒弃单一、粗放的审查模式，转向“类型化审查”与“整体性证明”相结合的路径。首先根据数据来源进行初步筛选与分流，进而在此基础上构建一个动态、多维的数据来源合法性证明体系。

二、数据来源合法性的审查要素

判断数据来源是否合法，需要先明确审查要素，其核心任务在于确立“如何判断合法”的基本标准。审查要素及标准的设定，显然应当围绕数据的“采集-传输-使用”三个基本阶段。而在三阶段中，又可以从数据相关的主体资格、授权范围、获取手段及程序合规等维度展开分析。申言之，主体资格审查聚焦于数据收集主体是否具备法定权限，亦即数据处理者是否具备数据获取资格，诸如是否系公权机关、持证经营者、经授权平台等；授权范围审查需要核实数据授权内容是否覆盖实际使用情形，亦即数据使用是否超出原授权范围、是否变更处理目的；而获取手段强调数据获取未采取欺诈、胁迫等非法方式，是否符合《刑法》《个人信息保护法》《网络安全法》《数据安全法》等规范，且是否符合目的限定与最小必要原则；程序合规要求数据使用符合法定流程与形式要件。上述要素相互关联，共同组成数据合法性审查判断的基本框架。在上述要素以外，还需要强调链路完整性，审查数据在传输、授权、共享环节是否存在链路断裂或混入非法来源的情形。然而，需要注意的是，如果仅仅从“三阶段”抑或“四维度”展开审查，可能出现各阶段或各维度重复审查某些要素的情况，毕竟部分要素是贯穿“采集-传输-使用”之始终的。考虑到数据来源合法性是一个复合概念，其审查要素是可拆解的，因此，需要进一步提炼出数据来源合法性审查的核心要素，这也是对数据来源进行类型化审查的基本前提。

其一，作为实质要素的授权同意要素。在个人信息的处理场景下，授权同意要素是数据来源合法性的实质审查要素。在我国《个人信息保护法》中，授权同意是除部分特殊情况外个人信息处理者处理个人信息的行为前提和合法性基础。在获得授权同意之后，方可延伸出个人信息处理者的义务，个人在此时的权利，以及国家机关处理个人信息、跨境处理个人信息、处理敏感个人信息等特殊问题。因此，在数据的性质为个人信息时，授权同意要素为数据来源合法性审查的实质要素。根据《个人信息保护法》及相关司法解释，授权同意要素在内涵上主要包含以下三点，体现从形式到实质、从静态到动态的审查要求：第一，指涉数据取得个人同意的边界。例如，敏感个人信息应当取得个人的单独同意，相关法律规定需要取得书面同意的应当取得个人的书面同意。如果所审查的个人信息数据没有这种特殊的个人同意，在进行对应的特殊处理时在数据来源上不具有合法性。第二，指涉数据取得个人同意的持续性。授权同意要素的合法性审查不仅包含个人同意在某一时刻的取得，还包含个人同意在当前时刻的持续性。个人有权撤回同意，对于撤回前进行的个人信息处理行为的合法性没有影响，但是否定撤回同意之后个人信息处理行为的合法性。换言之，数据来源合法性的授权同意要素，不仅包含对取得个人同意确系存在的审查，还包含个人当前未撤回个人同意的审查。第三，指涉数据取得个人同意的实质成立。在前文所举HUBSIDE.STORE公司案中，CNIL的理由之一便是数据经纪人取得个人同意的表单中，“同意”选项被显著强调，因此并未实质取得个人的有效同意。对于个人同意的实质成立，其审查重点在于：首先，同意是否具备有效性。亦即，同意是否在充分知情的前提下自愿、明知、明智作出的，以及是否存在欺诈、胁迫。其次，同意的范围是否清晰、明确。亦即，数据主体所同意的处理目的、方式，以及相关数据类型和接收方范围是否明晰，数据接收方的处理行为不得超出初始授权的同意范围。最后，授权同意的链路是否完整。在数据经由多环节进行流转时，初始授权同意范围是否足以覆盖至后续每一环节的数据处理，亦即授权链路是否足够完整且不存在瑕疵。

对授权同意要素的理解，不应局限在是否存在获得个人信息时的授权同意行为，而要从构建在授权同意要素上的后续数据流转来对授权同意要素进行综合把握。此时的一个核心问题在于，如果数据流转的上一环节中个人数据的收集处理已经违反《个人信息保护法》及相关配套法规所划分的个人与个人信息处理者权责边界，下游的个人授权同意在此时是否仍然有效的问题。一般而言，现有对于取得个人同意的研究会更多关注个人和个人信息处理者双方关系中的授权同意。但是，在数据时代下，数据通过在多个数据处理主体之间的流转取得更大的社会效益，较过往单一数据处理主体进行开发利用而言已经更为常态。当数据频繁地在多个数据处理主体之间流转时，个人和个人信息处理者之间的权责划分制度必须考虑：哪些数据的缺陷具有对物性，在数据的流转过程中附着于数据这一虚拟之物上，能够对下一环节的数据处理者造成完整影响；而哪些数据缺陷又相反地具有对人性，针对的只有本环节的数据处理者，在更换数据处理者后不再对数据的处理产生影响。例如，对数据的处理可能侵害个人信息权益，产生侵权责任。围绕数据衍生的侵权责任，显然是一个具有对人性的问题。根据《个人信息保护法》，个人信息处理者可以通过证明自己没有过错避免承担对个人信息权益主体的侵权责任。上下游个人信息处理者在这一问题上被分割，数据缺陷并未随着数据流转对下游产生完整的影响。数据来源合法性的问题实质上是上游数据处理者的数据合法性对下游数据处理者的数据合法性单向传递的问题。从具体应用实践来说，不排除下游个人信息处理者直接针对自然人个人取得同意，重新定义数据流转的上下游关系。但如果单纯进行数据来源合法性的审查，授权同意要素无法超脱单向传递必然导致的上游影响。需要指出的是，上游影响不是必然发生的。我国《个人信息保护法》没有规定个人信息处理者违法处理行为发生时个人同意的自动撤回，代表着即使个人信息处理者践踏与自然人个人的权责边界，个人仍然需要主动行使享有的个人信息删除权。因此，在上游个人信息处理者之数据处理行为违反法律权责边界的情况下，下游个人信息处理者并不受到影响。只有个人选择行使个人信息删除权，才会影响到下游个人信息处理者。上游个人信息处理者的行为违法性在数据传递链条中不具有传递性。

其二，作为形式要素的信赖外观要素。数据来源合法性的审查中，一个核心的问题是，如何在法理上诠释对人性数据缺陷无法向下游传递合法性风险。换言之，究竟是什么阻却了具有对人性的数据缺陷向数据流转链条的下游传递合法性风险。具体来说，是作为形式要素的信赖外观要素，阻却了此时数据来源合法性风险的向下传递。无论是个人信息数据、政府公共数据、企业经营数据、网络群体数据，其流转均发生于公开数据市场之中。为了促进数据流转，通过数据流转产生更大的社会效益，避免公开数据市场的善意参与者因不能被归咎于自身的原因遭受不利益，公开数据市场必须对于数据流转的参与者进行外观上的保护。只要指涉数据在形式上具有合理的信赖外观，便可阻却对人性数据缺陷的合法性风险传递。此时，一个必要的审查要素——作为形式要素的信赖外观要素便被建构起来。还是以上文所举的侵权责任为例，我国《个人信息保护法》第六十九条中规定，个人信息处理者可以通过主动证明自己没有过错，避免对侵权责任的承担。此时，个人信息处理者实质上便是通过自身的主动证明，对外构建了一个足以获取他人信赖的外观。需要指出的是，信赖外观要素是一种可被打破的状态要素。如果权利人对下游取得数据加以利用的数据处理主体发出权利通知，或者发生了其他可以认定数据处理主体不再具有合理外观信赖的法律事实，信赖外观要素便不再对下游数据处理主体具有保护功能。在该时间点之前下游数据处理主体所实施的行为仍受到信赖外观要素的合法性保护，而在该时间点之后下游数据处理者所持有的相关数据不再具有来源合法性。

信赖外观是一种实践性的判断要素，不存在规范上的格式化审查要求，更多依赖于裁判者对于案情的个别化判断。一般而言，形式上的信赖外观可以考察上游数据处理主体的数据获取行为和主体资质：第一，数据获取方式及技术要素。数据处理者获取数据的具体方式和技术手段是其合法性审查的直接对象。首先，是获取方式的公开性与正当性。通过公开网站、政府公开信息等公开渠道获取，还是通过API接口、数据库共享等非公开渠道取，获取过程中是否采取了欺诈、胁迫、引诱等不正当手段，均是评价数据获取方式合法性的基本要素。其次，是技术手段的合规性。例如在使用网络爬虫等技术工具时，是否遵守了相关协议、是否对目标系统造成了过度负担、是否突破了技术防护措施、是否规避了身份验证，而这些技术细节是判断数据获取行为合法性的关键要素。第二，数据来源方资质及主体资质与行为要素的匹配性。尤其是当数据来源于第三方时，对数据来源方本身的审查就显得至关重要。一方面，关于数据来源方的主体资质，需要考虑数据来源方是否系依法设立、合法存续的实体，并且其从事数据相关业务是否具备相应的资质或许可；另一方面，需要考量来源方的数据获取行为是否与数据来源主体的主体资质相匹配，亦即对于数据来源方自身而言，其获取数据的行为是否合法，诸如是否通过合法的公开收集、商业合作以及获得用户授权等方式获取数据，不得通过内部泄露、黑客攻击、非法爬虫等非法手段获取数据。

其三，作为程度要素的数据内容性质要素。作为程度要素的数据内容性质要素是基于一般标准在实质和形式上分别对数据来源进行合法性检验后，对数据按其性质和特点进行的个别化合法性检验。一般来说，在进行一般性的实质和形式合法性检验后，仍需进行个别化检验的数据，相较一般数据具有更高的重要性，因此在合法性检验上具有更高的程度要素要求。在我国《个人信息保护法》《数据安全法》《网络数据安全管理条例》等数据相关法律法规构成的数据法律制度下，具有更高程度要素检验要求的数据有以下三种：第一，敏感个人信息。对于敏感个人信息，数据来源合法性需要考虑以下方面：是否采取了严格的保护措施；是否取得了个人的单独同意甚至书面同意；在法律规定的情形下是否向个人告知了处理敏感个人信息的必要性以及对个人权益的影响，是否进行了个人信息保护影响评估。我国已经发布了《数据安全技术敏感个人信息处理安全要求》（GB/T 45574-2025），对敏感个人信息提出了收集合法性等通用安全要求以及特殊安全要求。在敏感个人信息的来源合法性审查时，需注意上游数据处理者对国家标准的遵守，避免承继存在合法性风险的敏感个人信息。第二，核心数据。核心数据是指对领域、群体、区域具有较高覆盖度或达到较高精度、较大规模、一定深度的，一旦被非法使用或共享，可能直接影响政治安全的重要数据，包括关系国家安全、国民经济命脉、重要民生、重大公共利益等数据。国家标准《数据安全技术数据分类分级规则》（GB/T 43697-2024）中规定：对国家安全具有特别严重危害或严重危害，对经济运行、社会秩序、公共利益具有特别严重危害的数据为核心数据。核心数据需要遵守国家核心数据管理制度，采取包括建立动态核心数据目录等措施。如果上游数据处理者对核心数据采取了某种违法处理措施，其存储甚至向下游转移核心数据的行为是否具有合法性，不无疑问。第三，重要数据。根据《网络数据安全管理条例》，重要数据是指特定领域、特定群体、特定区域或者达到一定精度和规模，一旦遭到篡改、破坏、泄露或者非法获取、非法利用，可能直接危害国家安全、经济运行、社会稳定、公共健康和安全的数据。国家标准《数据安全技术数据分类分级规则》中将对国家安全具有一般危害，对经济运行、社会秩序、公共利益具有严重危害的数据划分为重要数据。重要数据在网络数据处理者之间的流转情况，应当至少保存三年。数据处理者在处理重要数据时，需要按照国家有关机关公布的重要数据目录进行识别，履行重要数据的特殊安全保护责任，进行重要数据风险评估和跨境提供申报。对于具有更高注意义务的重要数据，下游数据处理者在进行数据来源的合法性检验时，需要识别重要数据并检验上游提供者对重要数据的特殊义务履责情况，从而规避具有合法性风险的上游数据。

三、数据来源合法性审查的类型划分

前已述及，授权同意要素、数据来源方资质及相关行为要素、数据内容及性质要素、数据获取方式及技术要素等四项基本要素构成了审查数据来源合法性的基本框架。但在具体个案之中，并非所有合法性要素都需要同等强度的审查，否则既不现实也浪费办案资源。因而，就凸显出了类型化审查的必要性，需要进一步建构“类型化判断框架”，为后续证明策略奠定基础。基于前述之审查要素，结合数据流通的实践，我们可以将数据来源初步划分为三种类型，并赋予其不同的审查逻辑。申言之，数据来源合法性审查的类型划分，可以形成一个类似“金字塔”的基本样态，最上层为“形式合法要素初步成立”的数据来源，中间为“需进一步审查”的数据来源，底层为“明显不合法”的数据来源，其审查强度由上至下逐层递增。

（一）形式合法要素初步成立的数据来源

“形式合法要素初步成立”的数据来源，是因为此类数据来源具备高度的合规外观或处于低风险领域，因此可以被初步判断为合法。数据处理者只需承担初步的证明责任，证明数据来源于公权力机关、权威平台或具备强合规体系的企业，有明确授权文件及可追溯链路，或足以适用信赖推定之原则，即可视为“形式合法要素初步成立”。

申言之，“形式合法要素初步成立”的数据来源，可能包括以下几类：其一，由数据主体直接提供。即在符合《个人信息保护法》以及相关规定的情况下，数据主体直接向数据处理者提供其个人信息，而此时只要数据处理者能够展示其合规的隐私政策、获取同意的全流程记录，即可初步认定其数据来源合法。其二，系合法公开之信息。此类数据可能源自政府信息公开平台、官方统计公报、法院或检察院公告、合法公开的新闻报道等渠道。此类信息因其发布主体的公信力和程序的规范性，可初步认定其数据来源具备合法性。其三，经匿名化处理且无法复原的数据。此类数据可能来自第三方平台或机构，但已通过技术手段达到“匿名化”标准，无法识别特定个人且不能复原，是故此时数据已脱离个人信息之范畴，其数据来源可被初步认定为合法。其四，来自具备顶级资质的可信赖第三方。此类数据从具有国家级数据交易资质，或在金融、征信等特定领域拥有权威性牌照的机构获取的数据。这些机构本身受到严格监管，其提供的数据具有较高的可信度。在法律效果上，对于形式合法要素初步成立的数据来源，此时主张数据不合法的相对方需提供足够证据加以反驳。

（二）明显不合法的数据来源

“明显不合法”的数据来源，存在显而易见的、重大的违法或犯罪可能，任何理性、审慎的数据处理者在同等条件下通常能够识别其非法性。一旦数据来源于此，即可直接认定数据接收方存在过错或重大过失。此类数据一般来源于网络黑灰产、暗网交易、未授权爬虫，或明显违反“采集-传输-使用”相关规定，倘若出现在刑事诉讼程序中应直接排除或追查上游之刑事责任。

申言之，“明显不合法”的数据来源，可能包括以下形态：其一，源自黑市、暗网等非法交易平台。此类平台本身就是为从事非法活动而存在，从其获取数据，主观上的“明知”或“应知”极易被认定。例如，当前网络黑灰产中的“信息层”，主要即是负责个人信息和网络数据的采集和维护的。围绕数据信息的获取，各种黑灰产也是不断“推陈出新”，逐渐演变成为网络黑灰产的首要“生产资料”，被用于电信网络诈骗、网络盗窃、“薅羊毛”、刷单炒信、获客推广等多种场景。其二，数据内容本身违法。例如，获取的数据本身是公民个人隐私的偷拍视频、商业秘密、国家秘密等，内容的非法性直接显现出来源的非法性。其三，来源方身份相对可疑或已被办案机关查处。例如，数据提供方是已知的数据黑产团伙，或其因数据违法行为已被司法机关或行政机关查处并公告。其四，数据获取价格明显低于市场正常水平。部分数据处理者以远低于数据处理正常成本的价格获取海量数据，这通常证明数据是通过非法手段获取的，一般均在网络黑灰产交易中呈现如此之样态。在法律效果上，对于“明显不合法”的数据来源，数据处理者几乎无法证明其来源合法性，因而其使用此类数据的行为本身即构成违法或犯罪，应当承担相应的法律责任。

（三）需要进一步审查的数据来源

“需要进一步审查”的数据来源，是数据流通过程中最普遍却又最复杂的一类数据来源，相应地，其争议较大且存在灰色地带。此类数据来源既不具备“形式合法要素初步成立”的高度合规外观，也未达到“明显不合法”之程度，其合法性处于待定的中间状态，因而需要数据处理者履行进一步的审查义务。此类数据来源的常见样态有，数据授权材料在形式上存在但却内容模糊，上下游链路无法形成完整闭环，数据授权主体身份存疑，数据存在二次加工的混合状态，等等。

申言之，由于“需要进一步审查”的数据来源处于灰色地带，因而更需要结合尽职审查程度以及合理信赖程度作出综合判断，此类数据可能以如下几种样态呈现：其一，一般商业伙伴的数据共享。在商业合作中，合作伙伴依据合作协议向数据处理者其提供数据较为常见，但此时，数据接收方仍需对商业合作伙伴的数据获取合法性进行合理审查。其二，通过网络爬虫从公开网站获取。虽然网站系公开，但爬取行为是否遵守了网站规则、是否构成不正当竞争、是否侵犯个人权利或商业秘密，仍均需具体分析。其三，虽经过脱敏处理但未达匿名化程度的数据。考虑到脱敏数据仍存在被重新识别的风险，因而其性质可能仍属于个人信息，因此不能当然认定其具备合法性。其四，数据来源方资质普通或无特殊资质。此类数据的提供方可能是一般的科技公司、咨询公司或网络平台，不具备特殊的监管背书，本身也没有受到严格之监管，因此数据并不必然具有较高的可信度。在法律效果上，对于此类数据，数据处理者负有合理审查之义务，因而需要主动提供相关证据，证明其已尽到审慎的注意义务，进而对其数据来源的合法性进行证明。

四、基于不同类型的数据来源合法性证明

数据来源合法性审查的类型划分，以及“形式合法要素初步成立”“需进一步审查”与“明显不合法”的具体呈现，目的在于将类型划分结果转化为证明思路。上述三种数据来源合法性审查类型，其审查强度逐层递增，因此证明策略、证明责任、证明标准以及证明方法和重点，均有不同。但总体而言，针对不同类型，需要建构差异化的证明体系，重点关注对形式合法要素初步成立的反驳、对主观状态的证明，并最终提出一种贯穿数据“采集-传输-使用”全流程的“整体性证明”方法，以期为司法裁判及事前合规建设提供清晰、可操作的指引。

（一）形式合法要素初步成立之反驳及后续证明

针对数据来源的合法性审查，“推定-反驳”是可以借鉴的思路之一，但推定不是证明，是证明的替代方法。证据法上的真正推定需要具备三个特征：第一，从法律要件事实之外的基础性事实推出要件事实；第二，有规范依据；第三，允许反驳、可推翻，这也是最重要和最关键的。对于数据来源合法性这一专业性较强的领域，经常存在证据短缺，因而办案机关需要注重运用证明和证明替代方法，对案件全部证据进行综合审查判断，证明与指控犯罪相关的基础事实的基础上，运用经验法则建立逻辑联系，对推断性事实作出判断。既然推定是允许反驳、可推翻，当对方提出反驳时，如何恢复证明链条，如何将证明重点从“来源合法”转向“使用合理”，以及当数据处理者提供第三方平台数据时，是否可用合同、日志、接口记录作为证明链路合规的证据，均需要理论推敲。

在刑事程序中，控方需承担证明数据来源非法的责任。若数据处理者主张其数据来源具备形式合法性，并提供相应初步证据，则控方需提出反驳证据，推翻该初步合法性主张。具体反驳的路径可能包括：首先，针对合法公开信息之主张，需要证明该政府公开信息已被撤销或更正，或证明数据处理者获取的数据版本并非来自官方权威渠道，抑或是数据已被篡改。其次，针对匿名化处理数据之主张，需要通过技术手段证明该数据可以通过与其他数据结合等方式重新识别到特定个人，即其匿名化是不彻底的。最后，针对可信赖第三方之主张，需证明该第三方机构本身已发生数据安全事件，或其所提供的数据超出了其合法获取数据的范围。

一旦“形式合法要素初步成立”被有效反驳，数据处理者就不能再依赖初始的类型优势回避进一步的证明责任，而必须像对待“需要进一步审查”的数据来源一样，承担起积极的证明责任，提供其审查流程、合作协议、技术措施等证据，以完成“采集-传输-使用”全链路之整体性证明。

（二）主观明知的证明

对数据来源不合法的认知程度直接影响责任认定，但其主观上是否“明知”或“应知”数据来源非法，是区分责任轻重的关键所在。然而，众所周知，证明一个人的内心状态极为困难，必须借助客观证据进行综合判断，部分事实可通过行为人接触场景、定价异常、行业常识等方式进行评价，同时结合注意义务标准判断“是否应当知道”。

申言之，证明“明知”数据来源不合法的客观证据可能包括：其一，内部通信记录，诸如邮件、聊天记录等显示，管理层或员工明确讨论过数据来源的非法性。其二，存在第三方举报或警示，例如曾有内部或外部人员就该数据来源的合法性提出过质疑或警告。其三，存在隐秘的支付与交易方式，例如使用虚拟货币、线下现金等非常规方式支付数据费用，以规避监管。尤其是涉及虚拟货币使用的，如果我们还用传统的眼光看待虚拟货币，认为它仅仅是“黑市交易”或“简单的网络盗窃”，那我们将严重低估其复杂性与危害性。当前的犯罪形态已经呈现出专业化、跨国化和隐秘化的新特征，并且虚拟币不仅是黑产支付工具，在部分商业场合，也接受虚拟币支付。因此，对于虚拟货币支付的数据来源，存在较大可能判断其存在“明知”。

同时，证明“应知”的客观标准，涉及合理审查义务的具体化，需要考量的内容包括但不限于：其一，是否进行了基本的背景调查，是否核查过数据提供方的工商信息、涉诉情况、市场声誉。其二，是否审查了上游授权链路，是否要求并审阅了数据提供方关于其数据获取合法性的证明文件。其三，是否进行了数据内容抽样检测，是否对获取的数据进行抽样，检查其内容是否明显超出合理授权范围。其四，是否建立了内部数据合规审查制度，公司或平台是否有成文的数据来源合规审查办法，是否设置了数据合规官等岗位，以及相关制度是否在实际运行并有记录可查。就此而言，倘若数据处理者连上述最基本的审查步骤都未采取，那么当数据来源最终被证实为非法时，即可认定其存在“应知”的过失。

（三）基于全流程的整体性证明方法

对于“需要进一步审查”的数据来源以及原本“形式合法要素初步成立”的数据来源但被有效反驳后，数据处理者需要构建一个“整体性证明”体系，进而证明其数据来源的合法性。这就需要将数据“采集-传输-使用”全流程链路视作一个整体证明对象，同时对合法性证明不宜片段化，而应进行“整体性评估”，并且从证据链、时间链、授权链三个维度综合审查，进而实现证明方法的针对性与合规可验证化。易言之，这种方法不依赖于单一、孤立的证据，而是通过展示一个贯穿数据“采集-传输-使用”全流程的合规链路，向裁判者证明其行为的合法性。

具体而言，整体性证明的构成要素包括：首先，事前预防之证明。对此应当提供供应商尽职调查报告，尤其是与数据提供方合作前，需要对其进行全面的背景、资质和合规状况调查，并形成书面报告。同时，提供标准化的合同条款，例如在数据采购或共享协议中，明确要求对方陈述并保证其数据来源合法，并约定其违反保证的违约与赔偿责任，亦即己方履行审查义务之证明。此外，还可以展示数据处理者本身针对数据所设计的分类分级管理制度，例如根据数据的不同敏感程度，制定差异化的数据来源审查标准，即风险越高、审查越严。其次，事中管控之证明。此类证明需要借助技术验证措施进行一致性、真实性校验。例如，检查数据格式是否规范、是否存在逻辑矛盾、与已有数据是否冲突等。同时，需要提供审计记录，在定期对数据来源进行的内部或第三方审计过程中，完整保存所有与数据获取相关的沟通记录、合同、付款凭证、审查记录。此外，还可以提供员工培训记录，即对相关岗位员工进行的数据合规培训记录，进而证明公司或平台已致力于提升全员的合规意识。最后，事后补救之证明。数据处理者需要证明是否存在主动发现与响应机制，一旦通过自查或外部反馈发现数据来源可能存在问题，立即启动应急预案，停止使用相关数据，并进行内部调查。同时，应证明配合监管与执法，尤其是在面临调查时，积极主动地提供已准备好的全套合规证明材料，展现出合作的姿态。此外，还需要进行溯源与影响评估，针对能够追溯问题的数据来源，并评估其已造成的影响，采取补救措施。

简言之，整体性证明的逻辑在于，承认在复杂的数据生态中，要求数据处理者对每一份数据的来源做到绝对合法或绝对无误并不现实。社会所期待的，是一个理性的且负责任的数据处理者，尽到合理注意义务。通过展示数据“采集-传输-使用”全流程、体系化的合规努力，即使最终无法证明某一份特定数据的授权链路完全不存在瑕疵，数据处理者也能有力地主张其已经尽到了合理注意义务，主观上不存在过错，进而免除或减轻法律责任。这种证明方法将审查的重点从“数据来源”是否合法本身，部分地转向了数据处理者对于数据是否“使用合理”以及事前是否建构“合规体系”，因此更具现实合理性与可操作性。

五、结语

数据来源合法性并非一个“非此即彼”的简单问题，而是一个充满层次与灰色地带的复杂领域。面对这一挑战，本文试图建构的“类型化审查”与“整体性证明”体系化框架，旨在为司法裁判及事前合规建设提供一套清晰、务实且高效的解决方案。类型化审查为数据来源合法性提供了初步分流与审查导向，而整体性证明则是在审查基础上构建的动态、全流程证明体系。二者并非割裂，而是递进与互补的关系：类型化决定证明的起点与重心，整体性证明则为复杂情形提供系统的合规性展示与责任抗辩路径。申言之，类型化审查是确保审查之公平与效率的分流机制，通过对数据来源进行“形式合法要素初步成立”“明显不合法”与“需进一步审查”的初步划分，将有限的司法及合规资源集中于最具争议和风险的领域，避免资源浪费，也为企业提供了明确的行为预期。而整体性证明则是应对复杂性与不确定性的安全保障，在某种意义上，这一思路超越了传统上对单一、静态之证据体系的依赖，倡导一种系统、动态并且贯穿数据全生命周期的证明方法。并且，上述方案鼓励企业将合规内化为一种组织能力和流程制度，不仅有助于企业在争议产生后有效地为自己辩护，更从根源上提升了整个数据产业的安全水准。当然，随着数据要素市场化改革的深入，对数据来源合法性的要求必然更加精细，也期待“类型化审查”与“整体性证明”体系化框架能够为立法者细化规则、裁判者统一标准提供有效参考，推动数据来源合法性审查标准和证据标准的统一。

谢澍 | 大模型不能“吃脏数据”：人工智能产业链数据来源合法性审查

来源：法学学术前沿

发布日期：2026年05月01日