来源:法学学术前沿
发布日期:2026年05月02日
L L L 法学学术前沿
电子数据人工智能取证的实践考察
与理论反思
作者: 谢登科,吉林大学理论法学研究中心教授,博士生导师,研究方向:刑事诉讼法学、证据法学;潘柳霖,吉林大学法学院博士研究生,研究方向:刑事诉讼法学、证据法学。
来源:《重庆社会科学》 2026 年第 2 期 。
为塑造法学学术前沿微信公众平台的风格,微信推送的外标题系编辑根据文章理解所加,不代表作者立场。
摘要
电子数据的虚拟性 、海量性和技术性等特征给传统以人力为基础 的侦查取证活动带来较大挑战,而人工智能取证则契合虚拟空间 中侦查取证的需要,能够实现海量电子数据的高效收集,并降低对侦查人员技术资质的要求。而当前人工智能在取证时面临关联性、合法性、真实性等方面的困境 。在关联性方面,由于思维的差您性,人工智能面临待证事实自然语言处理和结构转化的难题,会因欠缺常识 、经验而出现关联性误判,且难以对其收集的证据进行关联性解释和论证 。对此,应当明确人工智能在取证活动中的辅助性定位,通过人工智能的技术迭代和算法优化予以解决 。算法偏见、算法黑箱和人工智能法律地位模糊等因素,造成了人工智能取证的正当程序危机,对人工智能收集电子数据的合法性造成消极影响,应当在优化算法的同时强化对人工智能收集电子数据的事后审查 。人工智能的“长尾效应”、训练数据质量等因素 ,会导致人工智能幻觉现象的发生,影响人工智能收集电子数据的真实性 。通过建立电子数据人工智能取证的人机协同机制和可控匿名化机制等,将有利于保障人工智能收集电子数据的真实性 。
关键词
人工智能取证;电子数据;关联性;真实性;合法性
目 录
一、 电子数据人工智能取证的实践动因
二、 人机思维差异:人工智能取证的关联性困境
三、 正当程序危机:人工智能取证的合法性困境
四、 人工智能幻觉:人工智能取证的真实性困境
五、结语

电子数据已成为信息网络社会的“证据之王”,在诉讼活动中大量涌现。《中华人民共和国刑事诉讼法》(以下简称《刑事诉讼法》)规定的取证措施主要是针对收集物证、书证和证言、供述等传统证据类型,这种传统取证活动以传统物理空间中发生的犯罪为基本原型,以侦查人员的人工为基础。作为新兴证据的电子数据,具有虚拟性、海量性、技术性等特征,需要借助算法、代码、程序等信息技术方法进行取证,这给传统取证活动带来较大挑战。近年来,随着人工智能技术的飞速发展和广泛应用, 人们尝试在司法活动中引入人工智能。电子数据人工智能取证是将人工智能应用于取证活动的探索之一,指通过深度学习、自然语言处理等算法,将人工智能作为取证工具,辅助侦查人员开展取证活动,以实现对海量证据的分析与研判。 电子数据人工智能取证已逐步应用于大数据侦查、数字检察、跨境取证等领域,其主要应用场景包括对电子数据的挖掘与分析。前者聚焦数据的挖掘,如司法实践中开发的自动化取证系统,利用数据搜索、数据挖掘与自动化技术减少电子数据取证中的人工干预与人力成本。后者则侧重数据的分析,通过对海量电子数据进行分析研判,形成分析报告,以辅助侦查人员对案件开展犯罪网络关系分析和资金穿透式分析。电子数据的人工智能取证虽然具有便捷性,能够高效收集海量电子数据,但 其取得的证据可能不符合传统证据的关联性、合法性、真实性要求,这也将引发取证活动的司法实践和制度规则变革。 因此,有必要在理论层面探讨电子数据对传统取证活动的挑战,并分析人工智能在电子数据取证中的关联性、合法性、真实性困境,进而探究其完善路径。
一、电子数据人工智能取证的实践动因
现有侦查取证制度,主要是以物证、书证、证人证言等传统证据的取证为基础,以侦查人员对传统证据的取证行为为规范对象。电子数据作为新兴的法定证据,虽然与传统实物证据有很多共性,但其虚拟性、海量性和技术性特征给传统以人力为基础的取证活动带来较大挑战。电子数据的虚拟性弱化了传统取证工作中侦查人员对实物证据的直接感知,阻碍了侦查人员对电子数据内容的理解。电子数据的海量性增加了取证活动的人力成本,也对取证活动的效率提出挑战。电子数据的技术性增加了取证的难度,提高了对侦查人员专业能力与技术能力的要求。在犯罪网络化、产业化、链条化发展的背景下,以侦查人员人力为基础的传统取证活动已无法满足数字时代电子数据收集提取的需要。为突破传统取证活动在电子数据取证时的瓶颈,实现对网络犯罪的有效打击,公安司法机关正逐步开展电子数据人工智能取证的实践探索。电子数据人工智能取证的实践动因,主要在于其具备如下优势。
(一)取证场域转变:契合虚拟空间侦查取证的需要
随着信息技术的发展,传统犯罪场所从物理空间转移至网络空间这一虚拟的社会空间。刑事案件侦查取证的场域也随之从现实物理空间转换到虚拟网络空间。取证场域的转变,使以侦查人员直接感知为基础的传统取证活动难以保障网络空间电子数据取证的质量和效率。在现实物理空间中,实物证据以有形物为主要存在形式,通过物理属性让其蕴含的事实信息被人们所认识和感知。传统取证活动以直接感知的方式进行,侦查人员主要通过自身感官和认知能力与实物证据进行交互,以观察、感知等方式来获取传统实物证据中蕴含的相关信息。侦查人员通过直接接触实物证据并形成直接感知,将自身法律知识和实务经验应用于取证工作,从而保障收集证据材料的关联性、合法性和真实性。但在网络虚拟空间,证据材料主要以电子数据的形式存在,其本质是“0-1”二进位数码,具有虚拟性、无形性的特征。侦查人员在电子数据取证过程中无法直接接触数据本身,也无法进入虚拟空间直接收集相关数据,需要借助软件程序、取证设备等进行取证。很多电子数据被加密处理,这既会阻碍取证人员直接获得对其内容的认知,也会增加破译密码的时间和成本。
人工智能本质上属于计算机程序,仅能处理“0-1”二进位数码,其深度学习和训练也主要以海量数据为支撑,因此在直接收集和处理电子数据方面具有天然优势,人工智能取证更契合网络犯罪时代对虚拟空间电子数据取证的需要。在利用人工智能收集和分析传统实物证据或者言词证据时,还需要借助算法程序将其转化为人工智能可以直接识别的语言(即数据)。而利用人工智能收集的相关电子数据,则无需进行转换就可以直接被识别、收集和处理。在实践中,侦查人员通过对类案材料进行数据提取、数据标注等,构建用于电子数据分析和取证的人工智能模型,通过海量数据对取证大模型进行深度学习和训练,完成训练的人工智能取证大模型可以对相应案件涉及的电子数据进行分析和取证。这一实践探索,为人工智能直接收集电子数据奠定了基础,减轻了将自然语言转化为人工智能可以直接识别数据的负担。通过大数据和人工智能技术,可以对与案件事实相关的各项要素进行整合和处理,实现对刑事案件中海量数据的高效收集和分析,从而精准回溯与查明案件事实。例如,中山市公安局刑侦部门针对网络制贩枪弹类案件,构建了“缉枪神探”数据模型。该模型通过整合中山市各类寄递物流信息及公安机关采集的信息,对网络制贩枪弹类案件的寄递物流、买卖双方聊天记录、支付记录等电子数据进行深度挖掘与高效分析。目前,该模型已分析出各类涉枪线索百余条,成功落地收网多个重大网络贩枪犯罪团伙。
(二)取证成本降低:实现海量电子数据的高效收集
在信息网络社会中,网络犯罪已成为常见的犯罪类型,其在实践中呈现团伙化、产业化、链条化特征。在网络犯罪案件中,经常会涉及海量数据的收集和审查,这是电子数据的海量性特征所致,主要源于信息网络技术飞速发展引发的各种存储设备的存储容量激增,比如TB级的硬盘、云存储服务器等。这些电子设备或者存储介质可能会存储海量数据。此时单纯依靠人力进行海量数据的分析和识别,可能会耗费极长时间和精力,通常仅靠人力难以胜任。为了解决海量数据取证中的高人力成本难题,我国司法机关进行了抽样取证的实践探索,但抽样取证是以“部分替代整体”,其合理性和合法性存在较大争议。随着人工智能技术的发展和应用,人工智能取证成为替代抽样取证解决海量数据取证难题的重要方式。
人工智能可以高效地对海量数据进行自动化过滤、识别、收集和处理,保障取证的高效性和准确性,降低人力成本。人工智能执法和司法系统中,人工智能能够以远超人类能力的速度对数据进行分析和处理。比如,交通警察处理简单的交通事故通常需15~30分钟,而人工智能执法系统则可以并行监控多个主体和设备,并在毫秒内作出相应处理决定。又比如,H市检察院依托自建的大数据法律监督平台,对50余万份裁判文书进行自动检索、筛查,梳理出同一原告或者原告代理人密集起诉的财产保险合同纠纷裁判文书。H市检察院借助人工智能技术,对宋某等13人参与诉讼的200余份民事裁判文书进行分析、研判,发现存在当事人重合、起诉频次高、理赔权转让、未经保险公司定损、评估机构高度集中等异常现象。H市检察院汇总相关材料并对裁判文书中原告身份进行调查,发现某汽车维修厂人员涉嫌诈骗,遂将案件线索移送H市公安局并建议立案侦查。这一过程主要依托数字检察的大模型进行线索挖掘与取证,从海量数据中收集到保险诈骗的涉案证据。若仅依靠人力对50余万份裁判文书进行比对和分析,则可能需要大量办案人员耗费数月甚至数年时间才能实现对海量证据的准确研判。此外,在某企业遭遇的侵犯商业秘密纠纷案中,需分析数百万封电子邮件和聊天记录,当事人委托专业机构利用人工智能取证系统在72小时内完成主题聚类、人物关系图谱绘制、泄密敏感信息自动标记等取证工作,成功收集到涉案电子数据。若该工作由人工团队进行,则需要耗时6个月以上。因此,人工智能对数据分析和处理的高效性,决定了其能够有效胜任海量数据的侦查取证工作。
(三)取证质效提升:减轻侦查人员的技术资质要求
电子数据作为信息网络技术的产物,具有较高的科学技术含量,在性质上属于广义的科学证据。在电子数据生成、收集、分析等环节,通常需要使用相关取证软件和电子设备。电子数据的技术性,对取证主体的技术资质和实务经验提出较高要求,其中既包括计算机科学的基础知识,也包括数据取证方面的专业知识。在人工智能时代,人工智能会被违法犯罪分子用于实施各种违法犯罪活动,其中也包括犯罪证据的自动伪造、删除、销毁等活动,这进一步提高了电子数据取证的技术门槛。但由于侦查人员的学习能力和精力有限,单纯以人力为基础的传统取证活动无法保障电子数据的取证质量和效率。一方面,侦查人员学习电子数据取证知识的成本较高,难以在技术高速迭代的网络社会实现电子数据取证能力的快速增强。另一方面,侦查人员的精力有限,难以实现对易变的电子数据的及时收集。而网络空间的电子数据,具有变动性、易逝性等特征,若不及时收集,原有数据很容易被新数据替代或者覆盖,这就要求网络空间中的电子数据取证应遵循及时取证原则。由于互联网的开放性和全球性,网络空间中的违法犯罪行为随时可能发生。但是,囿于人类的有限精力,全天候人力网络监控和随时取证在网络空间中不具备现实可行性,因而可能导致部分电子数据由于没有被及时收集而灭失。
将人工智能技术应用于电子数据取证,其自主学习能力能够降低对侦查人员技术资质的要求。人工智能在本质上是计算机程序,它承载知识或者能力的载体是模型架构、数据集、知识图谱等,可以通过无限次无损复制,让安装该系统程序的设备快速获得相同能力。对于人工智能取证系统而言,人工智能经过海量数据学习获得相应取证技术和能力后,可以高效率、大规模地复制并应用于其他设备中。比如,我国M公司研发的智能自动化取证精灵实现了USB调试自动开启、Wi-Fi取证自动化、直连取证自动化三大功能,让电子数据取证跨入L3级自动化取证时代,侦查人员简单点击屏幕或者键盘输入相关指令后,就可以让该人工智能取证系统自动收集相关电子数据,由此大幅降低了电子数据的取证技术门槛,提高了电子数据取证的质量和效率。此外,人工智能可以24小时运行,对网络空间中的违法犯罪活动实现全天候监控和取证。以网络入侵调查和取证为例,人工智能系统可以实时监控网络流量和系统日志,即时检测并预警网络入侵等恶意活动,实现“活取证”(live forensics)或者同步取证,缩短了从案件发生到证据获取的时间窗口,保障了电子数据取证的及时性和高效性。
二、人机思维差异:人工智能取证的关联性困境
电子数据作为法定证据种类之一,需要遵循关联性规则,这和传统实物证据并不存在本质区别,它要求电子数据应当与案件事实之间具有客观联系且对案件事实具有证明作用。关联性规则限定了电子数据收集与提取的范围,原则上仅能收集与案件事实具有关联性的数据,而不得收集与案件事实无关的数据。对证据关联性的判断需依靠人类经验、常识和逻辑推理,这就使人类的思维成为证据关联性判断的基础。在将人工智能应用于电子数据取证时,也需对证据关联性予以判断,但这一判断是基于人工智能“思维”展开。人工智能“思维”与人类思维存在较大差异:一是二者思维的起点不同。人工智能的“思维”材料是数据,而人类的思维材料是语言和意象。因此,人工智能“思维”的起点是对自然语言的处理与结构化转化,而人类思维则直接依靠自然语言,无需对知识与语言进行数据化处理。二是二者思维的方式不同。人工智能“思维”是通过算法实现概率预测的相关性思维,其核心是挖掘大量数据之间最大可能的关联概率来建立最优组合,并输出给人类。但人类思维的方式具备复杂性,常识、经验法则、逻辑推理与灵感思维均能够影响人类对特定事实的思考与判断。人工智能与人类之间的思维差异,使人工智能在电子数据取证中出现困境。
(一)待证事实的自然语言处理和结构化转化能力有限
关联性具有相对性,体现在证据材料与待证事实的证明关系之中。将人工智能应用于电子数据取证,首先需要让其知悉、理解待证事实,才能够收集用于证明待证事实的电子数据。待证事实主要是法律规定的要件事实,它采用人类能够直接认识的自然语言予以规定和表述。法律规则的数据化处理是人工智能进行电子数据取证的重要前提。人工智能则以机器所能识别的数据为处理对象,通过数理逻辑的智能算法对数据予以处理,因而需要将法律规则转化为人工智能能够识别的数据。在电子数据人工智能取证中,需要在人工智能模型中设置数据与案件事实相关性的阈值,当超过该阈值时该电子数据即被认为具有关联性,并将其作为涉案证据予以收集,否则就被认定为无关数据。这是因为人工智能在进行逻辑推理时,需要将逻辑推理的元素转化为数值,在元素之间通过数学方法检验逻辑关系。理解自然语言及其中隐含的内容,是人类智慧的基本组成部分,也是人工智能面临的主要挑战,目前主要是通过神经网络进行深度学习实现对自然语言内涵的理解。在自然语言识别和处理上,最大的困难在于人类语言的模糊性和不确定性,对其正确理解建立在相应语境的基础之上,需要使用自然语言交流的各方具备大量共同的背景知识。而法律规则具有高度的概括性,在法律规则适用范围的边缘地带,其语义具有模糊性,人工智能无法对其进行准确理解和转化。
为应对人工智能的自然语言识别障碍,一方面,需要在信息技术层面提高人工智能对自然语言的处理和转换能力。对此,可通过可视化技术将人工智能模型处理文本的内部机制以图形化的方式呈现给人工智能取证系统开发者,使其更好地理解人工智能取证系统对自然语言的处理和转换过程。另一方面,则应当对法律要件事实进行细化和分类。在我国人工智能的司法实践中,各级司法机关正探索制定具体个罪的证据标准和指引,尝试建构具体个罪要件事实认定所需的完整证据链条,并通过列举方式明确其在案件事实认定中所要求的证据类型和取证规范。例如,在上海“206”智能系统的设计过程中,刑事司法机关通过大数据分析细化取证行为、诉讼程序和犯罪构成要件的证据种类与形式要求,统一证据标准并将其嵌入智能取证系统,为人工智能对证据的收集提取和审查认定奠定基础。
(二)欠缺数据关联性判断中的常识和经验法则
电子数据的关联性判断需要借助取证者的主观感知,进而决定是否对相关数据予以收集。根据证据对案件事实的证明方式,可以将其分为直接证据和间接证据。直接证据可以直接用于证明案件的主要事实,其关联性相对明显。间接证据对案件事实的证明需要借助于常识、经验法则和逻辑推理。电子数据绝大多数是作为间接证据发挥证明作用,这就意味着对于电子数据关联性的判断和识别,需要借助常识、经验法则和逻辑推理。人类思维以广泛性的经验、常识和逻辑推理的掌握为基础,以此判断某些数据与案件事实之间是否具有关联性。纵观人工智能的发展历程,虽然科学技术人员努力让人工智能掌握核心知识,但它无法完全具有人类的直觉和常识。在逻辑推理以外,灵感思维也是人类理解复杂问题的主要方式之一,这是一种跳跃式和直觉式的思维方式。证据关联性的推理论证,既会用到逻辑推理,也会涉及灵感思维,后者主要基于大量司法实践和认识经验的积累,人工智能尚无法实现对人类灵感思维的有效模拟,无法完全模拟人类在证据推理中的跳跃式、直觉式思维方式。在电子数据取证中,由于缺乏必要的常识和经验,人工智能无法模拟人类的逻辑推理和灵感思维,无法对电子数据的关联性进行有效识别和判断,数据遗漏和无效数据收集的现象在人工智能电子数据取证中时有发生。例如,由于正常贸易往来行为与网络黑产犯罪的洗钱行为均可能出现向境外银行账户转账的情形,实践中常有将有境外转账记录的银行账户错误冻结的情况出现。
对人工智能取证模型输入人类逻辑与知识,可以避免其因缺乏常识和经验而无法实现电子数据取证中的关联性判断的问题。这要求在人工智能取证模型的建构中,借助人工标注对具有关联性的海量数据进行训练和学习,在此基础上让模型自行掌握关联数据中的规律和特征。这实际上就是将司法人员掌握的常识和经验法则在数据标注中转化为机器可以学习的内容。人工智能的核心是机器学习,其遵循归纳推理的逻辑过程,通过对数据进行观察和学习,总结其中的规律和特征,然后依据规律进行预测和数据处理。在电子数据取证中,人工智能根据人工标注的数据总结类案电子数据收集的规律和特征,并根据已掌握的规律或者特征来判断将要收集的数据是否具有关联性,进而决定对数据是否予以取证。这一做法将人类逻辑和知识融入了电子数据人工智能取证过程中,能够实现较为准确的电子数据关联性判断。另一方面,应当建立人工智能取证的关联性“负面清单”制度。人工智能通过对概率的分析实现对电子数据关联性的判断,这使其难以区分某些日常行为与犯罪行为。对此,侦查人员应当及时收集并总结人工智能取证在关联性判断中的错误案例,并将其向人工智能取证系统开发者反馈。系统开发者应将此类错误案例的主要案件类型予以统计,并在取证系统中对容易出现关联性误判的高频案件类型予以标注。
(三)电子数据关联性的解释和论证不足
关联性作为证据的基本属性,当事人对其收集和提交的材料,需要向法院阐述或者说明其与案件事实有关,否则法院不会将该材料作为证据。不同类型的证据,与案件事实的关联方式存在差异,在应用其来证明案件事实时的推理或者论证程度也并不完全相同。电子数据也不例外,当事人也需要向法院阐释其收集和提交数据的关联性,而由于电子数据多数属于间接证据,其与案件事实的关联性,可能需要借助复杂的推理链才能得出。在将人工智能应用于电子数据取证时,虽能够实现关联数据的精准检索、高效获取,但在关联性的解释和论证方面仍存在困难。如前所述,在人工智能电子数据取证模型中,需要通过对海量关联数据进行学习和训练,从中发现关联数据的规律和特征。在机器学习中发现的规律,有些可能很容易被人类所理解,有些则并不容易被人类所理解,甚至也难以用言语阐述清楚。有观点认为:在有些情况下,人工智能可以以全新方式分析、处理数据,这些处理方式可能无法被人类所理解,它主要源于人工智能对相关性的分析方式与人类因果性的思维方式存在某种差异。这就可能导致人类无法准确理解和阐释人工智能收集电子数据的关联性。
对于该问题,一方面,应当在人工智能取证模型中增加说理功能,促使人工智能取证模型以人类的自然语言向侦查人员说明收集电子数据的依据,以帮助侦查人员理解取得的电子数据与案件的关联性。思维必须以语言为载体,而对人工智能“思维”结果的检验也可以通过语言展开。人工智能并不能实现对人类语言的真正理解,也无法实现对人类思维方式的全面模拟,但通过说理功能,人工智能可以将算法的运行逻辑转化为自然语言,从而使其“思维”过程由计算机语言转变为可被人类理解、检验并评价的内容。由此,侦查人员能够检验人工智能取证系统对证据关联性的判断是否正确,以防止其超范围收集与案件事实无关的电子数据。另一方面,需要合理界定人工智能在电子数据取证中的辅助性地位。人工智能取证系统的本质是电子数据取证的技术工具,无法替代办案人员基于法律规范、案件事实与自身实践经验作出的实质性判断。在具体个案中,必须依赖办案人员的司法经验与法律素养对证据的关联性予以判断、说理与论证。
三、正当程序危机:人工智能取证的合法性困境
电子数据作为法定证据之一,也应当具有合法性,其中就包括取证主体合法性、取证程序合法性、证据形式合法性。将人工智能用于电子数据取证时,也会产生证据合法性的问题。电子数据承载了人们的隐私权、财产权等基本权利,人工智能取证也会干预或者侵犯电子数据承载的基本权利,若没有遵循法定条件和正当程序,就会产生与传统侦查取证相同的合法性问题。根据正当程序原则,刑事案件中的电子数据收集与提取应当满足程序公正、程序公开与主体合法的基本要求,否则可能导致所收集的证据因不具备合法性而被排除。而人工智能自身存在的算法偏见、算法黑箱以及取证主体地位模糊等缺陷,引发了电子数据人工智能取证的正当程序危机,对电子数据合法性产生消极影响。
(一)人工智能的算法偏见:对客观公正的背离
算法偏见是指人工智能由于数据、设计、架构等原因,可能会对某些特定群体产生不公平、歧视性或系统性的错误倾向,由此导致自动化决策产出不公正或者歧视性结果。算法偏见主要来源于算法本身和人为因素,前者主要包括数据来源、建模、训练等因素,后者主要源于人为标注、使用、解释等因素。在人工智能取证系统中,也可能会存在算法偏见,影响电子数据的合法性。现有司法人工智能系统也需要借助海量数据开展训练,训练数据主要来源于生效裁判文书等,而刑事生效裁判文书多数是有罪判决,可能会形成“重有罪证据,轻无罪证据”的算法偏见。在实践中,人工智能系统的开发、管理、维护等通常是由某个社会主体负责,其背后的相关人员可能会将自己的偏见引入人工智能系统之中。现有用于侦查取证的人工智能系统,主要由公安司法机关负责,其在司法人工智能的开发和建设中,可能会存在“重有效取证、轻人权保障”的偏见,即注重收集被告人有罪的证据,而忽视有利于被告人的证据。此外,人工智能的算法也具有迎合人类价值偏好的“谄媚机制”。有研究表明,人工智能存在退化式谄媚的技术性缺陷,即人工智能遵从使用者的错误观点,对自身先前生成的正确结果加以修改,这可能导致侦查人员因价值偏见违法收集证据。上述人工智能的算法偏见缺陷,违背了侦查取证的客观公正要求,引发了人工智能取证的正当程序危机。
对于算法偏见所产生的证据合法性问题,首先,提高训练数据的质量来消除或者降低该问题。这一做法主要是在人工智能训练过程中保障其总结规律的正确性,降低算法偏见对个案处理的影响。在人工标注数据时,通过对海量数据的有罪证据、无罪证据、定罪证据、量刑证据等予以准确标注,确保人工智能取证模型总结符合客观公正原则的电子数据取证规律,实现有罪证据和无罪证据的同步收集。其次,构建人工智能取证模型开发阶段的算法偏见伦理审查机制。算法偏见源于人工智能算法开发设计时技术的不完善,对其审查监管需要依靠具有计算机知识的专业人才。对此,可以建立专门的算法监管机构,其人员组成应当包括技术专家与法律专家,在人工智能取证模型的开发阶段,通过对训练数据和算法程序本身的审查,及时发现与纠正算法偏见。最后,强化对人工智能收集电子数据的事后审查。司法人员应当依据《刑事诉讼法》及相关司法解释,对人工智能收集电子数据的证据形式合法性和取证审批程序的完备性进行审查,及时排除不符合证据合法性要求的电子数据,避免电子数据的超范围收集,减轻算法偏见对取证活动的影响。
(二)人工智能的算法黑箱:对程序公开的削弱
电子数据侦查取证活动具有相对的秘密性、封闭性,但也要符合正当程序的基本要求,这就需要保障电子数据侦查取证活动最低限度的程序公开。侦查人员对于收集到的电子数据,需要制作相应取证笔录和清单,并由见证人、被搜查人等签字,使相关主体知悉侦查人员的取证过程及其活动,以便为其监督取证活动、寻求权利救济奠定基础。人工智能在本质上是算法程序,其天然存在因决策不透明而引发的“算法黑箱”问题。“算法黑箱”意味着人们仅知道输入数据及其输出结果,并不知悉和理解其决策过程。将人工智能应用于电子数据取证活动,也会因“算法黑箱”的问题,减损取证程序的正当性和电子数据的合法性。电子数据人工智能取证系统通常由国家机关或者电子数据取证专业机构主导开发,因电子数据取证而遭受权利侵害的主体通常并不参与取证系统的设计和开发。将人工智能应用于电子数据取证活动,“算法黑箱”就意味着相关人员无法知悉和理解取证过程,电子数据取证过程对相关主体是不透明的,这显然有悖于侦查取证活动的相对公开性要求。在美国的温德尔·贝尔(Wendell Belle)案中,警方使用了证据科学统计工具(Forensic Statistical Tool)的算法程序,对DNA样本进行分析,辩护方就对该算法的非公开性、可靠性等提出质疑。对于人工智能开发者而言,其背后的算法、源代码等通常属于开发者的商业秘密,其在算法设计、代码开发等阶段投入了大量资源。出于保护商业价值等目的考虑,人工智能开发者并不需要将其算法、源代码等向社会公开。在将人工智能应用于电子数据取证的过程中,若算法、源代码等不予以公开,法院在电子数据审查中就无法审查其取证方法的可靠性。对于侦查机关借助人工智能收集的电子数据,法院在无法进行实质审查的情况下被动接受,这显然也会减损电子数据的合法性和审判程序的正当性。
对于电子数据人工智能取证中的算法黑箱问题,可以通过强化算法可解释性予以解决。算法可解释性的强化有赖于算法的公开,但由于人工智能取证系统既承载打击犯罪与保障人权的价值要求,也体现了算法开发者的商业利益,故对电子数据人工智能取证的算法公开应当建立在人权保障、打击犯罪与商业利益保护的平衡基础之上。这种价值平衡,限制了算法公开与解释的对象和范围。一方面,对人工智能取证系统的算法公开与解释应当以利益相关者和专业技术人员为对象,而非向社会公众全面公开。向利益相关者的公开,是指向司法机关与被追诉人及其辩护人的公开,前者旨在保障案件侦查与审判的实质效果,后者则侧重保障被追诉人权利。向专业技术人员的公开,是指向算法监管机构以及审判过程中专家等辅助人的公开。为保障人工智能取证系统开发者的商业利益,司法机关、专业技术人员以及被追诉人和辩护人均对人工智能取证系统的算法负有保密义务。另一方面,对人工智能取证系统的算法公开与解释应当以具体决策为内容,不要求对算法内容的完全公开。在现代社会,信息公开具有相对性,并不要求任何事项都充分说明或者完全透明,在能够确保通过算法处理数据准确性的前提下,并不必然要求相关人员知悉算法的底层源代码。因此,对人工智能取证系统的算法解释,应当仅限于个案中取证行为做出时所依据的基本原理、理由与个体情况,而不要求公开取证系统算法的全部算法公式及模型内容。
(三)人工智能的取证主体地位模糊:对主体合法的冲击
人工智能可以模仿人类的思维活动,自主性是其关键特征之一。在强人工智能时代,人工智能的自主性相对较高,其实施的相关行为或者活动并不完全基于人类指示、命令,而是其自主决定实施的。人工智能能够通过爬虫、深度学习等技术实现对公民个人信息的自主性数据处理。在此阶段,人工智能在应用于电子数据取证时,可能会带来取证主体合法性的问题。取证主体的合法性,要求取证主体应当具有合法权限。取证权限通常是相对于公权力主体而言。公权力主体通常需要遵循“法无授权不可为”的基本原则,公权力主体在没有取得法律授权和令状授权的情况下,则可能会产生取证合法性的问题。在强人工智能时代,人工智能应用于电子数据取证的合法性危机,主要包括以下层面:其一,人工智能是否具有取证主体地位。人工智能在电子数据取证中具有较强的自主性,但是若将人工智能界定为取证主体,则会导致侦查人员的主体性危机。其二,法律是否需要对人工智能取证进行授权。若将人工智能界定为取证主体,其对承载公民基本权利的数据进行取证时,极易引发权利侵害或者干预,此时若法律没有授权,则会因欠缺权限而产生合法性危机。其三,人工智能取证违法是否归责。侦查人员违法取证时,可能面临相应实体性制裁和程序性制裁,前者主要是内部纪律处分,后者主要是非法证据排除。在人工智能取证中出现违法,是否可以通过上述方法予以归责,则需要对其进行研究和探讨。
对于上述问题,首先需要明确人工智能在取证活动中的法律地位。现有研究对人工智能在司法活动中的法律地位存在“人工智能客体说”和“人工智能主体说”的理论争议注,但将其应用于侦查、审判等司法活动时,其对于司法人员的辅助性定位已取得学界共识。司法活动自身的规律性即亲历性、经验性,决定了人工智能无法取代司法人员成为司法活动的主体,其主要通过智能化工作辅助司法人员进行司法活动,故具有应然的辅助性定位而不具备取证主体的地位。而基于人工智能在取证活动中的辅助性法律地位,令状制度主要是通过司法审查限制搜查等行为的启动条件,从而抑制侦查权的恣意行使。而侦查权以侦查人员为行使主体,人工智能取证系统在取证过程中则是侦查人员的辅助性工具,故司法令状的授权对象应当是具体侦查人员,而非人工智能取证系统这一取证工具。但鉴于人工智能辅助司法活动的定位,其适用也应当存在禁区,对此可以通过建立负面清单,划定人工智能在取证活动中的适用范围。而对于人工智能违法取证的归责,因其并不具有取证主体的地位,对违法取证的实体性制裁与程序性制裁均不能及于人工智能取证系统。人类是人工智能取证这一技术手段的最终责任主体,要严格落实利益相关者的责任,但为防止人工智能违法取证现象频发,应当建立违法取证定期汇报机制,对事后审查过程中发现的违法取证现象进行汇总,并梳理总结规律,在后续人工智能算法升级和技术迭代过程中将其作为负面数据样本予以投喂。
四、人工智能幻觉:人工智能取证的真实性困境
电子数据真实性具有层次性的特点,这是其与传统实物证据真实性的主要不同。我国有学者提出电子数据真实性的三个层面或者维度,即电子数据载体真实性、电子数据形式真实性(亦称为数据真实性)、电子数据实质真实性(亦称为内容真实性)。将人工智能应用于电子数据取证时,有利于从数据真实性和内容真实性层面保障其真实性。人工智能取证意味着电子数据取证的“代码化”“程序化”,能够减少传统取证活动中的主观偏见性和裁量肆意性,降低人们在取证过程中根据自身利益需求来裁剪、篡改电子数据的可能性。但人工智能幻觉这一技术性缺陷,也为人工智能取证中电子数据的真实性带来了消极影响。人工智能幻觉是指人工智能能够生成看起来是合理的或与真实的推论一致的错误内容,如错误的参考来源、内容和陈述等,并将其与正确的信息交织在一起,并以一种有说服力和可信度的方式呈现。在电子数据取证中,人工智能幻觉会使人工智能取证系统出现误判风险,一方面遗漏某些对定罪量刑具有重要意义的电子数据,另一方面则会造成收集电子数据的失真,难以保障电子数据的真实性与有效性。人工智能幻觉主要源于人工智能取证系统的以下缺陷。
(一)“长尾效应”使人工智能对低概率数据的处理结论失真
人工智能幻觉的产生与人工智能的“长尾效应”有关。人工智能的“长尾效应”是指,人工智能在训练过程中难以对样本数量较少的低概率数据予以充分学习,进而导致人工智能模型对此类低概率数据的处理失真,出现“人工智能幻觉”。比如2016年3月,天气预报称美国东北部将出现大规模暴风雪,为了保障道路安全,在高速公路上铺设了盐线,推特上有报道称特斯拉汽车在自动驾驶模式下将车道标记与铺设的盐线予以混淆,由此导致自动驾驶功能混乱。在人工智能应用于电子数据领域,也可能会因“长尾效应”而产生电子数据失真和案件事实认定错误的问题。在司法人工智能中,用于训练和学习的数据主要包括裁判文书、卷宗材料等。司法实践中的绝大多数刑事案件都是有罪判决,卷宗中也基本是有罪证据。在司法人工智能的学习和训练中,有罪判决及其相关证据是高概率数据,无罪判决及其相关证据则是低概率数据,以此为基础训练出的司法人工智能,则可能更擅长有罪电子数据的收集,而不擅长于无罪电子数据的处理。司法裁判和案件处理,通常遵循“三段论”的逻辑推理过程。作为大前提的法律规则相对固定,而作为小前提的案件事实则具有较高的不确定性。在电子数据收集阶段,若遇到既有案例中尚不存在的特殊情形,司法人工智能就可能会因“长尾效应”而出现混乱或者错误。
应对司法人工智能的“长尾效应”,可以通过信息技术方法来降低甚至消除,比如在技术上建立非典型案例数据库,通过人工化、结构化数据来加强对非典型案例的识别程度和能力。此外,也可以通过在电子数据人工智能取证中建立“人机协同”机制,即现有人工智能从海量数据中识别和收集涉案数据,然后由侦查人员对其进行研判和识别,从而提高电子数据取证的精准性。在人工智能取证的实践中,人工智能可以帮助人类快速完成99%的工作,然后再由警察处理最后的1%的线索确认和数据取证工作,既提高了对海量数据取证的工作效率,也提升了数据取证的准确率。这就是通过“人机协同”机制来降低人工智能取证中可能产生的错误,有利于提升电子数据的真实性和可靠性。
(二)低质量训练数据加剧了人工智能取证系统的误判风险
人工智能在逻辑方法上遵循“先归纳,后演绎”的推理过程。前述是在归纳阶段因数据质量不高而影响人工智能取证大模型的可靠性,低质量数据(如标注错误、不清晰、不完整的数据)无法让人工智能学习到海量数据中正确的规律和特征。人工智能对具体数据的处理本质上是演绎的过程,即将其在海量数据学习中总结的规律应用于具体数据。电子数据的种类众多、数量庞杂,若用于训练人工智能取证模型的数据无法体现网络空间中数据的开放性和多样性,由此形成的人工智能取证大模型可能会出现误判或者漏判,产生人工智能幻觉,影响收集电子数据的真实性和可靠性。但是,囿于其在归纳学习阶段接触到的大量低质量数据,无法保障人工智能所收集电子数据的真实性。一方面,数据定期删除制度阻碍大量真实、有效数据进入取证模型训练过程,损害了取证模型的全面性与准确性。这一制度固然能确保“知情—同意”框架下的个人信息权的实现,避免平台过度收集、存储用户不愿主动提供的个人信息,但也会导致大量真实、有效的信息无法进入人工智能取证的范围,进而降低人工智能生成结论的全面性、准确性。另一方面,数据匿名化处理使数据失去可识别性,造成无意义数据被大量用于取证模型的学习与训练。通过数据匿名化处理,可以使接收匿名化处理数据的第三方无法实现数据的身份再识别。因此,经匿名化处理的电子数据,由于编辑过程的作用导致其失去了与原始数据之间的同一性,使其丧失作为有效数据基础的可识别性。基于此类数据进行的人工智能取证,也因为不能确保电子数据来源的真实性、同一性而不具备真实性。
为保障人工智能收集电子数据的真实性,应当使用高质量数据对人工智能取证模型予以训练。通过建立可控匿名化机制,保障用于训练的数据源的全面性与完整性。绝对匿名化后的数据会不可逆地破坏数据的可识别性,难以发挥人工智能取证模型对海量数据进行自主学习并归纳其中规律的初衷。而可控匿名化技术则是指将相对匿名化数据限制在受控环境中,切断其与外部信息的关联,达到数据匿名化效果。基于可控匿名化机制的要求,对人工智能取证模型的训练可以基于差分隐私、联邦学习等方式,在不需要原始数据集的情况下完成人工智能取证模型的训练和预测。可控匿名化机制能够通过对数据的控制与脱敏,使数据与信息主体“脱钩”,在无需对数据删除的情况下落实数据被遗忘权。此种方式可以在当前的数据合规法律框架下,最大程度保留数据的真实性和有效性,防止因数据定期删除和数据匿名化处理制度造成的数据失真问题。
六、结语
在信息技术不断迭代发展的网络时代,为及时打击网络犯罪,刑事侦查机关对电子数据取证质效的需求不断提升。传统取证活动以物理空间中的实物证据为主要收集对象,无法解决电子数据虚拟性、海量性、高效性特点所引发的诸多实践难题。在此背景下,司法实践开始探索人工智能技术在电子数据取证中的应用,人工智能更契合虚拟空间中的侦查取证需要,保障了海量数据的高效收集,在提高取证质效的同时,降低了电子数据取证活动中侦查人员的资质门槛与人力成本。但人工智能技术的发展也冲击了传统的证据规则,其取得的证据可能不符合传统证据的关联性、合法性、真实性要求。人工智能“思维”与人类思维的差异,造成了人工智能取证中的关联性困境。人工智能的算法黑箱、算法偏见,以及其主体地位模糊等问题,引发了电子数据人工智能取证中的正当程序危机。人工智能幻觉作为人工智能技术的固有缺陷,招致了人工智能取证中电子数据的失真风险。对电子数据人工智能取证的完善,一方面应当着眼于人工智能算法技术的迭代升级,另一方面也应当加强对人工智能的法律规制与监管。未来,在探索人工智能技术司法应用的同时,应当对人工智能技术予以必要的理论反思,避免因“技术乐观主义”盲目扩大人工智能的司法应用范围,侵蚀人类在社会生活中的主体地位。