来源:法学研究
发布日期:2025年12月15日
《法学研究》为中国社会科学院主管、法学研究所主办的法律学术双月刊。本刊坚持学术性、理论性的办刊宗旨,着重于探讨中国法治建设进程中的重大理论和实践问题,致力于反映我国法学研究的最新成果和最高学术水平。本刊曾获中国社会科学院优秀期刊、全国百强社科期刊、中国政府出版奖提名奖、法学类顶级期刊等荣誉称号。
投稿、全文阅读或下载过刊,均请登录本刊网站:faxueyanjiu.ajcass.com。
内容提要: 刑事证明中嵌入的专家系统、垂类大模型和概率推理模型等人工智能系统,会对刑事证明的认知结构和权力结构产生显著影响。就认知结构而言,人工智能的信息过程不同于人类的思维过程:在模型构建阶段,前述三类系统对人类知识库进行了不同的具象化表达,并且各自增加了独特的数据处理工序;在案件分析阶段,三类系统对人类逻辑方法的模拟可谓各有短长。就权力结构而言,人工智能的应用会导致刑事证明活动发生以下变化:一是技术主义对自由心证的规训,二是管理权力对案件办理权力的收拢,三是控审“同盟”对辩方“孤岛”的疏离。针对上述变化,刑事证明制度需要作出如下因应:一是将人工智能重点应用于刑事证明的非核心场域,二是确保人工智能对办案人员的非替代性和非强制性,三是实现人工智能对诉讼主体的可解释性和可交互性,四是保障辩方对人工智能的知情权、质证权和利用权等权利。
关键词: 人工智能;刑事证明;专家系统;垂类大模型;概率推理模型
目录
一、 问题的提出
二、 人工智能嵌入后刑事证明认知结构的变化
三、 人工智能嵌入后刑事证明权力结构的变化
四、 刑事证明制度对人工智能嵌入的因应
一、问题的提出
随着人工智能在国内外刑事司法实践中的应用逐步深入,作为案件事实认定之基础的刑事证明日渐呈现出新的面貌。比如,在美国的威斯康星州诉卢米斯案中,初审法院对被告人卢米斯判处的刑罚就参考了COMPAS系统对被告人再犯可能性的评估结论。由于量刑事实也是刑事证明的对象(但不是主要对象),人工智能可谓局部嵌入了这一标志性案件的刑事证明。又如,上海市高级人民法院2017年以来牵头研发的“上海刑事案件智能辅助办案系统”(206系统)是我国比较有代表性的司法人工智能系统,该系统具备包括证据标准、证据规则指引、单一证据校验、证据链和全案证据审查判断等在内的26项功能。“206系统”将常涉罪名案件的证据规则录入后分解为若干要素,并在个案中通过对单一证据或全案证据链的校验,为办案人员的证据审查提供指引。通过这种方式,“206系统”直接介入了犯罪事实的证明。
对人工智能在刑事证明中的应用问题,法学界已经作了一些探讨,但这些研究囿于作者的专业背景,大多忽略了人工智能技术的多样性,特别是未涉足最新的大语言模型。迄今为止,已经或者能够嵌入刑事证明活动的人工智能系统,大致可以归为专家系统、垂类大模型和概率推理模型三种类型,以下分别作简要介绍。
一是专家系统。作为人工智能的早期分支,专家系统是一种汇集了某领域专家知识和经验的计算机软件系统。刑事证明领域的专家系统,通过构建以刑事证据标准为主体的知识库,模拟人类法律专家的逻辑推理能力,以解决刑事证明中的证据审查问题。该系统由法律知识库和法律推理机两部分组成,其中知识库结构化地存储证据审查所需的专业知识,而推理机基于预先设定的审查要点进行证据分析。“206系统”就属于已经投入实践应用的典型的法律专家系统。
二是垂类大模型。以ChatGPT、DeepSeek为代表的大语言模型是由海量语料数据和庞大参数训练而成的深度学习模型,其通过“预训练+微调”范式实现通用任务处理。垂类大模型则是针对特定行业进行深度优化的专业大语言模型,目前国内外已经涌现出了Harvey AI、CaseText、“法信法律基座大模型”、“法衡-R1”等法律垂类大模型。在刑事证明领域,垂类大模型通过对刑事证据规则、海量案例数据等内容的深度学习,能够对特定案件的证据自动生成审查意见。
三是概率推理模型。这是一种对证据的证明力进行量化表达并计算出案件待证事实成立概率的模型。概率推理模型在性质上属于量化模型,量化模型通过数学、统计学和计算机算法对数据进行建模,以可计算的数学关系来分析和预测现实问题。一旦量化模型开始采用机器学习等技术,即成为人工智能的一种分支应用。已在实践中投入使用的量化模型包括美国用于评估再犯可能性的COMPAS系统、我国检察机关的社会危险性量化评估工具等人工智能系统。由于这些模型并非用于审查证据的证据能力或者证明力等典型的刑事证明事项,故本文不作重点讨论。就本文重点讨论的概率推理模型而言,虽然目前似乎未有相关的法律人工智能产品出现,但下文会指出,若将概率推理理论与机器学习方法结合起来,相关的法律人工智能系统就能落地问世。
笔者选取这三种人工智能系统是出于两方面的考虑:从法律上看,这里的每一种系统的知识处理方式和推理运用方式,各有自身的独特性和优缺点,并且它们或者已经在刑事司法实践中获得应用,或者已经作为法律人工智能产品面世,或者其法学理论基础较为成型易于转化为人工智能产品。从技术上看,它们采用的人工智能技术各不相同且都具有一定的代表性。迄今为止人工智能的两大主要学派是符号主义和联结主义,专家系统和垂类大模型分别是符号主义和联结主义的代表,概率推理模型则兼具符号主义和联结主义的特征。
当然,人工智能介入刑事证明的方式不止于此。比如,还可以通过有监督的机器学习来训练一批包含证据审查详细说理的案例数据,以应用于待处理案件。但是,其采用的机器学习方法已为本文介绍的概率推理模型所涵盖,故不再单独讨论。此外,以上三种类型是笔者为便于讨论抽象出来的,实践中可将其中的不同类型融合成复合型人工智能系统,比如大语言模型可以用作专家系统的自然语言接口。
这些人工智能系统一旦嵌入刑事证明,将会使刑事证明的面貌发生显著变化。前述既有研究无不对此进行了一定的探索,但均未深入至刑事证明的结构层面,而本文尝试在此层面作出推进。刑事证明是刑事审判中由控辩双方进行举证、质证并由法官进行认证的活动,而刑事证明结构是控辩审各方在通过证据建构案件事实的过程中各自与证据形成的主客体之间的认知关系,以及由控辩双方的举证责任和质证权利与审判方的事实认定职能所构成的主体之间的权力对比关系。虽然刑事证明发生在庭审当中,但上述认知关系和权力关系实际上存在于从侦查中证据收集到审判中事实认定的刑事诉讼全流程,因而本文将从广义上审视刑事证明结构。
从认知关系到权力关系的双重视角,是考察人工智能嵌入前后刑事证明结构变化的主要方式。虽然人工智能也能像诉讼主体那样就刑事证明问题得出一定的结论,但其信息过程和人类思维过程差异显著,因而人工智能的嵌入会使刑事证明的认知结构发生变化。不仅如此,司法人工智能通常由政法机关部署并由技术人员研发,这里牵涉的管理权力和技术权力都会对公安司法人员产生一定的影响,从而以不同的方式改变刑事证明的权力结构。在充分梳理人工智能对刑事证明结构的作用机理的基础上,就能为刑事证明中人工智能的应用找准更契合技术逻辑和权力逻辑的定位。基于这一认识,本文将围绕人工智能的嵌入对刑事证明认知结构和权力结构的影响以及刑事证明制度的因应,展开系统论述。
二、 人工智能嵌入后刑事证明认知结构的变化
在刑事证明方面,人类与人工智能的认知结构存在多方面差异,这些差异归结到一点,就是下文图1所示的一阶认知结构和二阶认知结构的差异。具体而言,人类针对特定案件证据所进行刑事证明思维活动,是直接依据刑事证据规则,凭借理性、良知和经验来进行的,最终通过逻辑推理等方法对刑事证明问题作出判断。而人工智能要先借助大量的证据规则和案例材料等数据搭建特定模型,当待处理的案件出现时,再根据该案证据材料得出证据审查结论,因此人工智能的认知结构分为模型构建和案件分析两大阶段。有鉴于此,本部分将分别围绕这两大阶段展开论述,对每一阶段的分析都将人工智能与人类认知进行对比。
图1 人工智能嵌入前后刑事证明认知结构的对比
(一)模型构建阶段的认知结构差异
1.人类背景知识库的构成
在我国,刑事诉讼主体在司法证明中运用的背景知识库通常可分为两大部分,其中一个组成部分是刑事证据规则体系(以下称“知识Ⅰ”)。这一规则体系首先规定了各种证据的法定形式,通过运用这类规则进行审查判断,用于证明案件事实的“材料”转化为法定种类的“证据”。其次,证据规则设定了各类证据的法定资格,特别是规定了各类证据若不符合法定要求就会被排除使用。再次,证据规则对证据的证明力作了明确限制,不仅区分了不同证据的证明力,而且确立了大量的印证规则。最后,证据规则对证明标准作了具体规定,法官的内心确信需要符合客观标准,间接证据也需要满足法定化证明体系提出的要求。我国证据规则对证据证明力和证明标准作出明确规定的“新法定证据主义”现象,导致刑事证据规则在刑事证明知识库中占据着不可或缺的地位。
刑事诉讼主体背景知识库的另一大组成部分是诉讼主体与人们共享的或其自身具有的理性(或非理性)、良知(或偏见)和经验(以下称“知识Ⅱ”)。这类知识是事实认定者基于获得准入资格的证据,在重建案件事实过程中所运用的生活经验和专业知识,对知识Ⅱ的运用可以总结为“具备证据能力的证据+生活经验等背景概括=证据性推论或者案件事实”。例如,念某案中的一个证据是念某关于被害人抢走本店顾客的供述,一审法官由此得出如下推论:被害人抢走了念某的商机,让念某产生了杀人动机。在这里,从证据到推论所用到的背景知识是如下概括(generalization):经营者会因为被他人抢走商机而怀恨在心并产生杀人意图。从应用场景看,这类知识通常不被运用于法律层面证据能力(狭义可采性、合法性、证据准入资格等)的审查,而是被运用于逻辑、经验和事实层面证明力(证据分量、相关性、真实性、客观性、可靠性、可信性等)和证明标准(整体论证强度)的判断。从制度变迁看,这类知识在刑事证明中的出现,肇始于自由心证制度对法定证据制度的取代。自此法官或陪审员得以依据其理性、良知和经验对证据的证明力作自由取舍。在我国当代的刑事证明中,证明力和证明标准的审查判断虽然受到证据规则的限制,但公安司法人员仍有运用其理性进行自由裁量的空间。从知识构成看,这类知识既包括理性主义传统中事实认定主体共享的一般生活经验,也包括特定领域专业人员掌握的超出裁判者知识范围的专门性知识。这类知识既可能是几无争议的一般性知识、经受同行检验的科学原理等理性知识,也可能是基于有限经验的偏见、技术原理并不可靠的鉴定等非理性知识。
2.三类系统的数据来源与处理
前述三种人工智能系统运用的知识库,通常是各自对知识Ⅰ与业务专家乃至公检法群体的知识Ⅱ等进行了具象化表达。不过,这三种人工智能系统因其性质的不同,在数据来源的形式上都有自身的鲜明特质,并且每一种系统与人类思维相比均增加了一道工序,即对其数据来源的处理或者训练过程。
专家系统的搭建,是通过直接对知识Ⅰ和知识Ⅱ的结构化录入来实现的。在我国刑事证明领域,专家系统知识库中的数据来源通常包括刑事证据规则和类案办理经验,其中前者与知识Ⅰ无异,后者则通常是由参与研发系统的业务专家对知识Ⅱ所作的系统性总结。专家系统的开发者选取知识表示所需的关键概念,确定刑事证明知识的数据结构形式,使用产生式规则、框架表示法等知识表示方法将这些概念转化为相对正式的表达,进而将这些知识表示为可执行的计算机语言,并对其进行反复检验和完善。以“206系统”为例,就其单一证据指引而言,其将常见证据分为形式要件和程序要件,分别设定审查细则并录入系统;就其证据链条模型而言,其将犯罪事实归纳为何人、何时、何地、何事、何因、何果,不同类型的案件可以在“六何”的基础上微调。可见,知识Ⅰ和知识Ⅱ共同交织成结构化的证据审查模型,并渗透在“206系统”的每一项审查要素中。
垂类大模型是在吸收通用语料库的知识Ⅱ的基础上,对蕴含知识Ⅰ和知识Ⅱ(特别是知识Ⅱ)的法律和案例等文本大数据进行要素化表达,并进行海量化数据投喂而训练出来的。在刑事证明领域,垂类大模型的数据来源可分为两大部分,一是训练大语言模型所需的大型通用语料库,包括大量的网页内容、对话文本和电子书籍等数据。这类数据蕴含着人们日常生活中认定事实所需要的常识,从证据法上看属于知识Ⅱ的范畴。二是在此基础上训练法律垂类大模型所需要的法律知识库。其表现形式是大量的法律语言文本,包括法律、司法解释当中的刑事证据规则,以及对证据审查判断进行要素化说理的典型案例、裁判文书等海量数据,这些法律语言文本分别属于知识Ⅰ和知识Ⅱ的范畴。垂类大模型的开发者可以在市面上训练好的通用大模型的基础上进行优化,其方式是让模型学习上述法律大数据中有关刑事证明的专业词汇、特殊语法和句子结构,甚至是刑事证明的总体架构。在预训练之后,还要对模型进行对齐微调,其方式包括对模型生成的有害回答予以标注和排除,对模型出现的“机器幻觉”进行技术处理,等等。经过上述操作,垂类大模型的法律专业能力会明显提升。譬如有研究者以通用语言模型ChatGLM-6B为基础,将6万条行政裁判文书作为训练数据,训练之后模型对相关行政法问题的回答就有了相当的专业性,特别是与通用大模型相比更贴近法律用语。
概率推理模型的搭建,要结合概率论等其他学科的知识,对蕴含知识Ⅰ和知识Ⅱ的案例库等数据进行数值化处理、结构化表达和批量化投喂。基于对典型案例中的证据进行人工标注并对这批案例进行机器学习的设想,这批案例所包含的知识除了知识Ⅰ和知识Ⅱ(主要是其中与证据证明力和证明标准有关的部分),还有概率论、逻辑学、统计学等知识:(1)需要用逻辑学知识将全案证据和待证事实表达为逻辑结构图,即最终待证事实可以分解为次级待证事实,次级待证事实则可与证据建立联系。比如,通过“证据+概括”的链式或者收敛结构作逐级推导,收敛结构中指向同一事实或者假说的证据分为协调性证据和不协调性证据,前者再分为补强证据和聚合证据,后者再分为矛盾证据和冲突证据。(2)对事件发生的概率等信息要进行量化表达。这里运用的除了人类的经验和常识(知识Ⅱ),有时还包括一些统计学甚至其他自然科学的知识,如美国的人民诉柯林斯案中控方将下巴留胡子的黑人男性的概率赋值为1/10,英国的女王诉亚当斯案中控方认为亚当斯与被害人体内精液匹配的概率为1/(2 ×10⁸) ,等等。(3)结合上述定性(网络结构)与定量(概率赋值)分析,需要运用概率论等数学知识建立一套结构化评估似然比(即证明力)的概率推理算法。该算法通过逻辑结构图中证据与事实命题之间的逻辑关系,揭示证据似然比的传递与合取机制,并计算出全案证据是否达到排除合理怀疑的证明标准。这一过程中不同的逻辑关系使用了不同的计算法则,而这些计算法则都是由贝叶斯公式衍生出来的。概率推理人工智能系统的搭建,需要将这样一批标注好的案例作为机器学习的素材。对此可以选择专门用于处理图结构数据的深度学习模型——图神经网络(GNN),该模型不仅能学习图结构的节点信息(即每个节点上的证据、命题以及似然比),而且能学习节点间的关系信息(即节点间的逻辑关系及其计算公式)。由于图结构的拓扑关系能够提供丰富信息,GNN可以对样本量较小的案例数据(如100份标注过的故意杀人案例)进行训练和调优,并以此为起点探索这种模型的“心智微结构”。对于初步训练出的模型,还要选择合适的评估指标对概率推理的准确度进行评估。
(二)案件分析阶段的认知结构差异
1.人类分析案件的基本方法
在特定案件的刑事证明中,人类调用知识Ⅰ的思维过程通常使用演绎推理的逻辑方法,调用知识Ⅱ的思维过程通常使用归纳推理和溯因推理等逻辑方法。首先,知识Ⅰ调用过程中的演绎推理,指的是诉讼主体将特定的证据规则作为大前提,将案件中的某个或某些证据作为小前提,一旦判断出大小前提相符,就针对证据的证据能力、证明力、是否达到证明标准得出特定的审查结论。例如根据2018年刑事诉讼法第56条,采用刑讯逼供等非法方法收集的犯罪嫌疑人供述应当予以排除,某案中侦查人员对犯罪嫌疑人张某采取殴打、不许睡觉等手段迫使其作出了有罪供述,该口供就不具备证据能力。其次,知识Ⅱ调用过程中的归纳推理,指的是从对个别事物的观察中得出普遍适用的一般规律,在刑事证明中表现为诉讼主体从其累积的经验、常识中凝结出特定的普遍性知识,将其与正在观察的证据建立起联系并应用于后者的审查判断。以前文念某案为例,公安司法人员根据日常生活中累积的相关事例或者案件办理中累积的相关经验,概括出了“经营者会因为被他人抢走商机而怀恨在心并产生杀人意图”这一(非理性)认知,并将其用于口供的审查过程。最后,知识Ⅱ调用过程中的溯因推理,是一种在某现象的多种解释中寻找最佳解释的逻辑推理方法,在刑事证明中表现为诉讼主体立足于案件既有证据,设想或建构与本方立场相符的解释方案,并寻找补充性证据以验证这一假设。以美国的辛普森案为例,警察收集的证据有诸多疑点,如袜子上的血迹并非自然溅洒形态,沾血的手套对辛普森来说不合手,对此辩方提出的解释为证据是警方伪造的,陪审团由此产生了合理怀疑并宣判辛普森无罪。
在上述逻辑方法之外,人类在刑事证明中调用知识Ⅱ的时候,还使用了直觉、顿悟、灵感等难以言喻的非逻辑方法。心理学和认知科学中的认知双重过程理论指出,人类不仅存在一个受理性而非情绪控制、运用逻辑思维、需要深思熟虑的分析系统,还存在一个受情绪和直觉影响、无意识且不费力地运行的直觉系统。直觉系统的使用,通常是与归纳推理或溯因推理的使用交织在一起的,在调用知识Ⅱ的理性、良知和经验对证据的证明力和案件的证明标准(通常不包含证据的证据能力)进行判断的过程中,人们其实不知不觉地启动了自身的直觉、顿悟和灵感。在刑事证明中,诉讼主体为了从证据跨越到证据性推论,往往需要一定的联想,为了提出一种更佳的解释方案,通常会有某一刻的灵光乍现。前文的案例表明,这些直觉和联想如果为逻辑方法所论证,富有理性的证明活动就会转化为法律真实,但如果未经过逻辑方法的淬炼,饱含偏见的证明活动就容易酿成冤错案件。
2.三类系统的案件分析方式
在利用人工智能系统对案件进行分析之前,必须先对案件的证据材料进行预处理。这是指人工将证据由原始形态转换为可由机器识别和处理的形态(目前通常为文字形态),这一步骤难免会产生一定的信息损耗。就专家系统而言,以“206系统”为例,办案人员需要将证据材料上传系统,上传格式必须是机器可识别的形式(例如电子版的讯问笔录),受目前的技术水平所限,如电脑对手写体或捺印的识别率不高,在一些场合仍离不开人工复核。就垂类大模型而言,其核心功能是接收和生成文本信息,当前司法实践中尚不能直接处理证据中的非文本数据,因此要将其用于待处理案件的事实认定,就要以文字形式录入证据内容。就概率推理模型而言,它是以图结构的拓扑关系表示证据,作为其节点信息的证据同样须以文字形式输入系统。但是,很多证据的原始形态蕴含了多维信息,例如只有经过庭审交叉询问,才能从证人的神态和语气判断出其陈述是否真实可靠,而文字很难全面反映这些微妙的信息。因此,从原始形态向文字形态的转换所带来的证据信息损耗,会在一定程度上影响证明结论的准确性,这成为法律人工智能当前存在的不足。
专家系统主要以演绎推理的方式对证据材料进行分析,其对常规案件的审查结论大致能达到人类业务专家的水平,但也存在内容僵化和应用受限等问题。以“206系统”为例,该系统的证据审查通常是如下的演绎推理过程:系统内证据审查模型中与待审查证据相关的知识是大前提,特定案件中某份(些)证据的具体内容是小前提,由此可以得出关于这份(些)证据的证据能力、证明力、是否达到证明标准的审查结论。由于系统的证据审查细则是业务专家在开发系统时预先录入的,所以系统以业务专家的标准执行指令,其优势是审查规则的透明性和可解释较强,审查结论不受训练数据偏差的影响,特别是在证据证明力的审查上通常比其他系统更加规范。其劣势在于人工编写规则库的成本较高,无法处理规则之外的非常规情形,特别是在证据证明力和案件证明标准的审查上,容易加剧法定证据主义的倾向。
垂类大模型一方面能够模拟人类的逻辑思维方法,但其对演绎推理的模拟难以保障准确性,对归纳推理和溯因推理的模拟却可以为人们拓展思路,另一方面对模型恰到好处的使用能够激发人们的直觉、顿悟和灵感。大语言模型借助神经网络算法的复杂拟合能力,基于大规模文本训练数据中学习到的统计规律,生成最可能的文字序列。通过概率选择的输出可能是错误复现或过度拟合的结果,因此大语言模型经常产生所谓的“机器幻觉”。正因为大语言模型具有强大的文本处理能力,实践中垂类大模型常被用于多份证据材料的要点提取和内容比对,如江苏省江阴市公安局研发的“AI智能卷宗审查系统”,通过大语言模型精准捕捉供述中的关键矛盾,自动生成可视化对比表,辅助民警快速定位证据链薄弱环节。从逻辑推理的角度看,大语言模型无法以人类的思维方式进行逻辑推理,但能够模拟和逼近人类的推理能力。大语言模型所模拟的演绎推理,是通过学习证据规则等背景知识,当输入待处理案件的证据材料时,基于概率上的相关性(而非逻辑上的推导)生成审查结论。这一方法的问题在于,神经网络算法本身存在缺陷,大语言模型的语料来源又过于庞杂,其中关于知识Ⅰ的数据完全可能内容有误和相互冲突,而法律上的演绎推理必须是严格而精确的,因此大语言模型很可能生成错误或不准确的结论。大语言模型所模拟的归纳推理,是在海量案例等大数据中学习证据审查的一般规律,并应用于单个证据的分析和证明标准的判断。大语言模型所模拟的溯因推理,是基于证据事实生成多个可能解释,并选择训练数据中最常见的因果链作为解释方案。大语言模型对这两种推理的模拟可以为诉讼主体拓展思路,例如针对“凶器上有被告人指纹”这一证据,模型可以提出“被告人使用凶器实施犯罪”“被告人接触了凶器但未参与犯罪”“证据被污染或伪造”等多种解释,并分别指出相应的审查判断风险和对策。不仅如此,大语言模型还能以其丰富的“想象力”帮助人们激发直觉系统中的直觉、灵感和顿悟。比如,控方或辩方可以将己方的证据和证据推论输入大语言模型,并提示输出对方可能提出的反对意见,以此作出有针对性的准备。不过,这些联想若未经过逻辑方法的检验,同样可能转化为错误和偏见。
概率推理模型以其特有的概率推理方法组织证据材料并推导案件事实,这使得心证过程更加透明化、逻辑化和精确化,但也面临主观赋值、数字裁判、技术瓶颈等难题。在通过GNN搭建的概率推理模型中,证据节点和推论节点之间通过归纳推理和溯因推理建立联系,但概率推理方法本身却与这些典型推理模式不同,它是一种对不确定性知识进行表示和推理的方法,其理论基础是贝叶斯定理:
该定理是在观察到新证据后对事件的概率估计进行更新的数学框架,其中 P ( H ) 是假设 H 的先验概率, P ( E )是证据的概率, P ( E/H )被称为似然比,是假设成立时证据 E 出现的可能性, P ( H/E )是观察到证据后假设的后验概率。使用概率推理模型进行刑事证明的优势是,它将全案证据可视化地展示出来,其逻辑结构图中的拓扑关系能比语言描述更直观地揭示证据之间的协调或者不协调关系。对证据证明力的数值化表示,能在一定程度上提升刑事证明的精确性,还能动态评估是否达到排除合理怀疑的证明标准(例如某案中若关键物证被污染,被告人有罪概率会从95%降至40%)。概率推理模型的缺陷是:贝叶斯推理依赖先验概率,数据标注主体赋予的先验值难免主观化;计算似然比有时需要可靠的统计数据(如DNA误检率、目击证人错误率),若数据不完整或存在偏见,计算结果则可能失真;数字化的概率结果可能产生绝对客观的假象,掩盖其背后的主观假设,架空裁判者的自由心证;机器学习方法具有内在局限性,若采用对人工标注的小样本的有监督学习,则模型对刑事证明所需要的知识Ⅱ只能掌握冰山一角,若改为对大数据的机器学习,则模型对概率数值的准确表达将是很大的技术挑战,上述局限性会影响模型对待处理案件进行概率推理的效果。
三、 人工智能嵌入后刑事证明权力结构的变化
人工智能在刑事证明中的嵌入,导致控辩审组成的三方权力结构发生了变化。如下文图2左侧所示,刑事证明是一种在控辩审三方合力之下进行的事实认定活动。由于我国刑事诉讼中流水作业模式和案卷笔录中心主义的存在,审判方认定的案件事实通常更接近控方提出的事实版本。当人工智能嵌入之后,刑事证明的权力结构形成了图2右侧所示的新面貌。概括而言,随着人工智能系统的应用,作为开发者的技术人员和作为部署者的管理人员分别对办案人员施加了不同性质和程度的影响,进而使辩方与公权力机关的关系也发生了一定的变化。基于上述认识,本部分对刑事证明权力结构变化的考察,分别从技术权力的渗透、管理权力的强化和辩方话语权的削弱三个方面展开。
图2 人工智能嵌入前后刑事证明权力结构的对比
(一)技术主义对自由心证的规训
技术人员作为人工智能系统的直接构建者,在数据处理、模型训练等工作中发挥着法律专业人员无可替代的作用。目前可应用于刑事证明的人工智能系统包括专用人工智能系统(如“206系统”)和通用人工智能系统(如DeepSeek);在前者的研发中,技术人员将公安司法部门等部署者的愿景落地为可操作的人工智能系统,而在后者的研发中,技术人员则不受法律专业人员的指导而处于支配性地位。从算法的设计来看,技术人员要通过深度学习等技术,将刑事证明的要素转换为精细化的审查框架乃至可计算的数学模型;从数据的处理来看,刑事证明涉及大量异构数据,可能需要技术人员构建多模态数据处理框架。以“206系统”的研发为例,技术人员通过要素抽取技术,解决了机器的自动标注难题,实现了从海量数据中对关键信息的准确提取。
技术人员凭借技术权力规训刑事证明活动的基本逻辑,是意图打开控辩审等刑事诉讼主体的自由心证黑箱,并以具有确定性和统一性的算法模型对心证预先予以规范化。在技术人员或技术主义者的观念中,事实认定者依据理性、良知和经验评价证据和认定事实的过程中,“不可避免地涉及直觉、经验和个体认知等主观判断”,并且“自由心证背后的算法无法予以直观化体现”,也“不像人工算法一样可以保持着自身始终如一”。自由心证之所以具有存在的价值,只是因为它是比法定证据主义相对更优的制度,刑事证明领域还没有设计出更好的规则和制度来取代自由心证,但随着人工智能技术的发展,具有确定性和统一性的算法将有望被设计出来并引入司法证明。这一技术本位主义的理念在专家系统和概率推理模型中体现得较为明显。其中,专家系统采取的是基于证据标准的符号主义进路,它将证据标准拆解为更明确具体的审查要素,如将“排除合理怀疑”的要求转化为证据类型、内容与数量的清单,通过这样的预设规则来限制自由裁量权。概率推理模型则同时采取了基于逻辑结构的符号主义和基于概率统计的联结主义的进路,它将证据的证明力和案件的证明标准量化表达为概率数值,通过“锚定效应”来影响诉讼主体的心证过程。就垂类大模型而言,它虽然没有为用户设置显性的证据审查规范,但其模型构建阶段的训练数据和参数设置会使其学习到特定的词汇组合形式、证据审查方法、罪犯身份信息等内容,进而可能使其形成诸如以印证为主导的证明方法、对特定人群的有罪认定倾向等特征,因而隐性的证据审查模式仍然制约着诉讼主体的心证过程。算法模型的确定性和统一性看起来消弭了刑事证明中自由心证的主观差异,但其实则欲将证据规则的解释权和证据推论的裁量权让渡给掌握核心技术的系统开发者,并使刑事证明从法律共同体的内部博弈演变为系统预设规则之下的标准化操作流程。
刑事诉讼主体出于对模型准确性的信赖或者对模型便利性的依赖,容易任由技术权力渗透甚至取代自身理性在刑事证明中的运用。但是,技术权力并非全然可靠和可控,其不可靠性和不可控性来自以下两个方面:一是人工智能的技术原理远非完善。如前所述,刑事证明领域的每一种人工智能系统都只能在其擅长之处发挥作用,并且分别存在内容僵化、机器幻觉、任意赋值等缺陷。二是技术主义者以机器的技术理性驯化人类自由心证的野心值得警惕和批判。因为人类在刑事证明中使用的直觉系统是专家系统等人工智能所无法取代的,即便大语言模型能以其输出的内容激发人们的直觉、顿悟和灵感,但这些内容如果不经过人们的理性反思,也只能是遍布错谬信息从而没有法律价值的文字集合。
如果说在科技尚不发达、理性认知有限的古代社会,神明裁判是人类对神明非理性崇拜的产物,那么在人工智能的数据处理能力日趋深不可测的当代社会,人们对人工智能的叹服同样可能孕育出对这一新“神”的非理性崇拜。人们将其视为改造生产生活方式的神秘力量,甚至是解决包括刑事证明在内复杂问题的万能钥匙,殊不知技术权力却可能是连技术人员也无法完全驾驭的人造利维坦。例如,在美国的马塔诉阿维安卡公司案中,原告律师提交了一份由ChatGPT生成的法律文书,其中就引用了“瓦尔盖斯诉中国南方航空公司案”(Varghese v. China Southern Airlines Co., Ltd.)等多个虚构案例,该行为受到了纽约南区法院的处罚。这一活生生的教训足以成为刑事证明领域人工智能产品的前车之鉴,人们只有摒除对人工智能的盲目崇拜和过度依赖,才能防止法律共同体的理性湮没在算法拜物教的阴影之下。
(二)管理权力对案件办理权力的收拢
长期以来,在我国科层式的刑事司法制度中,上级管理人员通过证据规则的制定和案卷证据的移送等方式,对案件办理人员的刑事证明活动形成了一定的控制。我国司法机关的权力组织形式属于所谓科层理想型司法,这是一种与协作理想型司法截然不同的模式。它呈现出金字塔式的层级结构,下级须服从上级的指令和监督,所有行动需通过书面记录和档案予以保存,上级官员通过层级化的信息流动形成控制,并有权干预、修改或撤销下级的决定。这种科层制的存在,使我国最高司法机关和上级管理人员对案件办理人员的刑事证明活动得以施加一定的控制:其一,我国最高司法机关为了规制法官的自由裁量权和防范冤假错案,制定了详尽的证据规则,对证据证明力的审查进行严格规范。各地司法机关也制定了功能相似的刑事证据规则,如广东省高级人民法院等机关2020年发布的《广东省刑事案件基本证据指引(试行)》。当然,这种对办案活动的控制机制,也造成了证明力与证据能力的混淆、证据采纳和事实认定的形式化等弊端。其二,我国的刑事案卷制度也成为上级控制案件办理的一种方式,即与其他国家特别是英美法系国家相比,我国证据信息的书面化特征更明显,公安司法人员对案卷证据材料的依赖较为严重。如重大案件中的审判委员会讨论乃至向上级请示汇报,都是通过对刑事案卷中书面证据的审查来实现的。但是,上级官员接收的信息是“经过其下属们包装或剪裁过的事实”,证据信息在层级化的传递中会有所失真,而这不利于实现证据审查的亲历性和事实认定的准确性。
公安司法机关的管理人员通过部署人工智能系统,能借助技术手段进一步实现对案件办理人员刑事证明活动的全景敞视和微观约束。所谓“全景敞视”,是指随着我国公安司法机关数字化建设的迅速发展,办案人员的刑事证明活动逐渐处于管理者的全面注视之下。我国公安司法机关通过机器学习等技术,对诉讼过程中的案件信息、适用规则、裁判结论等各类数据均进行了数字化采集和存储。例如,上海市高级人民法院通过对往年483万份裁判文书的机器学习,平均能从每份裁判文书中解析出400多个数据点。办案人员的证据审查过程和案件裁判结论,都成为数字化司法运行体系中的万千节点,并接受人工智能系统及其背后管理人员的全面监督。所谓“微观约束”,是指公安司法机关的管理人员通过部署专家系统和概率推理模型等人工智能系统,可以设置精细化和数量化的证据审查标准,从而对办案人员的刑事证明活动进行微观化的指引和监控。专家系统针对证据能力、证明力、证据链完整性等内容输出的审查意见,概率推理模型针对全案证据逻辑结构图、被告人有罪概率等内容生成的报告,都对办案人员的证据审查形成了一定的约束。例如,在贵州省公检法互联互通的大数据平台上,盗窃犯罪证据标准中有13大类的证据要求,侦查人员必须按照系统的指引录入证据,案件才能向下一个环节推进,而存在证据缺失的案件,将被智能审查系统卡在侦查环节,无法向检察院移送。
管理权力借助技术权力打造的人工智能系统,将刑事证明权力从案件办理人员手中收拢至上级管理人员手中,进一步强化了我国刑事司法实践中的法定证据主义倾向。在刑事证明活动中,公安司法机关借助技术人员的技术知识研发出人工智能系统,并生产出具有科学化、客观化和标准化外观的证据审查结论,从而压缩办案人员的自由裁量权,并将这一权力向管理人员那里转移。诚然,在人工智能系统的加持下,管理人员储备的证据规则、典型案例、办理经验等数据看起来分外庞大周密,但其对证据原始形态和案件事实细节所掌握的情况却颇为贫乏。譬如,只有亲自讯问犯罪嫌疑人的办案人员,才能从其现场陈述的神态、语气(特别是关键之处和矛盾之处)判断其口供是否真实可靠,管理人员则很难获得这些证据细节。这一现象的深层原因在于,大数据和人工智能等技术只是改变了数据存储形态和证据分析媒介,却无法改变科层制中通过案卷管理形成的自下而上的信息传递机制,也无法改变科层制中“上层官员理解普遍性,下层官员理解具体性”的客观规律。这一现象的负面效应,就是其通过数据驱动和算法模型固化了我国刑事司法实践中长期存在的法定证据主义倾向。具言之,在我国原有的限制证明力大小和确立客观化证明标准的证据制度的基础上,人工智能系统进一步设置了更精细化的审查判断规则乃至数量化的概率计算法则,办案人员的心证空间被算法预设的规则所压缩,证据的审查与采信日益依赖人工智能系统输出的标准化结论。总之,随着主体的判断逐渐让位于机器的运算,隐于算法背后的管理权力获得了更强的控制力,其以规范办案的名义遮蔽了事实认定中的复杂考量。
(三)控审“同盟”对辩方“孤岛”的疏离
在我国刑事证明的三方权力结构中,辩方实际上无法拥有与控方对等的资源和权力,特别是辩方被排除在刑事卷证这一信息枢纽的制作过程之外,法院通常会采信控方提供的证据及其建构的事实。形式上,控辩双方均享有举证、质证、辩论等基本诉讼权利,作为中立裁判者的审判方要平等听取控辩双方的意见。但实际上,作为国家公诉机关,控方行使的公诉权拥有国家资源的支持,因而其在刑事证明中的话语权是辩方所不能比拟的。检察机关掌握完整的案卷材料,可调动公安机关补充新证据,其对审判活动的监督权也可能影响审判方的中立性。而辩方在阅卷、取证、质证等方面均受限制,比如,虽然法律规定辩护律师有权在审查起诉阶段申请检察机关调查取证,但实际上检察机关很少会批准,又如实践中证人、鉴定人出庭率很低,辩方的质证时间也很不充分,发言经常被打断,等等。在刑事诉讼的流水作业模式中,案卷中的书面化证据是信息传递的枢纽,对审判中证据的采信和事实的认定具有制约性甚至是决定性的作用。而公安司法机关在其主导的诉讼阶段是案卷的唯一制作主体,辩方无法对案卷中有关证据的内容产生影响。辩护律师能够阅取的案卷材料只限于侦查机关移送给公诉机关的材料,而这部分材料也常是经过侦控机关人为筛选后用于证明被追诉人有罪、罪重的证据材料。上述现象导致的后果就是,法官采纳的证据和认定的事实大都是由控方塑造的,刑事证明三方结构中的审判方悄然漂移至一个与控方更近而与辩方更远的位置。
公安司法机关对人工智能系统的开发和部署,使刑事证明三方结构中控方和审判方的能力大幅提升,并使审判方的事实认定立场朝着控方的位置再次漂移。人工智能技术对控方能力的提升,体现在公诉机关借助智能化证据审查和分析、全案证据链校验和检察文书自动生成模块等技术,显著增强了证据审查判断能力和事实建构能力。人工智能技术对审判方能力的提升,体现在审判机关依托证据瑕疵识别算法、贝叶斯概率推理模型和裁判文书自动生成模块等技术,在事实认定层面呈现出精准化审查和精密化裁判的特征。这种技术资源的集中分布,导致原本就偏向控方的审判方在事实认定立场上再度向控方建构的事实版本偏移:其一,人工智能系统具有共享性,即某地区的人工智能系统往往是在政法委的牵头下由公检法机关协同开发和部署,审判机关与公诉机关使用的是同一套人工智能系统,因此审判机关与公诉机关通过人工智能系统得出的结论通常是同质化的。其二,决策路径具有依赖性,即由于控方借助人工智能系统审查和分析证据的结论具有外观上的科学性,法官对其参与研发的系统具有天然的信赖,且又经常面临案多人少的办案压力,因而更倾向于采信经过智能化分析的控方证据体系。以“206系统”为例,上海市公安、检察院、法院和司法局等部门抽调400余名刑事业务骨干,共同研发了这一“贯穿公检法司各办案机关的智能辅助办案系统”,该系统创建的102类常见的刑事案件证据标准指引,打通了公检法司的办案平台,实现了案件信息的跨部门共享。可见,实践中的人工智能系统常常是这种在政法部门之间互联互通的一体化平台。
而另一方面,刑事证明的智能化转型及刑事案卷的数字化转型,却令控方与审判方的信息流通渠道愈发对外封闭,辩方本应享有的知情权和质证权变得岌岌可危。智慧司法的运行逻辑若仅立足于控审之间的“联袂”,而无法兼容辩方的正当程序权利,将导致被告人在关乎其命运的刑事证明活动中沦为局外人。如前所述,目前人工智能系统通常只能处理电子版文字,因此智能化的刑事证明必然是与电子版的刑事卷宗相伴相生的,譬如“法信法律基座大模型”就是在案件卷宗电子化的基础上,辅助法官从大篇幅的电子卷宗中快速进行信息分析比对。而我国刑事卷宗的数字化转型恰恰是政法机关一体化改革的产物,即电子卷宗就是为了解决传统卷宗移送实践中的低效重复和信息壁垒等问题而建立的制度,这一制度的设立初衷引发了辩方电子阅卷权难以保障的问题。在刑事卷宗经过了电子化转型之后,辩方无法参与案卷证据制作过程以与控方共同建构案件事实的问题只会愈演愈烈。换言之,对于经过控审方智能化分析的证据卷,辩方既无法参与其形成过程,也很难确保能对其进行查阅。同时,在智能化的刑事证明场景中,一旦审判方依赖控方提供的刑事证明结论,系统内置的证据审查和分析规则就往往直接沿用侦查或审查起诉阶段的参数设定。缺乏系统使用权与算法解释权的辩护方,既无法获取控方模型的训练数据集以核查其可靠性,也很难通过质证手段针对算法偏见和模型幻觉提出质疑。可以说,访问资质限制和算法黑箱效应导致辩方陷入了技术性失语的困境。综上所述,技术鸿沟的持续扩大,将控辩审三方的非对称三角结构进一步塑造为“控审同盟—辩方孤岛”的新型失衡结构。
四、 刑事证明制度对人工智能嵌入的因应
鉴于前述人工智能的应用对刑事证明结构产生的影响,对人工智能系统应确立一种符合认知规律和防范权力滥用的制度定位,这样才能既最大限度发挥人工智能技术对刑事证明的赋能效应,又不至于对人类理性和事实认定造成不利影响。根据前文的分析,可以提出如下制度因应之道。
(一)将人工智能重点应用于刑事证明的非核心场域
目前,人工智能在刑事证明中的作用其实是有限度的。从刑事证据法的基本原理看,刑事证明的核心场域是庭审阶段,证据只有经过当庭出示、辨认、质证等程序查证属实,才能成为认定案件事实的根据。然而,当前的司法人工智能并不能在庭审中以直接言词的方式介入刑事证明,对于被告人异常的神态举止、证人在陈述中不情愿的停顿等丰富细节信息,还难以进行充分捕捉并作出证据法意义上的判断。不过,我国始终没有形成一种通过庭审形成裁判结论的制度文化,刑事司法中的事实认定其实是以案卷中的书面证据为主要依据。这一非正常现象反而给技术上还不够先进的司法人工智能提供了应用空间,因为它能对证言笔录等文本形态的证据和物证的文字描述等由证据转换成的文本材料发挥审查作用。不过,即便是书面审查,针对案卷中的物证、视听资料等证据,人工智能目前也不能自动识别刑事证明所需要的有用信息。因此,司法人工智能目前仅能在刑事证明的非核心场域针对文字形态的证据作出书面审查。
一方面,在以审前程序为主的不必贯彻直接言词原则的证据收集和审查等环节,应合理推广人工智能的运用,以实现案件办理的规范化和高效化。就人工智能的应用情境而言,在需要书面化审查或大数据分析的案件或案件环节中,人工智能在证据审查判断中的适当应用是值得提倡的。在各类案件的立案、侦查和审查起诉阶段,通常以书面方式对证据进行整理和审查。在简易程序和速裁程序中,法官对事实的认定实际上也更多地依赖案卷材料而非言词。在这些需要书面审查的场景下,办案机关可以使用人工智能辅助其工作。比如,根据前文,大语言模型可以针对同一案件中多份证据能否相互印证进行比对。当案件证据呈现出数量化、海量化等特征时,(广义上的)人工智能可以凭借其数据处理优势为办案人员提供很大的助力。比如,针对贪污金额、血液酒精浓度、行为人的社会危险性等证明对象,量化模型可以对相关数据进行计算和分析。又如,针对非法吸收公众存款、电信诈骗等涉及大量电子数据的案件,相关工具可以梳理出资金的来源和去向、当事人的经济关系等内容。
就人工智能的应用价值而言,其目标应当侧重于追求证据审查的规范性和经济性。规范性指的是,人工智能可以根据办案机关预设的证据标准,判断办案人员的证据收集等活动是否符合相关要求。换言之,人工智能要着重审查证据是否具有证据能力,以及证明各项要件事实所需要的证据是否形成完整的推论链条。经济性指的是,人工智能的运用应当有利于提升办案人员收集和审查证据等工作的效率。由于人工智能在大批量数据分析和文本处理等方面具有优势,它在相关证据审查事项上的应用有利于减轻办案人员的工作负担,从而实现刑事司法所追求的效率价值。
另一方面,如果我国的刑事证明制度要向庭审实质化的方向发展,那么该场域的人工智能技术也应当向非文字形态证据的自动化处理这一方向迈进。从技术层面讲,刑事证明中的人工智能技术至少要实现以下两大突破:一是对非文本形态实物证据的处理。对于视听资料,目前多模态大模型已经能够识别、处理和生成文本、图像、音频、视频等多种信息,不过它同样只有经过专门训练才能对多模态的刑事证据作出法律意义上的判断。对于物证,3D影像技术可以用于物证的数字化存储,如浙江省嘉兴市中级人民法院创建的“云上物证室”,将物证360度扫描后,以3D技术进行存储和展示。在此基础上,可以将人工智能技术进一步用于对物证的证据法分析。二是对言词证据中非内容信息的处理。对于被告人供述、证人陈述等言词证据中蕴含的内心情绪、肢体语言、生理参数等信息,目前人工智能技术已经能够进行识别,不过要将这类技术用于刑事证明,还要结合陈述者的诚实性、客观性、观察灵敏度等言词证据可信性标准,将这些心理和生理信息转化为证据法上的评价指标。从制度层面讲,人工智能技术要真正做到向善而行,就要成为推动刑事证明制度向庭审实质化方向转变的牵引力。我国刑事证明制度的基本转型方向是对直接言词原则的落实,包括革除证言笔录的不当干扰,建立完备的物证出示程序,完善证人、鉴定人出庭作证制度,保障被告人的对质权,等等。而这里的高阶司法人工智能可用于当庭出示的物证、视听资料等证据的研判,或者用于被告人、证人等人员当庭陈述的研判。如果人工智能对这些证据能够生成庭审分析报告,就能倒逼法官以庭审中的举证、质证(而非案卷笔录)为根据作出裁判。
(二)人工智能对办案人员的非替代性和非强制性
如前所述,人工智能系统存在种种技术缺陷,并且技术权力和管理权力对办案人员的控制都存在一定风险。从规范上看,2022年《最高人民法院关于规范和加强人工智能司法应用的意见》(以下称“人工智能司法应用意见”)第5条强调了辅助审判原则:“无论技术发展到何种水平,人工智能都不得代替法官裁判,人工智能辅助结果仅可作为审判工作或审判监督管理的参考”。基于上述原因,刑事证明中的人工智能不宜替代诉讼主体的理性思考,也不宜对诉讼主体发布效力性指令。需要说明的是,前文提出的人工智能的规范性价值与这里的非替代性、非强制性并不冲突,因为人工智能主要应当规范的是证据能力和证据数量等基础性事项,而证明力强弱、事实融贯性和整体论证强度等实质性事项通常依靠的还是办案人员的心证(尽管有的人工智能系统亦可就此生成审查意见)。并且下文将论述,人工智能的规范方式并非发布刚性的指令,而是给出柔性的提示和建议。
人工智能对办案人员的非替代性和非强制性,具体来说包括知识补充、工作指引和结果校验三项内容。首先,知识补充是指,在办案人员知识储备不足时,人工智能可以为其提供证据审查判断所需要的知识。人工智能可以提示的知识不仅包括法律规定、典型案例等法律知识,还包括伤情鉴定所需要的法医学知识、电子数据分析所需要的计算机知识等其他学科的知识。比如,若办案人员针对特定案件中证据审查所涉及的专业问题向垂类大模型提问,大语言模型就能自动生成其所需要的相关法律或非法律知识。其次,工作指引是指,对办案人员的证据收集和审查活动,人工智能可以进行一定的引导,以提升案件办理的规范性。人工智能的指引,既可以是法律层面的,也可以是逻辑层面的。比如,针对某类疑难案件的证据收集,专家系统为侦查人员提供详细的证据标准指引,从而使取证内容更有针对性、取证流程更具规范性。又如,针对某一案件中繁多的证据材料,概率推理模型可以生成逻辑结构图,为办案人员判别证据之间的关系提供更形象、更便捷的思维框架。最后,结果校验是指,当办案人员的证据审查意见与机器的判断出现偏差时,人工智能对其予以指出并提出调整建议。这里的机器判断,既可以是系统在部署时预设的统一标准,也可以是系统在个案中得出的具体结论。比如,专家系统可以基于证据标准指出侦查人员制作的笔录在合法性上存在缺陷,大语言模型可以根据检察官忽略的无罪或罪轻证据提出一个不同的案件事实版本。
人工智能的非替代性和非强制性要得到落实,就要在认知结构和权力结构层面分别采取应对措施。在认知结构上,办案人员为防止人工智能影响和取代其理性的运用,可以分情况采取以下措施:针对证据能力等基础性事项,办案人员通常可以先借助人工智能作出初步审查,再根据自己的专业知识和办案经验进行核查把关。针对要件事实融贯性等实质性事项,办案人员若要防止人工智能预先影响其心证过程,可以先自行对证据进行审查判断,再使用人工智能生成审查意见,并将二者的观点进行比较——如果一致,就验证了办案人员判断的正确性;如果不一致,则由办案人员判断何者不当,并选择其认为的更合理的结论。在权力结构上,要防范技术权力和管理权力的不当干预。人工智能系统的开发不能由技术人员主导,而应确保法律工作者(特别是基层办案人员)全程参与,并以其证据法知识塑造系统的内核。开发者设计的系统界面应当是指引性和建议性的,而不应出现可能难以满足的强制性要求,譬如不得对办案人员提出,只有提交关于作案工具的证据,办案系统才能往后推进。在办案过程中,人工智能系统会对办案人员的证据收集和审查工作进行数字化记录,管理人员可将这些记录用于分析证据审查难点和总结证据审查经验,但不宜根据系统预警向办案人员提出案件办理要求,也不应将其转化为相关业绩考核指标,否则会直接或间接干扰办案人员的心证过程。
(三)人工智能对诉讼主体的可解释性和可交互性
如前所述,刑事证明中的人工智能应用是复杂多样的,对法律人来说其运行原理通常较为陌生,其技术缺陷和法律风险也容易被忽视。从规范上看,“人工智能司法应用意见”第6条强调了透明可信原则:“司法人工智能产品和服务投入应用时,应当以便于理解的方式说明和标识相应的功能、性能与局限,确保应用过程和结果可预期、可追溯、可信赖”。如果参考2024年欧盟《人工智能法案》(Artificial Intelligence Act),公权力机关在刑事证明中使用的人工智能可能给公民人身权利带来重大影响的,就属于该法案规定的“高风险人工智能”。根据该法案第13条,这类人工智能系统必须设计得足够透明,以便部署者能够解释系统输出和正确使用系统。因此,人工智能必须以用户可理解的方式显示其证明过程,并能根据用户的反馈更新输出的结论。
人工智能应具备可解释性,即研发者应当向使用者完整、清晰地解释系统运行原理和案件分析过程。理论上,算法解释的两种路径是以模型为中心的解释和以用户为中心的解释,这两种路径恰好对应前述模型构建和案件分析两大阶段。就系统运行原理而言,系统研发者要向使用者解释每种人工智能系统的算法原理、应用场景、内在局限等内容。比如,无论是哪种系统,研发者都要向用户公布其使用的知识库或训练数据,以便用户知悉系统在证据审查判断上的知识来源。又如,不仅垂类大模型具有前述黑箱效应,概率推理模型也是如此,它使用的图神经网络虽然能将决策归因到具体的节点和边(即节点之间的关系信息)等图元素上,但其内部的数值计算过程仍是复杂且不直观的,开发者需要将这样的缺陷向用户作重点说明。就案件分析过程而言,系统应当能够按照用户的理解需求,对证据审查判断的方法和依据作出解释。特别是在存在算法黑箱的系统中,如果针对输出的结果作出解释,就能使办案人员乃至辩方增加对系统的信赖。比如,在垂类大模型中,为减少“机器幻觉”,系统可借助RAG(检索增强生成)技术,基于检索到的外部法律法规等信息生成更真实准确的回答,并提供相应节点的外部知识来源,以供用户核验其可靠性。又如,计算机科学中出现了能为带有文本属性的图神经网络生成自然语言解释的方法,如果将这种方法用于概率推理模型,就可以为图结构中证据之间的逻辑关系和证明力的计算过程生成通俗易懂的文字解释。
人工智能还应具备可交互性,即系统不宜设置过于僵化的证据审查判断规则,而应当建立可交互的用户界面,允许用户对系统的初步结论提出不同意见,并根据用户反馈对输出的结论作动态调整,以实现证据审查过程和结果的开放性。就专家系统而言,针对用户录入的证据,系统审查后如果指出其不符合预设的证据标准,那么应当为用户提供两种选项:一是允许其对收集的证据作出补正后重新录入证据,二是允许其对系统预设的证据标准作出更符合实际的调整。就垂类大模型而言,它的用户问答界面使其在交互性上具有天然优势,不过还可以通过以下两种方式增强交互性:一是通过模型的参数配置或者用户的指令,大语言模型生成尽可能完整的证据分析过程和推理步骤。用户可以针对其中的某一个环节提出疑问或异议,模型则据此重新评估输出结果的可靠性。二是应用计算机科学界提出的生成式主动任务引导框架,让大语言模型通过主动向用户提问来推断用户的确切需求,并由此生成更有针对性的证据审查意见。就概率推理模型而言,它对全案证据生成初步结论之后,针对其中图结构的框架和概率的数值,应当允许用户根据预先形成的心证或者对初步结论的审查作出调整,而模型则在此基础上对概率推理的结论进行更新。
(四)辩方知情权、质证权和利用权等权利的保障
如前所述,在刑事证明的智能化转型中,辩方对数字设施的获取能力和对事实认定的塑造能力均有所削弱。在证据法理论上,有学者从作为道德主体的事实认定者的内在视角指出,证据规则不仅是为了在事实争端中发现真相,“还体现了内在于评议之合理性和正义的价值”。也就是说,司法事实认定中除了功利主义的主张,还有一类政治和道德性质的主张,即当事人应当被授予一种“反对被强加司法事实认定错误风险的权利”。从规范上看,“人工智能司法应用意见”第18条强调,应“高度重视人工智能应用对司法为民、公正司法的重要意义”。因此,辩方对人工智能应用的知情权、质证权和利用权等正当权利应当得到保障。
一方面,对于公权力机关使用的人工智能系统以及配套数字设施,辩方应当享有知情权和质证权等权利。首先,对于电子卷宗等配套设施,辩方应当有权查阅、核实其中的证据材料。电子卷宗等材料的证据开示机制应遵循辩方权利保障(而非控方职权行使)的逻辑。在开示的启动上,除了控方可以依职权开示,辩方也应当有权申请开示;在开示的范围上,一般而言所有用于智能化审查的证据材料都应向辩方开示;在开示的时间上,应当为被追诉人及其辩护律师留下充足的辩护准备时间。其次,由于辩方无法参与案卷制作,建议区分控方证据和辩方证据,将辩方证据纳入证据卷并用作事实认定的信息来源。辩方证据不仅可以增加证据总量,从而促进事实真相的发现,而且对辩方证据也能进行智能化分析,并不会显著增加控方的工作负担。再次,对于公权力机关在刑事证明中使用的人工智能系统,辩方应当有权申请知悉系统运行原理和案件分析过程等具体内容。换言之,前述人工智能的可解释性,不但是针对侦控方和审判方的,也是辩方应当享有的正当权利。至于其具体机制,可以参照上述证据开示的方式进行设计。最后,如果公权力机关在证据审查中使用了人工智能,辩方应当有权在庭审中对相应的证据材料开展质证活动。对这类案件,庭审中可以创设一项与定罪程序和量刑程序并列的智能科技听证程序,即一方对人工智能在证据审查中的使用情况进行说明,另一方对其中可能存在的偏差和谬误提出异议,双方还可以邀请有关技术专家辅助开展举证和质证活动。
另一方面,随着控方和审判方刑事证明的智能化转型,辩方也应当利用人工智能技术提升其刑事证明能力。目前DeepSeek等通用人工智能已经实现普及,但通用大语言模型的法律专业性还不够强,需要在其基础上开发出可供辩方使用的法律垂类大模型。对此可由律师协会整合各大律师事务所的资源,吸收科研机构的力量,牵头搭建满足辩护律师证明活动需求的法律大语言模型,同时加强对这类模型的训练和调试,以保障其生成内容的专业性、真实性和准确性。辩方的专家系统和概率推理模型,也可以通过类似的方式开发出来。此外,还可以根据用户的需求开发复合型人工智能系统,例如在以大语言模型作为专家系统接口的人工智能系统中,用户以日常语言向系统提问以后,模型将其转换成专家系统能够理解的结构化表达,专家系统执行推理后将结果返回给模型,模型再将其润色成通俗易懂的自然语言回复给用户。除了人工智能系统的开发,在法律职业资格考试中可以适当考查法律人工智能方面的内容,律师协会和律师事务所也要对执业律师开展法律人工智能培训。唯有不断加强对相关专业技能的掌握,法律人方能在人工智能的时代浪潮下立于不败之地。
*作者: 沈磊,北京大学法学院博士研究生 。

微店订阅
银行汇款
户名:社会科学文献出版社
开户行:工行北京北太平庄支行
账号:0200010019200365434
订阅热线: 010-59366555
征订邮箱: qikanzhengding@ssap.cn
订阅零售: 全国各地邮局
★ 备注:请在汇款留言栏注明刊名、订期、数量,并写明收件人姓名、详细地址、邮编、联系方式,或者可以致电我们进行信息登记。







