来源:上海市法学会 东方法学
发布日期:2026年02月09日


在实现司法系统数字化转型的进程中,对人民法院案例库进行智能化升级势在必行。在案例库运行使用过程中,案例库的智能化程度未能让使用者产生“依赖感”,案例库的推广使用仍面临检索选项的筛选精度需提升、检索结果的呈现形式需丰富等方面的挑战。究其原因,法律知识图谱结构缺陷、案例标签精细度不足和相似性比对方法单一制约了案例库的智能化发展。智能化升级需要实现从关键词检索到全要素检索、从表面相似到实质相似的转变,并完成要件标注的自动化。需将理论创新同法院工作深度融合,并基于此对案例库平台进行全链路优化:在运行端聚焦智能类案识别与比对的精进,输出端关注优化检索结果的智能展示。
为有效促进裁判规则统一,切实解决司法实践中长期存在的案例指导不一致与检索困难等问题,最高人民法院于2024年2月正式建成并上线运行“人民法院案例库”,面向社会公众开放。该举措旨在更好地回应社会各界和人民群众日益多元化的司法需求,是推动司法数字化、公开化转型的关键一步。可以说,案例库是针对需求侧创新提供的新型“司法供给”和“法治产品”。然而,目前案例库建设仍面临案例供给体量不足,检索可靠度不高的困境,导致其实用效能未能得到全面的发挥。
与此同时,数字法院建设方兴未艾。2023年以来,上海法院勇于先行先试,大力推进数字法院建设。贾宇院长指出,数字化是人民法院审判体系现代化和审判能力现代化的引领力量和撬动点。数字法院将数字技术从单纯的辅助工具演变为一种贯穿法院工作全流程的工作方法,旨在推动司法系统的数字化转型,切实满足数字时代人民群众日益增长的司法需求,以审判工作现代化服务保障中国式现代化。
案例库智能化升级势在必行,契合以“公正与效率”为核心命题的数字法院建设。对检索系统进行智能化升级,更加精准识别并推送对本案有指导意义的类案,提升法官阅读筛选效率,成为阻碍案例库发挥实用效能的当务之急。在推进数字法院建设的背景下,案例库的高质量发展面临一项关键任务,即如何系统性地将数字化意识、思维、认知及技术融入其建设进程,从而在更深层次上激发司法生产力的潜能。这一目标的实现,已成为当前亟待解决的重要课题。鉴于此,本文致力于对案例库的运行现状、困境、智能化升级的理论进行研究,并在此基础上,尝试提出案例库智能化升级的具体实现路径。
一、人民法院案例库运行的现状分析
案例库上线运行后,案例库入库案例应用必然成为司法中的重要日常工作。截止至2024年11月15日,案例库共收录案例3951篇,涉及民事、刑事、行政、国家赔偿、执行五个条线,基本实现对常见罪名、多发案由的“全覆盖”。
案例库具有案例权威性高、案例时效性强的优势。一方面,收录案例由最高法院层层筛选、层层把关审核,在统一法律适用方面具有很强的指导效力,克服了以往地方案例库权威不足、文书海量但质量参差不齐的问题,形成了一个优质的数据库,为后期实现智能化类案检索和推送打下良好基础。另一方面,在案例库建设中更加注重收集、编选依照新法律、司法解释等作出裁判的案例,更加关注伴随社会经济发展而产生的新类型案例,以便发挥案例及时性的优势。实时更新的典型案例库,能够为法官、律师等法律职业群体提供兼具精准性与时效性的实践参考及研究素材,从而在实质层面满足社会公众对司法透明度不断提升的期待。
然而在案例库运行过程中,包括法官、法官助理、律师、人民调解员、高校学者等使用群体普遍反映,案例库的智能化程度不足以让使用者产生“依赖感”,仍需迭代升级。
(一)
检索选项的筛选精度还需提升
实践中,法官可能对特定细节存在疑虑,产生检索类案的需求,但当他们使用案例库通过关键词搜索案例时,却常常得到大量且繁杂的检索结果。这不仅未能解决实际问题,反而增加了审理难度,从而降低了他们参考案例的意愿。
目前案例库尚未开发更加多维、智能的检索机制。有使用者反映,现有检索功能的实用性有待提升,尤其在高级检索中,用户自设的关键词难以直接获取文书,导致其必须耗费大量时间反复尝试,效率低下。例如,笔者以预设问题在案例库上查询时,第一次选择在“关键词”筛选项中输入“参与度”进行检索,平台显示无查询结果。第二次以“侵权责任纠纷”为案由,在“全文”筛选项以“参与度”进行检索,显示检索结果为七则案例,其中五篇无任何相关性,仅两篇可用。而当笔者修改案由为“机动车交通事故责任纠纷”,在“全文”筛选项以“参与度”进行第三次检索,显示检索结果才缩小为两则与外伤参与度相关的案例,达到可以参考使用的程度。
此外,虽然检索平台中存在“基本案情”或“裁判理由”筛选项,但使用该筛选项往往会导致在平台中无检索结果,出现因检索的繁杂性导致法官没有检索出相关指导性案例的情形。这导致用户无法将其搜索范围限定在争议焦点上,反而需要在全文范围内进行尝试。正是这种查询范围的宽泛性与不确定性,导致检索结果的准确性与正常使用需求之间还存在差距。
(二)
检索结果的呈现形式还需丰富
另一方面在于推送结果的不足。体现在检索结果的丰富度满足不了使用需求。使用者反映,案例库的推送结果虽然提供了一定程度的信息,但仍有提升空间。用户期望能够获取更多细节,如案例所引用的法条及其效力,案涉的裁判文书,通过历审案件记录了解案件全貌,或通过历审案件得知案件前因后果,再或通过特征标签和结果命中展示结果与检索条件的关联性,从而判断可参考性。
此外,推送结果缺乏相关性排序,无法获知推送的排序逻辑。有学者发现,裁判者都表达出更渴望司法规则如自动售货机一般明了便捷的希冀。排序并没有清晰规则,导致用户仍需手动依次查阅判断案例的可用性和相关性,反而加重了使用者负担。
可以看出,案例库和其他类案检索平台尚未能充分满足不同用户群体的实际检索需求,笔者在调研中发现,一些法官感觉要想获得有用的类案指导,还要自己花费更多的时间精力去限缩检索词或阅读筛选,所以还未对案例库产生使用依赖。
(三)
案例供给体量不足
首先,入库周期较长、速度较慢。生效裁判经过编写,依分管院长审批,层报高院,再经专业法官会议讨论,报送本院研究室,再报送最高院审判业务部门审核,最后送至最高院研究室进行最终审核。一个案例入库周期往往需要数月,与案例时效性的要求之间产生冲突。各级法院报送案例的整体质量并不高,最终入选案例仅占报送总量的10%-20%。
再次,空白案由问题仍然突出。当前,案例库已初步实现对常见罪名与多发案由的基本覆盖。然而,对照“全面覆盖各类罪名与案由,并能系统呈现同一罪名或案由下不同法律适用观点”的建设目标,现有库藏内容仍存在不足。笔者统计,目前民事案由共473个,而截至目前案例库入库案例涵盖的民事案由共196个,尚有277个空白案由待填补。而且,同一案由下,不同法律适用问题对应的案例也需要填补,以抢劫罪为例,其违法行为首先可根据情节的严重程度,划分为基本构成与加重处罚两大类型。进而,加重抢劫罪又依据具体行为场景与手段的差异,进一步细化为若干情形,例如非法侵入住宅实施抢劫、在公共交通工具上实施抢劫,或冒充军警人员身份进行抢劫等。具有加重处罚的情节的案例也需要入库,方能满足用户的使用需求。
二、人民法院案例库运行困境的原因探究
在审视案例库的运行现状时,可以清晰地看到一系列挑战正阻碍着其潜能的完全释放,挑战主要集中在检索的智能化程度难以满足使用需求。究其原因,在于案例标签体系的建立已经滞后于实际使用的需求,具体体现在以下方面:
(一)
缺少系统完善的法律知识图谱
法律知识图谱是类案识别技术的基础,它为案例分析提供了系统化和可视化的工具。然而,缺少系统完善的法律知识图谱为标签体系的建立提供科学、专业、实用的框架,直接影响了案例库智能化应用的实现。现状表明,现有的筛选条件、标签要素没有涵盖大量的法学专业术语。有研究者曾指出,目前通过自然语义识别技术将司法数据进行标签化处理的过程待改进,案件要素的提取过于粗糙,人工贴标签技术过于粗糙,对法律事实的归纳存在疏漏,很多法律细节未被标签化或未被准确的标签化,使类案识别精准度降低;缺少系统的权威的法律知识构成的知识图谱,标签精细化工作就缺少明确的指导,从而陷入重复建设、表面建设的困境。
(二)
案例标签的精准度不足
案例库智能化应用的实现高度依赖于案例标签的精细度。识别一个案件主要从基本情节、争议焦点、法律适用等方面进行对比匹配,上述各方面的标签要件越多,案例的特征就越清晰,人工或人工智能进行相似性比较就越容易实现,匹配结果就越精准,但目前案例库仅支持关键词和部分筛选项的比较分析匹配,尽管可以通过关键词限缩的方式,逐渐接近类似案件,但仍受到语言理解、技术实现和平台功能等多方面限制。此外,现有检索系统不标注案例来源,不标注裁判文书的变化会影响检索者对信息的抓取与效率,从而导致推送的案例数量有余,精准性不足,无法满足法官检索精准性的需求,严重制约了案件检索功能的实现和智能化升级。
(三)
类案识别比对技术的方法论不足
在类案智能检索推送技术中,相似性比对是核心环节,其准确性直接决定了推送案例的相关性。目前案例库采用的检索方法主要依赖表面性相似,未能深入挖掘案件的结构性相似。具体来说,这些方法忽略了案件要素之间的内在联系和逻辑关系,缺乏系统性的分析框架,未能充分利用司法裁判的逻辑构成,如案件事实、争议提炼、法律解释等关键要素。此外,现有方法在法律适用的目的性考量上也存在不足,未能将其作为判断案件相似性的重要依据。这些局限阻碍了类案智能检索推送技术在司法实践中的应用潜力,亟需优化以提升技术的有效性,确保案例库智能化应用能够提供更加精准和深入的案例推送服务。
综上,法律知识图谱确实导致标签精准性不足,不能为类案结构性相似提供支撑,从而造成法官对推送的案例“类似而无用”的认知与感受。法官需要便捷高效且可信的类案自动识别系统,但现有系统显然未能满足实务需求。类案识别的有效性、全面性和准确性都受到质疑。案例库检索功能的智能化升级,需要对这些问题剖析,寻找理论层面的支撑。
三、人民法院案例库智能升级的理论支撑
习近平总书记强调:“推进全面依法治国,根本目的是依法保障人民权益。”数字法院建设通过大数据、人工智能等科技创新成果同法院工作的深度融合切实推动解决适法不统一等问题,以实际成效来提升各方的获得感和认同度。
工欲善其事,必先利其器。基于案例库运行中存在的检索智能化滞后等现状,亟需构建一套适合于实际且可操作的方法论,弥合制度与技术的差距,为实现智能化升级的目标提供理论指引。一方面,类案识别与相似性比对的相关法律理论需要升级。另一方面,实现智能化升级不可忽视计算机技术理论的理论指引。
(一)
类案识别核心:从关键词检索到全要素检索
个案裁判本质上是法官进行专业认知的动态过程。它不仅是法官对案件事实与法律规范进行梳理与归纳的思维活动,更是将其识别出的核心要素,与相关法律构成要件逐一比对、精准映射的论证过程。在当事人提出诉讼请求、主张实体权利、提出支撑其请求的请求权基础规范、明确事实主张以后,法官裁判按照“识别请求权基础规范——请求权基础规范的要件分析与解构——争点整理——证明责任分配——争议事实认定——涵摄得出裁判结论”展开,通过实体与程序的不断交错,得出裁判结论。法官在审理案件时,通常以请求权基础为分析起点,依次经历庭前初步确认、庭审中复核与庭后最终认定三个阶段,并借助演绎推理逐步完成对案件事实要件的梳理与提炼。要件式审判本质上是对案件所涉事实与法律问题进行识别、提取,并将其归入相应规范构成要件的司法过程。该方法不仅规范了裁判思维,也为构建面向类案检索的法律知识图谱奠定了逻辑清晰、结构可靠的实现路径。
现有的类案检索技术,包括关键词检索与关联检索法,普遍面临一个共同瓶颈:尽管其检索维度覆盖了案件基本事实与争议焦点,但机械的匹配方式难以保证结果的精准度。在此背景下,全要件检索模式应运而生,它通过模拟法官的裁判思维过程,为实现更精准的类案识别提供了新的路径。
全要件检索,旨在提炼出待决案件的立案信息、原告诉请、被告抗辩、法律问题认定中的全部要件,汇聚形成待决案件的精准画像,通过结构性相似判断,找出类案。
全要件检索模式的核心要素直接源于要件式审判实践,其构成包括待决案件的事实、证据、法律及管辖等一系列结构化要件。与关键词检索中词汇的简单堆砌不同,全要件检索所依赖的各类要件之间具备严密的逻辑关联与图谱化特征,能够共同勾勒出待决案件的精准法律画像。
在类型化案件的审理中,法官通过全程运用要件式审判方法,能够系统性地提炼出案件的“全要件”。这一过程不仅生成了结构化的案例数据,为机器学习提供了高质量资源,更形成了图谱化的要件体系与精准标签,从而为类案的精准识别与比对奠定了坚实基础。基于此,通过对案件各类要件的完整提取,即可为后续开展结构化的相似性比对做好充分准备。
(二)
实质相似判断:从表面性相似到结构性相似
如果案例应用过程离开了案件事实的精细比对和相似性判断,机械适用案例规则,就难以实现案例指导制度的初衷和司法公正的要求。在法律方法论中,案件之间的相似性对比、类案的确立通常被用类比推理的过程加以刻画判断类案所依赖的推理方式为类比推理,其基本假设为,如果两个事物或情境在某些方面相似,则它们在其他方面也相似。即如果对象A具有a、b、c、d属性,对象B具有a、b、c属性,那么,对象B也可能具有d属性。法律适用中的诉诸先例也是运用类比推理,如果当前的案件被认为与先前的已决案件足够相似,那就要进行同样的判决。
在司法过程中,把既定判决与待决案件关联在一起的也是案件之间所具有的某种“相似”,找出这种“相似”是把它们作为类案对待的主要根据,而案件的“相似”也会面临着“表面性相似”与“结构性相似”的区别。
“表面性相似”和“结构性相似”的区分。任何事物都是多重属性的综合,事物的相似性既有基于表面属性的相似性也有实质特征层面的相似性,既有要素之间的对应相似性也有要素组合的系统相似性。可以用“表面性相似”和“结构性相似”的区分来界定事物在不同方面或层次的相似性。“表面性相似”是事物之间因表象特征具有共同点而呈现出的相似,“结构性相似”是事物之间因组成要素关系或构造属性具有共同点而呈现出的相似。与“表面性相似”仅关注事物外形(例如形状、名称、颜色等方面)的相似,“结构性相似”关注的是事物的组成要素在“关系/构造层面”的共同点,关注相互之间的“关系”或要素对象为三个及以上时的“结构”的相似性。
类案的结构性相似特征要求把案件对比的全要素整合成更具体系性的行动指南,以更好地把待决案件和相关既定先例锁定为类案关系。这也是全要件法律知识图谱的构建的理论支撑。
全要件检索体系下判断是否为类案时,可以将两个案件的管辖要件、事实要件、证据要件、法律要件等全要件进行识别提取,细化为若干类型化的要件,通过对全要件中的事实、争议焦点、价值衡量等要件的实际构造关系比较,就可以解决案件之间的有效对比及类案判定的问题。
(三)
要件自动化标注:命名实体识别技术与深度学习
智能化手段和技术难点集中体现于自动抓取法律文本信息以识别类案要素、建立类似案件关联度识别机制以筛选目标案件两个方面。自动抓取法律文本信息的技术核心是自然语言处理技术。其中,自然语言处理(Natural Language Processing,NLP)作为上述应用的支撑技术之一,又以命名实体识别(Named Entity Recognition,NER)为关键性基础任务。
命名实体识别其核心功能在于从非结构化文本中自动识别并分类具有特定意义的专有名词。命名实体识别技术是关系抽取、文本摘要和机器翻译等自然语言处理中的一项重要任务,该任务旨在对输入文本进行扫描,从中定位出预定义类别的实体,如人物、地理区域、组织机构等,并将其归入相应的语义类别。“实体”是命名实体识别技术所处理的基本语义单元,具体指文本中那些承载独立且明确指称意义的词或词组。从类型上看,它不仅包括诸如人名、地名、机构名等传统专有名称,也可根据领域需求扩展至其他特定类别的概念。在法律领域则表现为专有名词,如“死刑”“有期徒刑”等。
命名实体识别旨在通过机器自动识别文本中具有特定意义的实体单元及其类型,以提升数据标注的效率和一致性,从而克服纯人工操作方式存在的成本高、标准不统一等局限性。该技术的主要功能在于自动识别出文本中符合预定义类型的实体。其核心价值在于,通过批量、自动化的识别过程,能够显著减少因人工操作导致的主观偏差与不一致性,从而大幅提升标注数据的质量与效率。以一起机动车交通事故纠纷案为例,其中涉及的“原告”“被告”“委托代理人”等角色信息,均是典型的命名实体。通过要素挖掘、语义检索与推理计算等技术,系统能够自动识别并归类这些法律要素。这种能力对于实现证据链分析、事件脉络梳理、时间节点确认及法律行为判定等关键任务的智能化具有重要的技术价值,是构建法律人工智能应用的基础。
作为机器学习的一个重要分支,深度学习(Deep Learning)是以人工神经网络为核心架构,能够从数据中进行多层次特征学习的算法。在此背景下,随着司法智能化需求的深化,信息抽取的粒度要求也日益提高,其标注方式已从早期对判决书进行整体性标注,逐步演进至对句子层级的事实要素、法律要件等进行精细化分类标注。一方面,该技术通过训练模型自动学习并识别复杂的实体模式,有效减少了对人工密集型标注工作的依赖。在模型经过充分训练后,系统能够自动识别法律文本中的专业术语,并在此过程中不断优化,逐步逼近更高的精准化目标。另一方面,机器深度学习之后的自动标记也会极大提高效率。机器深度学习后能够精准地识别出各类要件,并自动标注。
在深度学习框架下实现要件的自动识别与标注,其根本目的在于系统性地提升实体识别的准确率。尽管模型结构日趋复杂,但核心策略始终如一:即将法学的专业知识与逻辑更深度地融入机器学习过程,引导计算机模拟法律专家在研判类案时所运用的推理模式,从而实现从“感知文本”到“理解案情”的关键跨越。
综上,从关键词检索扩展为全要件检索,从表面性相似升级为结构性相似,从人工标注到人工智能等科技创新成果同法院工作的深度融合,法律要素的识别和相似性判断,以及要素的抓取与自动标注,法律维度与技术维度的升级都有相应理论支持。在数字法院建设的背景下,方法论的更新将深刻指引数字技术在司法领域的应用。
四、人民法院案例库智能化升级路径
类案检索的智能化是实现类案同判的基石,其发展水平对我国案例指导制度的成熟与效能起着决定性作用。为解决案例库使用中使用者反馈的检索选项、呈现结果等方面的问题,检索的运行端和结果端需要针对性进行智能化升级。
(一)
运行端革新:智能化识别、比对与推送的闭环构建
运行端是当案例及相应裁判文书内容被收录入案例库后,使用者通过平台进行检索,并得出所需结果的过程。案例库智能化升级的路径之一的就是识别、比对并推送的运行端流程。运行端路径构建思路如下:(1)构建权威、实用的智能化法律知识图谱;(2)对案例库案例的结构化内容进行提取分析,根据法律知识图谱打上特征标签,对所有参考案例进行自动化标注工作;(3)从待决案件的程序性文书、证据中通过OCR等文字识别分析技术识别抓取案件特征要素,依据法律知识图谱形成案件标签;(4)待决案件的标签与案例库案例的标签进行相似性比较,若相似则按照相关性大小排列,为法官推送案例库中类案。
1.案例标签来源:构建权威、实用的智能化法律知识图谱
标注类案信息要件以及建立类案相似度识别机制的技术核心是法律知识图谱构建。起初,使用知识图谱(Knowledge Graph)的目的在于提升搜索引擎的智能程度,提高搜索精度及用户体验。该技术是从信息样本中获得数据,并将其输出为结构化知识的抽取与表达技术。如前所述,通过人工智能技术对案例进行全面、系统的结构化解析、信息抽取、关键要件标注、与其他法律知识关联的过程,是案例库未来发展方向。
现阶段案例库平台检索推送不好用的根本原因在知识图谱的搭建和要件解构与标注工作的滞后,只有补足短板,才能突破类案识别不精确的桎梏,为法官精准推送所需案例。只有当类案能够被精准识别,类案的智能推送、裁判偏离预警才不会成为“空中楼阁”,可望而不可即。因此,类案识别、比对并推送的根基在于构建本土化的法律知识图谱,并基于此为案例“打上”精准实用的标签。
只有遵循司法裁判的规律搭建而成的检索系统才能更准确地识别类案,让检索变得“好用”。高度智能的检索模型,也需要遵循机器学习的基本原理,即要素化,模型化,图谱化。也就是说,机器学习需要行动指南,在类案检索领域就表现为对裁判文书或专家经验精准提炼后形成的法律知识图谱。法律知识图谱的谱写,就是要将案例中的要素的体系化、定型化,为类案之间进行比对、识别提供指南。案例数据库中的判决书是法官个性化创造的产物,高度语境化的信息供应方式给机器的关联性识别带来挑战,面对案件事实的多样化和法律问题的复杂性,智能化检索也会出现包容性困境,导致依赖于自然语言处理的算法产生不精确的结果。为了将这种非结构化数据转换为机器可识别的结构化数据,需要发挥类案判断标准的整合功能,提取案例之间最相关的数据特征,建立类案法律知识图谱。
构建智能化法律知识图谱,需同时完成对文本语义的理解和对法律行为的抽象定型,以此形成构建图谱所需的基本要素。首先,法律知识图谱的形成来源于对法律行为进行抽象归纳。实务中,法官对于自己审理的同类型案件往往会有心得,总结成文章发表。这就是对于这一类型的案件的司法审查要点进行梳理总结,是已经结构化的知识。

图表1 全要素法律知识图谱示例
要件事实组成法律知识图谱。以主体要件、事实要件、法律要件为逻辑形成类案知识图谱的一级基础构成要素,每个一级基础要素项下形成多层级的子要素。比如,主体要件项下可细分权利能力、行为能力和责任能力等要素,事实要件项下可分为核心事实、外围事实、影响性事实等要素,法律要件项下可分为法律关系、权利基础、证据规则、程序规则等要素。在不同的个案中,这些子类型组成的要素知识谱系是动态变化的,且可以持续根据个案需要进行多层级的要素细分,通过运用人工智能技术对大量的案例数据进行归类处理,从而形成“可视化”的全要素结构体系。
法律知识图谱需要不断更新并完善。推动适法统一是人民法院永恒的话题。法律法规在更新变化,审判实践的新观点、新经验也在不断发展,为及时回应社会发展的新需求,知识图谱就需要持之以恒地更新和完善。及时总结更新实践中好的审判经验、裁判方法,补充、修改知识图谱,保持知识图谱的及时性、科学性、实用性。
2.信息抽取——构建自动化标签体系
对案件要素的解构是人工智能司法应用的前提条件。在法律知识图谱搭建完毕后,下一步在于如何对裁判文书或指导案例的文本进行解构和标注,让文本的标签符合司法实务指南,让检索者更精准找到有用案例。从文书内容中提取关键事实形成便于标注的结构化标签的过程称为信息抽取。信息提取是指从文本中抽取指定的事件、事实等信息,并形成结构化储存的过程。一般需要借助自然语义识别技术、分词技术才能实现。
为了让人工智能自动精准给案例或裁判文书打上标签,就需要建立高准确度的标签体系。一方面,高准确度的标签体系建立依赖法律知识图谱,弥合理论与司法实践在某些表达方面的差异。另一方面,为有效规避人工构建标签体系时难以避免的主观倾向与固有局限,应对复杂任务进行合理分解,并引入计算机自动化处理环节。通过让机器自动从海量裁判文书中提取关键要素,能够将法学理论与司法实践更为紧密地结合,从而推动知识体系的实证化与实用化发展。
信息抽取要提取入库案例特征要素。目前案例库的案例由关键词、基本案情、裁判理由、裁判要旨、关联索引五部分格式化要素组成,数据结构化特征高,为计算机进行数据抽取、识别与处理提供良好条件。具体提取方法与上文详述的提取待决案件特征要素的方法类似,即按照类案知识图谱为参照系,通过计算机对案例分析文本中的关键词、基本案情、裁判理由、裁判要旨、关联索引五部分内容进行要素信息抽取并转化为案件特征标签。
本文以指导性案例24号荣宝英诉王阳、永诚财产保险股份有限公司江阴支公司机动车交通事故责任纠纷案为样例,通过对案例分析文本的信息抽取和要素识别,形成如下案例特征要素图谱。
上文是针对一份案例文书进行人工信息提取的简单描述。司法实践中,裁判文书浩如烟海,仅凭人工是不可能完成全面的信息提取工作的,人工提取不仅需要耗费巨大的精力和时间,而且由于人的主观性,标注结果的一致性也难以保障。因此,需要机器进行自动抽取。
图表2 案例特征要素表示例
通过阅读大量案例文本,可以发现:不同法院判决书的内容结构基本相同,法官一般会遵循案例写作格式进行撰写;各部分包含相对规范的线索词,可以在构造抽取规则时作为信息提取点,如文书中裁判规则部分一般以“法院生效认为”开始;这些行文规律为机器自动抽取所需信息提供了基础。对于事实和说理的内容,由于存在陈述方式的多样性,需要结合自然语言处理技术对句法结构进行深入分析,同时在实体识别的基础上进行信息提取。
流程如下:输入指导案例文书,运用自然语言处理的方法,借助分词、分句技术将原告陈述、被告抗辩和法院审理查明、法院认为部分的语言预处理,然后结合正则表达式构造规则抽取器,进行要素信息的属性识别和关系识别,完成信息抽取,输出为特定格式的文件储存。
之后,训练机器学习模型,对案例库所有案例进行自动标注。训练模型的数据应当是经过标注的案例库五要素的内容,涵盖了几乎所有案由,所有可能导致判决结果发生变化的事实都已经被打上标签,说明其对应的关键事实。通过构建法律知识图谱,构建标签体系,用得到的标签体系给案例中的事实打上标签,得到结构化的高质量标注案例供机器学习,通过标注过的数据训练计算机重点学习,使训练出来的模型排除无关信息干扰,专注于识别能够反映案件法律关系的事实。这一过程是连接计算机技术与法学理论的桥梁。给文本打标签可以理解为多分类任务,不同标签属于不同类别。关键在于如何让计算机识别出相似文本包括学习词与词之间以及语词搭配的相似性,发现语义联系。具体实现方式可以直接使用BERT模型加上分类器联合训练,本质上就是使用word2vec方法,将文本转换成词向量之后用数学模型进行机器学习。建模训练和检测是具体的技术实现,由精通机器学习的计算机专家选取合适的计算方法、搭建模型,将标注过的数据集分为训练集和测试集,训练集部分用于模型的常规训练,测试集则用于模型效果的最终检测。在训练过程中根据模型表现调整参数,直到模型在测试集上的表现满足一定的准确率等评价指标。对案例文本进行自动标注。基于法律知识图谱以及提取技术构建的标签体系由于包含了法律要件、关键事实与事实表述的对应关系,使自动化数据标注成为可能。让计算机直接比对文本相似度进行识别并自动标注。
通过构建法律知识图谱,对案例进行自动化标注,该路径能够克服过去类案系统开发过程中训练模型使用的数据集文本结构化不高,法律规范指引不足,人工标注耗时费力、精度较低、主观性强的问题。本文对案例标注精细化、自动化升级的讨论,也是希望能抛砖引玉,引发实务界对于标签体系精细化的关注,构建通用、可靠的法学标签体系,为类案识别智能化再突破打下坚实基础。
3.提取待决案件的信息
在指导性案例为法律适用提供权威参照后,如何将其裁判要旨与推理模式有效运用于后续类似案件的审判实践,成为实现案例指导价值的关键。尤其当经过系统标注的指导性案例形成相当规模后,如何从海量案例中精准、高效地筛选出与待决案件最具相似性的先例,直接关系到案例指导制度能否真正发挥其统一法律适用、规范司法裁判的预期效果。判断一个待决案件与一个指导性案例是不是属于“同案”,需要对待决案件进行分析并描述。
信息抽取还需从待决文书中提取特征要素。从待决案件的程序性文书、证据中通过OCR技术与分词技术等手段抓取案件特征要素,依据法律知识图谱形成案件标签。此过程往往需要对原告陈述、被告抗辩部分的自然语言进行全方位扫描,从中提取出诸多要素,再通过技术手段将其转化为法律语言。比如,民事起诉状中原告诉请与事实与理由是原告从自身立场出发对已发生事实和请求的基本归纳,而被告答辩状一般针对原告诉请,从证据、事实或者法律适用等层面提出答辩意见。证据一般会附上证据目录进行分类并初步说明证明内容。上述材料都可以通过扫描上传或拍照上传的方式进入智能办案系统的电子卷宗,供法官阅卷。通过人工智能赋能命名实体技术等识别技术,准确从电子卷宗中提取出案件特征要素,生成智能化法律知识图谱,不断识别并填充案件各要素及子要素,作为待决案件相似性比对的标签。
本文举一个机动车交通事故的例子作为待决案件。案情简介:2023年2月13日20时许,张某某驾驶皖H×××××的小型客车(在保险公司投保有交强险及100万元商业第三者责任险),与王某某驾驶的电动车发生碰撞。经交警部门认定,张某某负事故全部责任。王某某住院治疗46天,支出医疗费35,648.95元,伤情经鉴定被评定为十级伤残,误工期限180天,护理期限90天,营养期限90天。王某某诉至法院,请求张某某、保险公司赔偿残疾赔偿金等共计155,829.52元。经补充鉴定,卢某某损伤参与度评定为50%。可从证据交通事故责任认定书、司法鉴定意见书、赔偿清单等材料中提炼出以下要素:被告负事故全责、参与度鉴定意见、赔偿项目计算标准无异议,原告个人体质因素,被告赔偿责任,损伤参与度评定为50%……
4.待决案件与案例库案例的相似性判断
如前所述,识别提取全要素后,通过对全要素中的事实、争议焦点、价值衡量等要素的实际构造关系比较,就可以解决案件之间的有效对比及类案判定的问题。
识别待决案件与指导性案例的要素的相同点和不同点,识别其中的相同点与不同点则必须经归纳提炼获得,而不能仅停留于寻找相同陈述的层面。也就是说,不能仅凭“表面性相似”判断两案是否相似。案件相似既要有要素之间的对应相似性,也要有要素组合的系统相似性。
待决案例与权威参考案例可以通过事实、争议焦点、价值衡量三层次进行结构性比较,(1)案件事实。案件事实的最初形态是作为社会纠纷或争端的事实,法官必须对当事人诉称的纠纷事实情况予以查明,并判断其在法律调整上的可能性和意义,才能形成用作法律适用和得出判决结论的案件事实。司法认定的案件事实才是判决结论的最后构成要素,而并非案件的任何事实情况都可成为司法裁判的对象。从实践上看,法官不仅要通过证据确认案件事实的真实情况,而且要对真实的案件事实情况进行法律上的评价,以确定最终可被通过司法处理的、具有法律调整意义的案件事实。(2)争议焦点。争议焦点是诉讼双方基于案件事实所持对立主张的核心分歧,它构成了案件审理过程中需要解决的核心问题。以此作为识别待决案件与指导性案例之间相似性的基准,不仅便于对案件进行有效区分,也有助于快速明确应适用的法律规则。纵观最高人民法院已发布的指导性案例,其裁判要点部分在总结与提炼审判规则的同时,实质上也是对案件中根本性争议的回应与裁断。因此,将争议焦点作为类案识别的关键依据,与当前指导性案例的内在结构和编纂逻辑高度契合。(3)价值衡量。案例适用本质上是经验理性在司法实践中的具体体现。无论相关技术方案设计得如何精妙,都难以完全覆盖现实社会中复杂多变的法律情境。即便是体系严密、逻辑自洽的成文法规,在具体适用时也常需依赖裁判者的主观判断,针对同一法律要件是否满足,不同主体也可能形成相异的法律见解。在这一背景下,裁判者对案件事实相似性进行评估时,其判断过程不可避免地会受到自身价值取向的深刻影响。从实践层面看,价值衡量的引入具有多方面的动因。道德观念、政策导向、经济考量以及其他社会因素都可能影响价值判断的走向。因此,在完成案件事实与争议焦点的初步比对后,指导性案例的识别工作并未终结。要最终确定案件相似性,还需考量个案之间在价值衡量维度上是否保持内在一致。

图表3 待决案件与入库案例特征识别、比对示意图
如果待决案件与指导性案例的要素特征通过事实、争议焦点、价值衡量三层次考察后存在两个层次及以上的相似,那么就可以判断,两案存在结构性相似,指导性案例与待决案件就具有类似性。在全要素体系下,相同或相似的基础性要素的数量越多,它们之间的关系或组织结构越密切,以其作为基础断定案件之间的结构性相似就越坚固。若经过判断,两案相似,则按照相关性大小排列,为待决案件的承办法官推送案例库中类案。
(二)
输出端升级:检索结果智能化呈现
在呈现效果方面,需增强检索结果的可视化技术,提高用户对于检索结果的阅览效率,优化结果呈现的方式,解决丰富度、相关性、命中指示等问题。具体路径如下:
1.对类案推送结果设置参考性排序
在推送类案结果时,建议综合考量案件的相似度、效力层级、地域范围和有效性等因素,实现智能排序。
①相似度评估。通过上 述人工智能识别比对类案技术来评估待决案件与入库案件的各相似要素的数量及相似程度来进一步评估二者实质性相似度的大小。②效力层级考量。根据案例发布主体的层级来确定案例的效力层级,并作为其在推送结果中的优先级考量因素。③地域范围的适用性。根据案件发生的地理位置和司法管辖区域来调整推送结果的相关性。④有效性的时间考量。考虑时间因素对案件有效性的影响,包括法律的修订、废止以及案例的时效性,确保推送的案例是最新且有效的。⑤用户个性化权重设置。允许用户根据自己的需求和偏好为上述因素设定个性化权重。
最后,通过智能排序算法的工作原理,综合用户设定的权重和案件的客观属性来计算每个案例的相关性得分,并按照得分以降序方式进行推送。
2.加强类案裁判的可视化效果
一是增强推送结果知识丰富度。在获得相关性较强的类案推送结果后,推送类案的信息越全面,“案例画像”越清晰,用户对于推送结果是否应当参照的判断就越可靠,用户从中获取的对于待决法律问题的知识辅助就越强,案例库的统一法律适用、促进法律研究等社会公共价值才能得到有效发挥。具体而言:
(1)通过关联法答网将涉及类案法律问题的相关精品答疑同步展示在类案推送结果页面,为法官类案裁判提供更多业务支持。(2)关联最高人民法院信息中心牵头搭建的司法知识服务平台,通过司法知识服务平台中当事人画像、卷宗跨层级在线调阅等功能全面获取推送类案的事实信息。一方面可以为推送案例提供关联案件总量、对象群体特征、影响地域等事实信息,另一方面呈现上诉率、发改情况、再审申请率等指标,帮助用户对案例裁判效果进行可视化评估,进一步提升类案的裁判参考性。(3)关联中国知网、北大法宝、法信等中国法律应用数字网络服务平台,在类案推送页面同时展示与类案法律问题相关的法律释义、学术文献等研究资料,为用户提供更全面的法律信息参考和支撑。
二是案件结果命中的直观展示。(1)增设专门板块,直观展示结果命中情况,如通过标签栏突出显示命中要件标签,统计并展示标签命中率;(2)直接展示主文中命中关键词的段落,统计命中次数,简化法官查找过程;(3)在每个检索结果后增加文内检索框,提高二次检索效率。
三是类案检索报告的自动生成。类案检索报告是在完成类案检索后,对所得案例进行系统梳理、归类与综合分析而形成的书面成果。借助算法和数据库挖掘技术,自动生成类案检索报告,将上述运行路径中的类案识别、相似性比对与参考性排序过程书面呈现。让法官在撰写判决书时,律师在准备案件时,法律学者在进行案例研究时,帮助其进行深入的法律研究和决策支持。
(三)
人民法院案例库的迭代展望
案例库建设是一项长期工程,永远“只有进行时、没有完成时”;又是一项公共工程,需要大家“齐动手、共努力”。作为审判工作现代化事业的重要一步,以推动法律适用统一为导向,案例库建设在未来还将实现功能转型。
1.手动检索向智能推送转变
目前,案例库的功能设定是将案例进行单纯的信息化呈现,用户只能通过时间、法院、案由、关键词、案号等简单条件手动检索需要的案例,类案检索效率及效果均不理想。近年来,大数据、文本解析与提取、信息检索等技术的突破性发展为类案智能推送的实现提供了可能。加之,案例库内的案例具有高度权威性,且案例文本具备结构化数据特点,客观上为实现类案智能推送提供了优质数据条件。
故建议案例库平台内嵌入类案智能推送模块,以实现技术自动抓取用户提交的起诉书、证据材料、庭审笔录等案件材料中含有的案件事实等的描述即可自动识别案情,并进一步精准匹配类案并发起推送,通过数字技术进一步解放司法生产力,真正激发法官“愿意用”类案检索的内生动力,将法官办案的关注点从个体视角逐渐转向司法实践,最终回归促进适法统一的价值。
2.应用系统向底层技术转变
无论是司法人员的办案,还是律师提供代理或辩护的法律服务中,都越来越多地将类案检索作为必要的业务流程环节来看待。但笔者以为,智能类案推送功能不应只作为业务流程模块嵌入案例库平台。实际上,智能类案推送功能中所运用的文本结构化解析、文本信息抽取、文本相似性比对等技术可以应用于智能诉讼导引、智能审判辅助、智能量刑辅助、文书生成辅助等更广阔的法律人工智能场域。
因此,应以长远、动态的视野看待案例库的智能类案推送功能的研发和实现。虽然智能技术的研发周期和成本巨大,短时间内难以真正满足案例检索的效率和效果需求,但从长远来看,应将智能类案推送功能作为一种底层技术和能力支撑加以投入研发,探索应用到司法实践中的各类应用场景中,为不同类型群体提供更加精准、高效的辅助和支撑,从而真正实现数字赋能审判工作现代化。
3.案件查询向知识辅助转变
现阶段,案例库检索只是作为查询案件的工具被使用,但是当智能推送的类案结果无法完全帮助使用者解决案件裁判或法律适用问题时,就需要法律法规、司法文件、学术资料等其他相关性文献资料的支撑和辅助。法官通过系统梳理与提炼个案中的裁判规则,持续为法律知识图谱的建构注入个体司法智慧。这一知识积累过程具有显著的规模效应:被总结与整合的裁判规则越丰富,图谱所能覆盖的法律关系就越全面,其结构也愈发精细与贴合实践。最终,一个高质量的知识图谱能够为司法裁判提供更高效、更精准的智能辅助,形成良性循环。现有的案例库检索功能尚未实现各类法律知识的汇集,因此构建以案例为核心的综合性知识库是案例库未来发展方向的应有之义。
对此,可以参考法信为代表的综合性平台建设,除设置基本的案例检索功能外,与法答网、学术资料库、司法统计分析库等平台联动,通过人工智能技术对案例进行全面、系统的结构化解析、信息抽取、关键要素标注、与其他法律知识关联的过程,以此实现推送资源的全面性,充分发挥人案例库平台的“智囊”作用。
结语
人民法院案例库的智能化升级不仅是技术层面的革新,更是司法服务模式的转型,关乎司法公正的实现与法治社会的建设。案例库建设是一项长期工程,“只有进行时、没有完成时”。未来,案例库的智能化发展需要在顶层设计与技术实现上持续创新,以满足不断增长的司法需求、促进法律适用的统一、提升司法公信力。通过本文的探讨,我们期待为案例库的智能化建设提供新的思路与实践指导,为推动中国司法事业的现代化贡献力量。

往期精彩回顾
上海市法学会官网