来源:法学学术前沿
发布日期:2025年11月22日
L L L 法学学术前沿
基于DeepSeek的法律AI新风貌:反思性审视
作者:左卫民,四川大学法学院教授。
来源:《法律科学》2025年第6期。
为塑造法学学术前沿微信公众平台的风格,微信推送的外标题系编辑根据文章理解所加,不代表作者立场。

目 录
引言
一、基于大模型的法律应用:如何脱颖而出?
二、法律大模型推理性能的实证审思
三、大模型时代法律 AI定位:“辅助工具”还是“决策主体”?
结语
摘 要:
人工智能技术的快速发展正推动包括实践与研究在内的法律生态的变革,以DeepSeek开源大模型为重要代表的技术架构与行业探索实践正成为革新法律生态不容忽视的因素。在司法领域,DeepSeek类大模型产品的法律检索与裁判预测功能可辅助快速发现法律规范依据、预测案件裁判后果且已有研发者开始尝试直接使用大模型制作法律文书以供法律人参考,并在相当程度上得到了法律专业人员的认同。然而,大模型与法律活动的深度融合仍面临多重挑战:当前大模型输出内容的科学性、准确性和逻辑严密性尚难满足法律活动的“苛刻”要求;在社会心理层面,公众对于由大模型类的“AI法官”替代人类司法裁判者决策仍存在普遍的接受障碍;基于数据驱动的大模型是否具备把握司法规律、形成“创造性”裁判的能力尚存严重争议。DeepSeek类大模型的“智能辅助”定位仍长期成立,其发展路径或将形成人机协同共进的格局,即“碳基”人类掌握方向,“硅基”AI助力效率,最终推动法律实践从效率提升向质效跃升的跨越。
关键词:
DeepSeek;法律大模型;人工智能;大模型司法
引 言
毋庸置疑,当前全球正处于以大语言模型技术加速迭代为重要标志的信息科技爆发式革命的时期,信息科技正在为千行百业的广泛创新注入强劲动能。以OpenAI的GPT-4和Google的Gemini等为代表的预训练模型的参数量级已突破万亿,展现了强大的自然语言处理能力。在国内,深度求索推出的DeepSeek-V3凭借稀疏注意力与动态专家混合架构等算法创新,在保持优异性能的同时,可显著降低计算成本;其全面开源的策略更为大模型在社会、人文领域的普惠应用提供了空前可能。法律作为调整社会关系、维系社会秩序的核心制度系统,既迎来了技术赋能所带来的效率提升与服务革新,也面临着人工智能深度介入引发的理论重构与伦理挑战。法律人工智能经历了从20世纪70年代基于规则的法律专家系统,到90年代后以机器学习为核心的数据驱动应用(如判决预测、文档审查),再到近年来依托大语言模型的生成式法律文本处理与多模态推理的演进。在此背景下,厘清法律大模型尤其是如DeepSeek等国产开源模型在我国法治语境下的功能定位与应用边界,既能够充分发挥其技术优势,又可以确保其应用符合司法规律、程序正义及伦理要求,已成为一个亟待回应的重要课题。本文立足于DeepSeek类大模型的技术特性与法律实务的需求结构,系统分析其在法律场景中的应用潜力与内在局限,明确其作为辅助工具的职能定位,并初步构想符合司法伦理的人机协同决策机制,以期为我国法律人工智能的规范发展提供理论参考。
一、基于大模型的法律应用:如何脱颖而出?
大模型在法律场景中的不断应用整体上源于其技术的更新迭代。其中,DeepSeek-V3核心架构设计中两项关键技术的突破值得特别关注。一是混合专家模型(Mixture of Experts,MoE)。混合专家模型是通过门控机制(Gating Mechanism)动态分配任务给多个“专家”的子模型,它仅激活相关专家进行计算,在保持强大性能的同时显著提升计算效率。与传统稠密大模型如GPT-3.5使用的Transformer架构需全程激活所有参数不同,MoE在其V2版本上优化,采用更细粒度的专家划分和稀疏激活机制,可在降低算力需求的同时增强模型的泛化能力。二是多头潜在注意力机制(Multi-Head Latent Attention,MLA)。不同于传统注意力机制(Transformer)直接存储和处理完整的、冗长的键值对,多头潜在注意力机制通过学习或构建低纬度的“潜在表示”近似或代表原始的键值信息,使模型在处理长上下文窗口时的内存占用显著降低,突破了以往基于注意力机制大模型的“内存瓶颈”。上述两项技术协同作用,能使模型在维持高性能的基础上,兼顾推理效率与训练的经济性。
(一)DeepSeek类大模型技术突破赋能法律应用
1.语言处理与逻辑推理能力契合法律工作需求。法律从业者的核心工作除实体性经验活动(如与当事人沟通、庭审辩论等)外,还大量涉及文本处理和逻辑推理。大模型高效的文本生成、信息归纳及知识应用能力,能够辅助法律人完成文书起草、案例检索、法规适用等基础性工作。更重要的是,法律推理的“三段论”模式与大模型基于已有的知识提取与应用的机制具有内在相似性,二者的核心逻辑均为“在既有规则框架内完成知识匹配与推理”。因此,DeepSeek类大模型的语言处理能力在一定程度上契合法律人完成标准化法律工作的需求,可为法律工作者提供高效文字处理与智能化决策辅助支持。
2.法律推理过程透明化可增强模型的可解释性。将AI应用于法律领域曾饱受诟病的一点就是“黑箱效应”,即AI无法清晰展示推理过程,难以满足对法律结论公开性、说理性的要求。而DeepSeek等新一代大模型在显著提升长文本处理能力和逻辑推理能力的基础上,通过思维链技术公开推导过程,使法律结论生成过程透明化,在相当程度上契合产生法律结论所要求的充分说理论证和法律依据显示要求。由此,DeepSeek类大模型对思考和推理过程的呈现,使得长期为学界与实务界所担忧的“算法黑箱”困局得到了一定程度的纾解,法律人所追求的“公开性”“说理性”“可解释性”将得到不同程度的实现。
3.本地化部署保障数据安全与合规性。随着本地化部署,基于DeepSeek等大模型展开的法律研究与实践在数据安全方面具有显著优势。法律行业对数据安全和隐私保护有着严格的合规性要求。DeepSeek等模型支持本地化部署“轻量级小模型”的技术方案,用户可通过私有云环境或本地服务器实现模型运行,这种架构设计从技术层面确保了对客户数据的物理隔离。在模型代码开源的前提下,用户可自主下载、修改并在自有计算设备上部署运行,同时模型支持通过微调构建与特定法律业务场景相匹配的知识工具库。这种离线运行模式为强调数据安全、注重隐私保护的法律从业者提供了关键的技术保障。政府部门、司法机关与律师事务所等法律实务机构可通过本地服务器部署模型,并基于内部案例库训练专属知识库,以满足合规要求。同时,该部署模式使用户能够自行对数据进行全生命周期管理,避免将敏感司法数据或当事人隐私信息传输至第三方云平台。这种“去中心化”的数据自治机制使其在数据安全与隐私保护方面具有显著优势,夯实了大模型在法律场景应用的合规基础。
4.应用精准性推动法律AI产品迭代升级。DeepSeek类开源大模型之所以引发关注与肯定,一个重要原因是其具有出色的应用精准性。通过多项技术机制的协调运用,DeepSeek类开源大模型在处理法律任务时展现出较高的成熟度与实用性。即便是通用版本的大模型,在处理常规法律问题时也能达到可靠水平。这使得在法律行业应用大模型具备了相当的合理性。例如,得益于通用大模型坚实的性能基础,东南大学研究团队以通用大模型为底座基础,提出了“多角色扮演式法律深度思考数据合成方法”,通过递进式对话策略打造深度思考能力,构建了法律推理专业性能力显著提升的垂直领域大模型。具体到司法领域,DeepSeek类大模型产品的裁判预测与法律检索功能可辅助法官快速定位法律规则、预测案件走向,并通过调解预期管理来促进纠纷解决。因此,DeepSeek类大模型出色的应用精准性能够驱动更高质量法律应用产品的面世。
(二)DeepSeek类大模型在法律领域运用的具体优势
上述分析从宏观层面阐述了DeepSeek类大模型赋能法律行业的技术基础与应用潜力。在此基础上,有必要进一步聚焦其核心功能模块,具体分析DeepSeek类大模型如何通过技术迭代提升法律实践的专业化与智能化水平,以及其究竟能在法律领域达到怎样的新高度。
1.思维链技术优化法律推理过程。DeepSeek以思维链提示技术为重要支撑的思考过程公开化推理机制是其推理性能提升的关键。“思维链提示”(Chain of Thought Prompting)是一种提示工程的模型推理增强方法,核心在于通过结构化的问题分解与渐进式的推理步骤,构建完整的逻辑推理链条。它将复杂问题分解为多个子问题,引导模型逐步生成中间推理过程,形成逻辑链条。这与法律人处理法律问题时的严谨推理过程具有显著相似性。CoT技术特有的自校正功能模拟了人类认知过程中的元认知监测机制。例如,在解决数学问题时,模型会先展示解题思路而非直接输出答案,若发现步骤错误则会自我纠正:“等等,这里有个错误”,随后调整推理路径。这种“显性化”的中间推理过程不仅提高了大模型推理的可解释性,更通过分步求解过程和错误节点的可视化显著提升了推理的准确性。但需要注意的是,思维链推理仅能有效作用于大模型。也就是说,思维链提示对于小型模型并不会积极影响性能,在规模约为100B参数的模型中使用时才会带来性能提升;对于更复杂的推理问题,思维链提示的性能收益更大。
法律人常用的“大前提—小前提—结论”推理是一种经典的逻辑思维方式。其核心是通过法律规范作为大前提和案件事实作为小前提的对应关系,推导出具体的结论。这种逻辑推理方式有助于确保法律适用独特的严密性和确定性。在司法判决中,法官往往会通过这种方式明确法律依据和事实依据,从而证成裁判的公正性和可接受性。但法律人并非简单套用三段论,而是需要在初步判断后,不断建构、审视和检验推理过程。面对复杂案件时,法律人通常需要综合把握,不可能简单套用固定的逻辑框架。而思维链正在逐渐接近法律人的分析过程,有助于处理法律实践中经常出现的复杂、不确定问题,尤其在案件事实不清或者需要综合考虑多种因素时,思维链时常能够提供更全面的分析。
例如,作为法律推理大前提之《中华人民共和国民法典》(以下简称《民法典》)第1064条第2款规定:“夫妻一方在婚姻关系存续期间以个人名义超出家庭日常生活需要所负债务,不属于夫妻共同债务”;作为法律推理小前提的案件事实是丈夫甲在婚姻存续期间以个人名义负债200万元并且未用于家庭开支,妻子乙对此债务不知情;法院据此得出甲负债200万元不是夫妻共同债务的结论。更复杂的案情会涉及更多的法律关系和案件事实,如法律人可能会首先明确争议焦点,如夫妻是否共同清偿该债务,继而定位法律规范,如《民法典》第1064条之规定,通过案件所涉及的证据等来分析案件是否符合夫妻共同清偿债务的情形或者有无例外情形。若夫妻双方中的一人对该债务完全不知情并且该债务超出日常家庭所需,则可能得出该债务不由夫妻双方共同清偿的结论。同时大模型可能会进一步提示提问者:夫妻双方是否存在合伙关系?该借款合同中是否存在妻子的签名?如微信等聊天记录中是否显示妻子知情?这些因素都可能使债权人能够证明该债务实际用于夫妻共同生活、共同生产经营或者基于夫妻双方共同意思表示等,从而得出不同结论。显然,大模型思维链的思考机制可以帮助法律人进一步审视和验证推理过程,从而避免法律的僵化适用,形成更为准确、能被接受的逻辑推论。
2.长上下文建模增强复杂法律文本处理能力。“长上下文建模”(Long-Context Language Modeling)技术被视为AI实现“类人理解”的关键突破技术,其使系统能够逼近人类在语言处理中天然具备的长期记忆能力和逻辑关联能力。具体而言,“长上下文建模”技术使人工智能模型尤其是大语言模型在处理和理解超长文本输入时,能够有效捕捉、整合并利用文本中远距离依赖关系,其核心在于突破传统短文本处理的限制,使模型能够更好地适应现实场景中需要长期记忆、跨文本信息整合及维持逻辑连贯性的复杂任务。在法律实务领域,这项技术的突破性意义尤为显著,甚至意味着AI可能在法律咨询等领域真正替代部分专业工作。例如,在处理复杂商业合同时,模型可能需要同时解析数百页的细节性条款,如管辖权、责任划分、保密条款等,并确保前后条文逻辑一致。审查合同时需识别不同地方引用的条款是否冲突,或生成符合特定司法管辖区域的标准模板。长上下文能力可避免因上下文窗口限制导致的条款遗漏或误判。又如,在知识产权纠纷中,模型有时需从长达数万字的判决书中准确发现确定违法行为的法律依据,并对比不同裁判的观点。通过长上下文窗口,模型可以同时处理跨段落信息,包括原被告陈述、证据内容、法官论证等,从而提升其法律意见的准确性。再如,在法学研究综述中,模型时常需从数千篇学术论文中提炼其理论框架,并分析不同学派的观点差异。这些场景的共同挑战在于,法律文本的强逻辑性要求大语言模型必须尽可能精准捕捉大量复杂文字、条款间的隐含关联,而传统短上下文模型由于信息截断的限制容易产生漏判、误判。长上下文建模技术通过扩展位置编码、优化注意力机制以及专门的法律知识蒸馏等,显著提升模型对法律术语、条款、判例及其他文字的全局理解能力。值得注意的是,法律AI产品的重要应用场景往往需要处理复杂的专业问题。因此,具备长上下文处理能力的大模型为法律智能化发展提供了关键技术支撑。
3.开源模式推动法律AI创新与生态构建。DeepSeek公开开源模型权重、并附带详细技术报告的发布形式,为法律领域大语言模型的深入应用与创新提供了重要机遇。其所采用的MIT开源协议(MIT License)具有高度宽松性和商业友好性,不仅明确允许个人、研究机构及企业进行自由的商业使用、复制、修改和分发,还支持针对法律专业场景的模型微调、剪裁与蒸馏,极大降低了法律科技产品的开发门槛与应用成本。这种开放性为法律人工智能的多样化、专业化发展奠定了坚实基础,尤其有助于推动中小型律所、法律援助机构及法学研究团队以较低资源投入接入先进人工智能。例如,小型律所可通过本地部署开源模型,以较低成本自动生成法律文书,检索案例。DeepSeek的开源性使得包括公司法务部门、律所技术团队和研究人员在内的各方可直接访问、审查甚至干预模型源代码和训练逻辑。在高度依赖准确性、可解释性与合规性的法律应用领域,透明性尤为重要。通过源代码审查和训练数据追溯,相关机构能够验证模型在处理具体案件时的推理路径和决策依据,减少“黑箱”风险。模型的开放性审查也有助于构建更加可信的“人工智能—法律”协作机制,使应用者更好地理解、评估AI辅助结论生成过程,提升人工智能法律系统的“可问责性”和专业化水平。
需要指出的是,DeepSeek大模型开源模式促使AI产品由封闭转向透明与可审计,这不仅能增强用户对模型输出结果的信任度,也有助于推动法律知识库建设、相关工具的迭代开发及开源生态的持续拓展。此外,开源生态中提供的详细文档和丰富代码示例,可以帮助开发者快速掌握并使用技术,缩短开发周期,法律领域的开发者可借鉴社区优化的代码模块,快速拓展大模型的垂直功能。例如,北京大学研究团队提出了一种将通用大语言模型应用于特定领域的方法:通过在法律领域数据上进行了额外训练,构建法律垂域大模型Lawyer LLaMA。研究团队基于Meta AI大型语言模型(LlaMA)模型架构,通过对大量与法律领域相关的文本(包括中国法律条文、裁判文书、司法审查数据以及法律咨询对话数据集等)进行预训练,设计法律领域任务并使用监督微调教导模型解决实际问题,以增强模型解决特定领域问题的能力。这一技术路径同样适用于DeepSeek模型领域。事实上类似研究早已经在小范围展开。有研究团队提出了一种基于DeepSeek R1大语言模型的Agentic AI系统——法律思维(Legal Mind),旨在优化法律工作流程并最大限度地降低法律行业的运营成本。实验结果表明,该系统在法律文档处理效率(提升60.8%)、服务成本控制(降低42.6%)以及决策预测准确率(99.5%)等关键指标上表现优异。此外,该系统还展现出强大的实务处理能力,单日可完成150万份法律文档的分析任务;在实际应用于律师事务所和企业法务部门后,平均降低运营成本达40%。这些实例证实了开源大模型在法律专业领域应用的可行性以及在构建智能化法律服务体系方面的实用性。
DeepSeek类大模型产品在法律领域的应用已展现出广阔前景,并快速落地实践。可以预见,此类技术将催生一系列创新型法律产品。然而,这一进程仍然面临若干本质性追问:其一,法律活动特别是司法裁判活动,对事实认定、法律适用的准确性特别是结果公正性的要求是首位的,每一个错误都会对司法权威造成冲击,而DeepSeek类大模型在分析、预测方面的准确度到底如何?其二,司法权威的本质来源始终是关于司法公正的价值判断与社会共识,基于数据驱动的硅基智能能否真正理解、提炼、归纳碳基人类在司法实践中形成的复杂规律,尤其是需要创造性裁量并构建裁判准则时,这一问题还有待讨论。同时,社会心理层面对“AI法官”替代人类法官的接受程度也值得关注。
二、法律大模型推理性能的实证审思
在上述原则性的探讨之后,有必要对当前法律大模型分析、预测的科学性及准确性展开具体审思。对于法律分析而言,其科学性、准确性大致可以从专业性、严谨性、逻辑性三个维度进行考察。目前相关产品主要可分为两类,一类为接入DeepSeek的通用大语言模型,以其中的A模型为例;另一类为专注于法律领域的垂直大语言模型,可进一步区分为B类模型与C类模型。本文主要探讨法律类AI模型,故此,下文的分析更多着眼于B类模型和C类模型,适当关注A模型。B类模型中的DeepSeek-R1基于DeepSeek-V3架构进行垂直优化,采用“多联并发、智能筛选、多维校验”技术方案,整合了包括GPT4o-mini、文心一言4.0等在内的多模型协同机制。其核心检索系统底层模型升级至DeepSeek-V3,架构在保持训练稳定性的同时,显著提升了训练效率,并具备超长文本处理能力与本地化部署的优势,有助于提升系统在法律知识库管理、复杂法律文书解析及司法趋势分析等专业场景中的应用效果。通过将DeepSeek的算法体系与四十年来积累的法律专业数据库进行深度融合,B类模型有效缓解了传统法律工作中信息过载与效率低下的问题,并初步构建了人机协同的新型工作模式,为法律行业的数字化转型提供了具有示范意义的实践范式。C类模型是由某大学自主研发的720亿参数原生法律大模型,摒弃了传统的通用模型微调路径,依托自建高性能计算集群从零开始训练。C模型采用独创的“多角色扮演式法律深度思考数据合成方法”,通过三阶训练法显著提升了法律推理能力。2025年5月发布的C模型强化版,在原有混合奖励机制基础上,进一步构建了精准度更高的法律推理数据集,依托高频次的法律咨询与法律推理互动,结合创新的交互式记忆回溯模块,使最新版本在法律专业性、逻辑严密性、司法实践适配性等方面的性能得到显著增强。
笔者选取上述法律大语言模型产品作为测试对象,具体方法是针对同一民间借贷纠纷问题,结合LegalBench部分评估标准,从专业性、严谨性、逻辑性三个维度对三种法律大语言模型进行对比分析。下文即是对相关测试的评析。其一,在专业性层面,三个模型均体现出对核心法律框架的熟悉度,但在法条援引深度与案例结合度上存在差异。B类模型中DeepSeek-R1以细节执行见长,不仅精准引用《民法典》《民事诉讼法》《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》等关键条文,还提供了可直接操作的诉讼工具(如起诉文书模板)和量化计算标准(计算利息的利率和期限起止点)。C类模型则长于构建体系化的司法论证,具体体现为:援引《民法典》第143条与第668条论证借贷合意及口头协议的有效性;依据《民间借贷司法解释》(法释〔2020〕17号)第16条明确举证责任分配规则,界定当被告主张款项性质为“投资款”时的举证责任归属;严格适用《民法典》第188条,对未约定还款期限的情形明确时效起算点为“权利人可以行使权利之日”(即催告之日),并指明3年时效的限制性规定,展现出成体系的法律要件整合与司法思维闭环。相比之下,A类模型虽在条文援引层面较为全面,涵盖借款合同定义(第667条)与诉讼时效(第188条)等内容,并对“投资款”与“借款”的定性争议提出了“固定利息符合借贷特征”的判断,但其对指导性案例的使用仍停留在抽象层面,未能如B类、C类模型一样将具体案情与裁判要点进行对照,法律解释的生动性与说服力不足。其二,在严谨性层面,三者均系统分析了争议焦点、证据收集、诉讼策略等核心问题,但在问题剖析的全面性与风险提示的周密性上呈现差异。B类模型展现出更强的结构化分析特征,其回复采用分层递进的逻辑结构:从基础证据(转账记录、微信催款记录)、补充证据(证人证言、录音录像等)到诉讼策略(起诉前准备、庭审主张要点、法律后果)逐层展开,并特别提示用户注意证据不足、诉讼时效届满及优先调解等风险,形成了清晰完整的风险防控链条。此外,B类模型对证据收集给出了具体的操作指引,如要求整理“包含债务人承认借款或未否认债务(如‘暂时没钱还’‘再宽限几天’)的聊天记录”,大幅提升了用户操作的可复现性。C类模型则更侧重实务细节,建议通过公证增强电子证据效力,特别强调电子证据的留存规范,如强调微信聊天记录需保留原始载体,且转账记录与催款记录之间能够互相印证,否则仅有转账备注不足以认定借贷关系。针对争议焦点,C类模型指出,原告应重点提取聊天记录中对方承认债务的内容,若被告主张款项系投资款,则需由其就“达成投资合意”承担举证责任,从而符合《最高人民法院关于适用〈中华人民共和国民事诉讼法〉的解释》(法释〔2022〕11号)第91条关于“主张法律关系存在的当事人,应当对产生该法律关系的基本事实承担举证证明责任”的规定。此外,在操作细节规范方面,C类模型强调转账凭证应包含“收款人账号尾号、转账时间”等关键要素,这与实践中法院对大额转账的审查标准相符。相较之下,A类模型提供了多种解决方式,除普通诉讼程序外,还提出可“向债务人住所地法院申请支付令”的特别程序,但A类模型对“投资款抗辩”的法律分析较为简略,未能深入展开。其三,在逻辑性层面,三个模型均展示出清晰的论述结构,但层次衔接与表述流畅度存在差异。B类模型采用模块化设计思路,构建了“法律依据与核心争议点—证据收集与固定—诉讼策略与步骤—风险提示与建议—文书模板—后续操作指引”的完整逻辑链条,每一部分均以标题引导,内容相扣。B类模型首先基于《民法典》第667条的规定明确本案纠纷类型,继而推导出需要收集电子转账凭证、书面催款记录等关键证据,随后对应设计出包含财产保全在内的诉讼方案,最后提示可能存在的诉讼风险,逻辑链条严密且易于用户跟随。C类模型突出“事实认定—法律要件分析—程序操作指引”的实务推理路径:先厘清基本事实,再分析抗辩能否成立,最后给出“调取银行流水—公证固定电子证据—提起诉讼”的标准化流程建议,其关于事实认定和法律适用部分的分析与法院审理民间借贷案件的审查要点与逻辑高度吻合。此外,该模型通过评估胜诉可能性,并据此给出财产保全建议,从风险预警到执行保障,构成完整的服务链条。A类模型则以“关键证据收集与固定—法律主张要点—法律程序选择—风险提示与建议—参考法律依据”为主线,虽创新性地引入“支付令”这一特别程序的新观点(与B、C模型相比而言),但因该程序在实践中易因债务人异议而终结,实用性不强;在“诉讼策略”部分,A类模型将“本金与利息主张”与“对方抗辩应对”并列论述,未进一步区分主次,导致逻辑重心稍显模糊。
总体来看,A、B、C三类模型虽存在差异,但差距小于预期,这可能与其底层技术均基于DeepSeek系列模型有关。三者共同反映出当前法律大模型在民间借贷纠纷领域已能够体系化梳理法律关系并提供框架性建议,但在应对证据链薄弱、情节模糊等复杂情境时,仍缺乏深层次推理与灵活调整策略的能力。具体而言,B类模型的回复更注重结构分析的完整性,凭借翔实的法律条文引用、紧密的案例结合、层次分明的结构设计,在专业性、严谨性与逻辑性上均展现出较高水准,尤其在风险提示与操作建议上实现了理论性与实用性的平衡。C类模型则更贴近实务推演逻辑,在理论准确性和操作可行性方面表现良好,尤其在证据链闭环构建与程序风险预判方面展现出明显优势。A类模型在信息整合方面具有竞争力,但在法律分析的深度和系统性风险防控提示方面略逊于B、C两个模型。
上述产品各有其技术创新与应用价值,但存在的共同问题为应用的非广泛性,即适用场景有限、渗透率不足。这引发了一系列深层疑问:这是否意味着中国法律界对AI技术仍持审慎观望态度,实际接受程度有限?是否反映出现有产品在功能与质量上尚未真正契合法律实践的需求?此外,这些产品在技术架构与功能设计上存在差异,它们是否均可归类为DeepSeek类大模型?其推理能力、输出精准度与场景适配性是否处于同一水平?对此,笔者的基本判断是,目前国内真正意义上的垂直法律大模型仍较为稀缺,重要原因是缺乏业界的充分投入与研发,既有相关法律产品,往往是对通用大模型的“套壳式”使用,实际上往往未展开“精准式”研发,缺乏针对具体法律场景对模型的深度优化。究其实质,开发优质法律垂直AI产品,除具备基础算力与模型架构之外,更需融合法律知识“蒸馏”技术,契合法律推理特性的参数调优机制,覆盖立法、司法、执法全流程的高质量法律语料库。此外,还需突破法律逻辑形式化建模、裁判规则量化重构等底层技术瓶颈。事实上,在GPT横空出世后,国内即展开对适配于中国法律应用的垂直领域大模型的探索,仅在2023年就开发了十余款基于“通用模型底座+法律数据微调”模式的法律垂域大模型。但实验结果显示,尽管部分法律大模型在某些特定场景中表现良好,但整体上并未展现出超过GPT类通用大模型的潜在优势。因此,尽管当前法律大模型在技术提升与局部应用上取得了一定进展,但其整体能力仍存在明显局限,尚未达到支撑复杂司法决策的成熟度。在这一现实条件下,关于法律人工智能的根本定位问题有待深入探讨。
三、大模型时代法律AI定位:“辅助工具”还是“决策主体”?
随着人工智能的发展进入大模型时代,以大语言模型为代表的AI技术正逐步渗透至法律实践的核心环节。在此背景下,一个关键问题亟待厘清:法律人工智能是否可能突破既有辅助性定位,被赋予独立的法律主体地位?要回应这一问题,需结合当前法律大模型的实际能力与法律实践的内在要求进行深入辨析。本文的基本观点是,尽管以DeepSeek为代表的大模型展现出显著的司法辅助价值,但其技术本质与司法裁量的内在要求仍存在难以弥合的差距。当前阶段,法律大模型仍适合定位为“智能助手”,至于其未来能否真正承担“AI法官”的职能,则仍需通过持续的技术演进与实证进行检验。
(一)法律大模型在司法领域的应用进展
在具体应用层面,包括DeepSeek类的AI法律技术应用已经展现出显著的技术优势。该类技术借助自然语言处理技术,能够精准匹配案件特征,从包括最高人民法院在内的全国各级人民法院审理的3500余份生效裁判文书以及指导性案例、公报案例等权威案例中,智能推送具有参考价值的类案,自动提炼核心争议问题并形成裁判要点,提升权威案例的参考效能。此外,依托大模型的深度学习能力,该类系统还可辅助法官生成高质量的法律文书。以某中院应用的AI系统为例,其已具备法律关系识别、争议焦点分析、证据链构建等功能,支持全案由辅助系统阅卷和提取信息,同时能够生成案情报告、对法律文书纠错和推送类案。这些技术可广泛应用于法官的案件阅核和文书审查环节,有效辅助事实认定与法律适用正确性判断,提高院庭长阅核案件的准确性和全面性,切实减轻法官的事务性工作负担。
现有研究表明,基于大语言模型的法律人工智能系统已能够通过多阶段推理架构实现相当程度的法律逻辑建模。如美国宾夕法尼亚大学等高校的联合研究团队开发的法律推理引擎(LegalReasoner),使用大语言模型(LLMs)并整合法律领域特定知识,以提高法律判决预测能力。该系统的完成主要包括四个关键阶段:一是通过对比学习技术在大量法律文献上对大语言模型进行预训练,实现法律知识灌输;二是使用图神经网络识别相关判例和法规,进行案例法检索;三是运用分层注意力机制完成多层次法律论证;四是运用生成对抗网络生成形式合理且内容合法的裁判文书。在实证层面,该系统在国内外典型司法数据集上均表现出优于传统模型的预测精度(平均准确率提高7.8%),尤其在处理涉及多重权利平衡的复杂案件时展现了潜在优势。
事实上,在大型语言模型进入司法领域之前,人工智能技术已在公共服务与公共决策中逐步展开应用。近年来,随着以DeepSeek为代表的大模型逐渐接入司法系统,我国多地法院积极探索人工智能司法的创新应用,拓展人工智能在审判流程中的应用广度与深度。例如,上海法院率先推进数字法院建设,以大数据驱动审判流程重塑和智能化升级,构建了710个数据模型并将其嵌入办案系统,实现从个案纠错到系统防错、被动监督到主动预警的转变,有效提升司法质效、统一裁判尺度,并为“全国一张网”司法信息化的建设贡献了“上海智慧”。深圳法院自主研发的AI全流程辅助审判系统,可实现立案、阅卷、庭审、文书生成智能化,试运行期间辅助立案29.1万件、生成文书1.16万份,显著提升审判效率与司法服务效能。此外,广东省湛江市司法局与DeepSeek技术团队合作,突破了法律语义理解、多模态交互等关键技术,将其应用于智能案件处理系统,大幅优化了司法工作流程。由此看来,尽管对大模型在司法领域实际效用的全面评估尚待深入,但包括DeepSeek在内的人工智能技术已作为新兴要素,在智慧司法建设中展现出广泛的应用潜力,并取得初步成效。更进一步地,此类大模型还可辅助司法决策,例如通过预测特定事实情境下的裁判结果,为法官提供多元视角和推理支持,也可用于裁判结果的自动校验,帮助法官评估初步结论是否与既有裁判标准或法律原则发生偏离,从而对结果作出相应修正。
(二)法律AI作为决策主体的局限与法理约束
技术层面的进步并未从根本上消解人们对其作为裁判主体正当性的质疑。法律大模型的底层逻辑建立在概率关联和统计范式之上,通过上下文词元条件概率加权采样产生序列,其结论源于对当下与历史数据的归纳和对经验的习得。这种结果生成机制导致其无法整体掌握人类对全案事实综合认定的能力,也难以真正理解复杂情境中所需的多维度权衡与决策的思维过程。例如,法律推理引擎(LegalReasoner)的开发者通过错误分析发现系统所犯错误的类型主要为事实认定错误与法律适用错误,其次是情境理解不充分和复杂推理能力不足;这反映出法律人工智能系统在提取和解释案件关键事实、理解和应用法律规则以及把握法律本质中价值判断与社会经验要素等方面仍有所欠缺。另有研究团队对包括DeepSeek-R1和OpenAI o1在内的9个大语言模型的法律推理能力进行了系统测评,发现即便这些模型已是当前性能最强大的代表,其在处理新提出的、更复杂的法律论证与推理任务,例如涉及多被告案件的法律判决与推理论证时,仍表现不佳;尤其在应对道德争议、理解专业法律术语以及执行复杂法律推理等方面存在明显局限。由此可见,在面对新型、案情复杂或存在规则冲突的案件时,大模型无法像人类法官那样通过法理阐释、目的性扩张或原则权衡等方式给出说理充分的确定性裁判,而只能依赖已有法律文本的统计模式进行“插值”推测,其输出结果一定程度上缺乏可论证性和法律正当性。需要指出的是,在法律推理“大前提(法律规则)→小前提(事实认定)→结论(裁判结果)”的三段论结构中,DeepSeek等大模型能有效辅助大前提的检索与解释,但在小前提的事实认定方面仍难胜任。复杂案件的事实认定,可能需要采用证据论证与故事评价的综合形式开展法庭调查和法庭辩论,以最大程度地接近经验事实。这需要依赖法官的社会经验、常识推理、价值判断与心证形成等复合能力。当前模型虽能处理结构化证据,却难以理解证据背后的语境含义、证人的微表情与语气变化,更难以识别当事人陈述之间的矛盾与隐含漏洞。
从法理角度审视,审判权作为由国家授予法官的专属职权,具有不可委托、不可让渡的法定属性,若盲目依赖人工智能,甚至将AI输出直接作为裁判依据,轻则构成对审判职责的偏离和懈怠,重则意味着对法定职权的放弃,背离以审判为中心、以法官为责任主体的司法权运行规律。法律人工智能参与司法决策同样会引发责任分配模糊的问题。传统的司法责任体系建立在“权责一致”的原则基础上,要求行使裁判权的主体同时承担相应的司法责任,而在法律人工智能的参与下,责任主体是算法设计者、技术提供商、法院管理机构还是承办法官,有待厘清。此外,当前法律监督机制难以适用于法律AI系统。DeepSeek类大模型虽在算法透明性上有明显改进,但其生成的裁判理由仍难以被有效审查和评价,当事人的上诉权和救济权等难以得到实质保障,故而不加限制地使用法律大模型进行司法,可能冲击司法的公信力。
实践理性是司法裁判的本质,其法律思维特点是将僵化的法律条文转化为鲜活的法、运动的法、对人有实际意义的法。这需要裁判者在长期审判实践中形成的“法感”“裁判智慧”以及对法律精神、社会现实与人情冷暖的整体洞察,这种能力远超形式逻辑的范畴。相较之下,当前主流的大语言模型,如GPT系列或DeepSeek,其推理机制仍具有显著的形式主义特征——侧重于从文本中识别和演绎法律规则,而难以整合法外因素做情境化判断。而司法裁判的本质远不止于逻辑推演,更涵盖经验法则的运用、公共政策的考量、情理法的融合乃至社会关系的修复,这些都要求裁判者具备道德意识、人文关怀和对个案特殊性的敏锐洞察。并且,法官在裁判说理过程中,会自觉或不自觉地融入其知识结构、价值前见与司法理念,这一过程实质是对话性、动态性的。而这些能力恰恰是AI系统目前无法具备的。正因如此,人工智能可作为司法的辅助工具,但无法替代也不能替代人类在法律解释和道德判断中的核心作用。
(三)构建新型“人机协同”的决策机制
基于前述分析,审判权在本质上与当前技术条件下尚无法让渡给人工智能。应对法律实践中固有的“不可计算性”以及达成法律原则与个案正义间的动态平衡,应由“碳基人类”而非“硅基机器”来完成。在当前技术条件下,法律AI系统应作为辅助司法工作的“智能工具”,而非取代人类法官的决策主体。其发展路径应着眼于构建人机协同的新型司法模式,即在人类法官始终保持最终裁量权和价值引领的前提下,借助人工智能技术提升裁判效率、增强法律适用的一致性。必须认识到,大模型时代更值得讨论的是如何更好地实施人机协同的审判。有学者对此展开了一定讨论,提出了以信任者与信任对象的沟通互动为出发点,将司法人工智能从内部办案工具拓展为外部沟通工具,推动人机协同法律议论的充分展开。笔者认为,我们不仅要关注具体案件审判中的人机协同,而且应在整体层面构建AI与法律人的协作机制。这一观点与最高人民法院所倡导的“人工智能辅助审判原则”相呼应,即在充分发挥技术增效的同时,确保法官对裁判过程和结果的主导性和最终决定权。具体而言,这一模式可以从内部证成与外部证成两个维度展开,既充分发挥人工智能在数据处理与形式推理上的优势,又始终坚持法官在价值权衡与最终决断中的主体地位。在内部证成层面,人工智能可以注入技术理性,承担大量基础性、重复性的法律工作。技术理性的特点在于它的运作完全排除了情感、欲望等影响,而只服从“必然律”。因而对于事实清晰、规则明确或争议较小的案件,AI系统能够通过自然语言处理技术快速梳理证据材料,自动匹配相关法条与案例,生成初步的法律意见书或裁判草稿。特别是在类案检索、证据链逻辑验证、裁判尺度统一等方面,人工智能展现出显著的技术效能,有助于减轻法官事务性负担,提高司法效率。以类案检索为例,作为统一裁判尺度、防范裁判偏差的重要机制,传统人工或者弱智能的类案检索模式受限于信息处理能力,往往难以全面、精准和高效地与案例匹配。而DeepSeek凭借其强大的自然语言处理与语义理解能力,可实现对海量裁判文书的智能挖掘与分析,不仅能够为法官提供更精准的参考案例,还可辅助完善论证链条,增强裁判的逻辑完备性与说服力。然而需认识到,AI的工作集中于形式性推理与概率化预测,其结论建立在对历史数据的统计学习之上,尚未具备理解法律原则深层价值的能力。
内部证成固然是整个论证过程不可或缺的一环,不过相比之下,外部证成更为重要且更为棘手,因为其涉及个案法律前提之价值判断及论证问题。在实际司法中,三段论的大前提和小前提往往并不表现为既定的因素,而需要法官在事实与法律秩序的相关部分之间反复考量。与AI依规则计算的“机械性”推理不同,人类推理以能动性为内核,涵盖“奠基关系”“区分好坏”“负责任”等直观特征,且它是一种“有目的的循规”活动,受“探知求真”目标指引。正因如此,法律决策的本质决定了其无法脱离人类理性的参与:面对法律模糊、规则冲突或涉及重大伦理价值的案件,裁判活动必须引入目的解释、利益衡量与社会效果评估等办法,此时AI提供的初步结论仅可作为辅助素材,真正的决断仍需依靠法官的专业知识与司法智慧。例如,当AI基于数据统计给出某一量刑建议时,法官仍需结合具体案情,考量被告人的主观恶性、悔罪表现、损害修复情况等诸多因素,进行综合评判。此外,在裁判文书的最终说理部分,法官须对是否采纳AI结论作出明确回应,并展现其价值判断与论证过程,使裁决结果既符合法律规范,也契合社会公平正义的整体期待。值得注意的是,内部与外部证成并非截然分开,在实践中常交织进行。人工智能生成的初步论证可为法官提供逻辑框架与数据参考,而法官在价值判断过程中形成的思路与结论也可反馈至AI系统,驱动其进一步调整与学习。这种人机互动、多轮反馈的协同机制,能够在提升裁判效率的同时保障决策质量,也有助于提升人工智能系统在复杂司法语境的适应性,促进其持续学习与优化。
当然,人机协同的有效运行离不开制度体系的规范与引导。无论是AI输出的可靠性,还是法官最终的裁量权,都应当在法律框架和监督机制下行使。这意味着需要建立相应的审计标准对AI算法进行约束,明确人机互动中的责任分配,同时保障当事人对AI参与的知情权和异议权。当前,AI工具的“幻觉”问题是制约其广泛、有效应用的关键瓶颈。近期,律师盲目使用和依赖生成式AI工具导致工作失误的事件有所发生,而这种“鲁莽”行为很有可能导致将虚假材料纳入司法程序的严重后果。为此,需要配套建立双重风险防控机制:既要通过“法律语言—机器语言的转换框架”确保AI输出的专业性,又要设置严格的人工复核程序防范算法偏差,从而在提升效率的同时确保案件裁判质量。此外,还应构建科学的、能够客观衡量AI系统法律专业性、司法适用性、裁判公正性的法律大模型评估指标,以确保技术在提升司法效率的同时能严守法治底线,为法律AI健康发展提供标准化指引。
整体而言,人机协同审判模式的有效运行,本质上依赖于技术、人类与制度三者之间的良性互动与规范制衡:AI系统依托算法生成初步论证材料与预测性分析,为司法判断提供逻辑与数据层面的参照,但同时其输出须始终置于法律体系的规范性框架之下,并服从法官的专业审查与价值判断;法官作为审判权的实质主体,需要负责对AI生成内容的审查与转化、对法律规范的解释与适用以及履行充分说理义务,其在裁判实践中形成的理性反馈又可进一步推动技术系统的迭代与优化;法律规范体系则扮演着“元规则”的角色,既为AI系统的嵌入与应用设定合法性边界与技术伦理要求,也为法官的裁量行为提供权威性依据与问责机制,并在人机交互的实践中被持续解释与续造。未来,如何系统性地深化DeepSeek等大模型技术与法律实践的融合,进一步完善这一协同架构,还有待时间来验证。
结 语
当前,以DeepSeek为代表的开源大模型为法律生态的智能化转型提供了新的技术路径,其在法律检索、文书生成及裁判预测等场景的应用已展现出实践潜力。然而,必须清醒认识到,受限于现有技术本身的局限性、科技企业参与人工智能司法应用可能带来的风险以及司法活动特有的专业性和复杂性,大模型与法律实践的深度融合究竟能走多远还不能完全确定。鉴于“硅基”AI对“碳基”人类的行为模式与思维难以充分把握,当下大模型类AI还存在不少问题(如“AI幻觉”),未来也未必能很好地克服诸多重要问题,因此应当坚持“人机协同”“以人为本”的基本立场,在确保人类司法主体决策权的前提下,实现效率提升与质效保障的有机统一。具体而言,当下DeepSeek等大模型技术仍处于快速迭代演进阶段,其算法性能与应用边界正在持续拓展。未来随着模型架构的优化升级、法律数据质量的提升以及跨学科研究的深入,大模型技术可能更加精准地契合法律实务的专业需求。在此发展趋势下,“人机协同”模式中机器的参与广度和深度或将逐步拓展,对此我们应当保持审慎而开放的态度。但同时需要警惕,相关技术应用可能遭遇上面提及的大模型无法精准解决复杂问题等瓶颈。如四川大学研究团队近期就揭示出AI缺失的系列核心能力,如过分强调内部推理,忽视了与外部环境的交互,导致模型在遇到不完全信息问题时不懂“装懂”。由于外部环境的交互在法律应用场景中至关重要,因此,我们可以认为,当前及将来都没有绝对可靠的法律大模型,我们应始终恪守法律大模型应用的辅助性定位,以技术可靠性为前提建立透明的算法决策机制及配套的保障救济机制,由此在合理范围内稳步推进法律生态的渐进式优化,实现司法效能与公正价值的协同发展。






