律页科技 Logo
首页
解决方案
效能律所私有AI中枢AI 智能作业系统
品牌AI影响力升级数字人代运营
资源观点
资源文书资源法律导航
观点法律社区律页声音
有关律页
团队介绍加入律页联系律页
律页科技 Logo
首页
律页

产品与解决方案

首页律所私有AI中枢AI 智能作业系统AI 影响力升级 (GEO)AI数字人代运营

资源与观点

文书资源法律导航法律社区律页声音

关于律页

团队介绍加入律页联系律页

用户协议

数据使用声明Cookie使用政策文档发布协议隐私条款用户服务条款

关注我们

律页公众号

律页公众号

律页微博

律页微博

2023-2026 北京律页网络科技有限公司版权所有ICP经营许可 京B2-20254773京ICP备2023007930号-4京公网安备11010502056436号
北京律页网络科技有限公司 联系方式: 400-966-9558地址: 北京市朝阳区新华科技大厦13层1316室
全部问题
话题
话题
标签
榜单

海律说AI|竞争法视角下人工智能数据集的保护路径探究——以“人工智能语音数据集案”为例(下)

科技应用
专业人士
发表于 2025 年 09 月 08 日修改于 2025 年 09 月 08 日

来源:海淀律师

发布日期:2025年09月08日    


作者

北京盛汉律师事务所

肖敬仁、姜怀舒、姜雪莹

声明

本文出于学术和实务研讨之目的,仅代表笔者个人观点。

一、企业维权思路

近年来激增的数据权益纠纷案件[1]体现了数据经济与实体经济的持续深度融合,给司法实践带来了新的挑战,也为身为创新主体的企业提供了清晰、稳定、可预期的行为规则。

(一)权益保护路径探索

1.“数据集”本身不能依据绝对财产权进行保护

《中华人民共和国民法典》第一百二十七条规定,法律对数据、网络虚拟财产的保护有规定的,依照其规定。《中华人民共和国数据安全法》第七条规定,国家保护个人、组织与数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展。技术进步使得人类可以在短时间内获取、分析大量非结构化数据,数据集通过对原始数据进行提炼、整合、分析、处理,实现超出数据简单相加的价值,产生了独立的利用和交易价值,已成为重要的财产权益。无论从法律规定还是实践层面均可以看到数据集的财产性利益。

前文所述案例中终审法院针对是否可以将案涉数据集类推绝对财产权请求保护的论证非常清晰。终审法院认为,民法典明确的民事主体可享有的财产权益类型包括传统上的物权、债权、知识产权、股权及其他投资性权利和有一定经济价值的权利和利益,如数据、网络虚拟财产等。现行法律的财产权益类型可分为以物权、知识产权为代表的绝对财产权、以债权为代表的相对财产权和以有一定影响的商品名称、包装装潢等为代表的其他财产性法益。对侵害其绝对财产权的行为——提起诉讼,亦可对违反合同约定的行为——主张违约责任,还可对损害其财产性法益的行为——提起反不正当竞争之诉。不属于绝对财产权范畴的财产性法益的权益人不得类推适用其他绝对财产权类型寻求司法保护。民法典第一百二十七条的规定属引致规范和宣示条款,尚未将“数据”作为一种类型化的民事权利(即绝对财产权)而规定其权利内容,在缺乏法律明确赋权的情况下,不可依据民法典第一百二十七条之规定要求将涉案数据集类推绝对财产权请求保护。可见,司法实践中承认数据集的财产性利益,但对于数据权益的保护无法仅依据民法典实现,仍要结合其他现行法律继续探索。

2.开源数据不能归于“商业秘密”进行保护

《中华人民共和国反不正当竞争法》第九条规定了侵犯商业秘密的4种行为[2],其中商业秘密指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》第三条规定,权利人请求保护的信息在被诉侵权行为发生时不为所属领域的相关人员普遍知悉和容易获得的,人民法院应当认定为反不正当竞争法第九条第四款所称的不为公众所知悉。该司法解释第四条[3]第一款第三项、第四项规定,如果该信息已经在公开出版物或者其他媒体上公开披露的或属领域的相关人员从其他公开渠道可以获得该信息的,有关信息为公众所知悉。结合上述法条,“为公众所知悉”的判断标准并不需要被“广而告之”,而是应该看是否为其所属的特定领域的相关人员普遍知悉和容易获得。从这个角度来看,开源数据集在网站等公共空间提供下载渠道,部分会一并提供训练方法,此时开源数据集应该被认为能够被所属领域相关人员直接获取,属于因开发者的主动公开失去秘密性,不能作为商业秘密受到保护。

3.归于“著作权保护客体”

《 中华人民共和国 著作权法》第十五条规定,汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品,其著作权由汇编人享有,但行使著作权时,不得侵犯原作品的著作权。数据集通常是原始数据经筛选、清洗、脱敏等分析加工程序后获得。实践中,要综合判断数据集的结构、分布方式、整体布局等是否可以体现出独特构思。如果数据集在展示方式及布局编排等方面具有独特构思,符合著作权保护客体中的汇编作品的要求,权利人可以据此维护权益。

4.归于“反不正当竞争法第二条规定的行为”

通过反不正当竞争法第二条规制主体行为是现有案例中最为常见的保护路径[4]。反不正当竞争法第二条规定,经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。《最高人民法院关于适用 〈 中华人民共和国反不正当竞争法 〉 若干问题的解释》第一条规定,经营者扰乱市场竞争秩序,损害其他经营者或者消费者合法权益,且属于违反反不正当竞争法第二章及专利法、商标法、著作权法等规定之外情形的,人民法院可以适用反不正当竞争法第二条予以认定。因此,可以通过反不正当竞争法第二条规制的行为应包括以下要件:一是双方具有竞争关系;二是主张权利的一方享有应受反不正当竞争法保护的合法权益;三是行为违反法律和公认的商业道德;四是行为扰乱市场竞争秩序,损害其他经营者或者消费者合法权益;五是行为属于违反反不正当竞争法第二章及专利法、商标法、著作权法等规定之外的情形。要件一的“竞争关系”并不严格要求双方同处于某领域的相同赛道,只要所面向的用户群体、提供的服务内容、开展的经营活动等有重合之处,即属于具有竞争关系的同业经营者[5]。要件二意味着权利人付出实质性投入且数据集具有一定经济价值,收集、处理等过程应当合法合规。要件四中的合法权益应当结合经营者实质性投入情况、竞争优势地位、交易机会及由此产生直接经济利益、未来机会利益等因素进行判断。

二、企业合规措施

(一)开源方合规措施

1.数据获取

确保数据集采集、使用符合个人信息保护法、GDPR等隐私法规。

(1)自建数据集,需在数据采集前通过APP弹窗、网站声明等将隐私政策告知用户,明确说明:

①采集目的、采集范围、使用方式;

②提供用户拒绝授权的选项,并确保拒绝不影响基础服务。

(2)若引用第三方开源数据集,需核查其隐私声明:

①确保开源数据集商用符合开源协议条款,避免授权冲突;

②在第三方开源社区等数据获取平台建立“协议标签”机制,对每个数据集标注授权类型(如CC BY-NC、MIT、GPL等),并自动提示商用限制;

③遵守合法拥有或者控制数据的主体在网络爬虫排除标准(Robots协议)或网页中所告知的可爬取的范围以及其他应遵守的义务;

④不存在利用破解网站加密规则、伪造身份认证信息、非法获取权限等技术手段突破或绕过网站设置的反爬技术;

⑤不存在妨碍被收集经营者的正常经营,或不合理地增加其运营成本、妨碍或破坏其系统的正常运行的情况,应提前考虑被抓取网站日访问量来设置合理的访问频率;

⑥警惕“隐含隐私风险”的数据(如车牌、人脸等),即使标注“匿名”,也需评估模糊、加密等去标识化手段是否彻底。

(3)购买协议、合作协议等获取的数据集,应对授权文件进行全链路核查:

①数据提供方对于数据来源应当做合法性的承诺;

②若数据集由多个来源混合而成,需分别核查每个子集的授权。

2.数据加工

(1)加工过程: 关注去标识化与脱敏技术的应用,切断数据与自然人的关联,避免隐私泄露及知识产权纠纷(如未经授权使用受保护的创作内容)。具体而言,涉及个人信息要替换敏感词,确保单一字段无法识别个体,组合字段需额外混淆;针对图像、语音等应进行模糊处理,尽量提取基本特征,避免直接触发版权纠纷。

(2)衍生品管理: 明确基于开源数据集开发的模型、算法等衍生成果的知识产权归属,避免与原数据集授权冲突。

①技术隔离机制:对开源数据集进行实质性修改(如混合自有数据、添加噪声、重构数据结构),使衍生数据与原始数据集形成显著差异。

②内部合规审查:在代码注释、技术文档中明确标注开源数据集引用来源及授权类型,避免因“遗忘声明”触发协议违约。

③建立保护机制:对于具有创新性和商业价值的数据产品,要及时申请专利、商标或著作权等知识产权保护。

(3)知识产权声明与协议选择: 在数据集文档中明确标注版权信息、协议条款及使用限制。针对不同风险等级的开源协议,制定差异化管控策略。

3.登记存证

(1)数据来源与处理过程存证

通过区块链、可信时间戳等技术固化数据合规性证据。

①区块链存证:通过区块链技术对数据集或衍生品的哈希值、来源、加工过程进行存证,确保数据来源可追溯、权属清晰。

②可信时间戳:在合规性审查报告、用户隐私政策更新记录上附加时间戳,记录关键节点。

(2)数据权属登记存证

企业应选择具有权威性、可靠性和合法性的登记存证平台。可以考虑使用国家认可的电子数据存证平台,如国家版权局的中国版权保护中心等,数据资源或数据产品还可以到各地区的数据交易所进行登记、挂牌。这些平台能够提供专业的存证服务,记录关键节点。

尽管受限于当前的法律规定,《数据知识产权登记证》并不具备不动产登记证一样的强效力,但实践中已有这类登记在无相反证据的情况下可作为数据集收集行为合法的初步证据,因此在条件允许的情况下,完成数据登记可以在一定程度上帮助企业避免后续的权属纠纷。

(二)使用方合规措施

1.协议审查

企业在适用开源数据集或模型前,需深入了解开源协议所属类型、附加限制,从需求出发,在数据质量类似的情况下,选择传染性更弱、约束较小的数据集,选择使用数据集即代表同意严格遵守开源协议的相关约定。由于引用数据集的授权协议可能随原作者或社区情况更新,企业应当定期关注所用原始数据的开源协议,准备同类替代或自采数据等备用方案,实现动态响应。

2.知识产权侵权预防

对数据集进行技术检测,识别是否包含受版权保护的内容。在产品文档中完整保留原始数据集的版权声明,明确标注二次开发内容的知识产权归属。

3.数据安全合规

对数据集进行安全扫描,检测潜在漏洞。建立数据分类分级制度,对个人信息和重要数据实施额外保护措施,包括但不限于加密存储、定期备份等方式。若数据集涉及跨境传输,需根据《促进和规范数据跨境流动规定》完成安全评估并签订标准合同。

4.业务管理合规

制定企业《开源数据集使用管理办法》,明确申请、审查、使用、销毁全流程规范。定期组织员工培训,强化合规意识。部署开源协议合规监控系统,实时跟踪依赖库的协议变更。建立数据使用审计日志,记录数据集的调用时间、频率及用途,以备监管审查。

三、结语

高质量数据集是企业构筑竞争壁垒的决胜关键,也是企业重要的战略资产。我国高质量数据集供给市场潜能巨大,尽管当下依然存在供给动力匮乏、供需关系失衡的情况,但是随着数据保护路径的持续探索和逐步规范,数据集供需双方有望实现良性互动,进一步激发市场活力。AI时代企业在数据集供给市场的身份并非一成不变,“需求端”和“供给端”的身份可以动态切换甚至并存,如何兼顾数据集的安全和流通,开拓数据集应用场景,实现数据集价值,是企业应当关注的重点问题。企业应当以“合规前置、技术隔离、证据固化、动态响应”为原则,在收集、加工、存证、动态管理四个核心环节形成闭环,“严进严出”,共同构建安全稳定的数据集供给环境,实现共赢目标。

参考文献:

[1]秦元明,谢甄珂.数据权益司法保护路径选择和保护规则系统化构建[J].数字法治,2025,(02):136-144.

[2]《中华人民共和国反不正当竞争法》第九条:“经营者不得实施下列侵犯商业秘密的行为:(一)以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密;(二)披露、使用或者允许他人使用以前项手段获取的权利人的商业秘密;(三)违反保密义务或者违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密;(四)教唆、引诱、帮助他人违反保密义务或者违反权利人有关保守商业秘密的要求,获取、披露、使用或者允许他人使用权利人的商业秘密。经营者以外的其他自然人、法人和非法人组织实施前款所列违法行为的,视为侵犯商业秘密。第三人明知或者应知商业秘密权利人的员工、前员工或者其他单位、个人实施本条第一款所列违法行为,仍获取、披露、使用或者允许他人使用该商业秘密的,视为侵犯商业秘密。本法所称的商业秘密,是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。”

[3]《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》第四条:“第四条 具有下列情形之一的,人民法院可以认定有关信息为公众所知悉:(一)该信息在所属领域属于一般常识或者行业惯例的;(二)该信息仅涉及产品的尺寸、结构、材料、部件的简单组合等内容,所属领域的相关人员通过观察上市产品即可直接获得的;(三)该信息已经在公开出版物或者其他媒体上公开披露的;(四)该信息已通过公开的报告会、展览等方式公开的;(五)所属领域的相关人员从其他公开渠道可以获得该信息的,将为公众所知悉的信息进行整理、改进、加工后形成的新信息,符合本规定第三条规定的,应当认定该新信息不为公众所知悉。”

[4]秦元明,谢甄珂.数据权益司法保护路径选择和保护规则系统化构建[J].数字法治,2025,(02):136-144.

[5]《海淀法院审结涉互联网医疗平台数据搬运案》,载微信公众号“北京海淀法院”2025年5月12日,https://mp.weixin.qq.com/s/N5i1FbTuHIun4QDP9AOYmw.

欢迎投稿

“海律说AI”专栏征文活动长期有效 ,请大家将稿件以电子邮件形式发送至投稿邮箱:wufan0114@163.com。邮件主题按照“投稿+题目+单位+姓名”的格式填写。

相关话题
  • 申卫星 :计算法学 · 中国法学自主知识体系建设的创新探索
  • 左飞|智慧司法中人工智能的隐形偏见及其应对
  • 江海洋:从直觉到证据:大模型法律语料库与法律解释客观化
  • 《中国青年报》丨上海:从办好一个案子到破解一类难题
  • 迎接真正的法律AI时代|69名学者发起第一届“法律规则计算机表达”比赛
  • 上传裁判文书直接找相似类案的办法,全都在这儿了