logo
话题

来源:海淀律师

发布日期:2025年09月05日    


作者

北京盛汉律师事务所

肖敬仁、姜怀舒、姜雪莹

声明

本文出于学术和实务研讨之目的,仅代表笔者个人观点。

一、引言:

人工智能数据集的价值与保护

(一)高质量数据集是企业构筑竞争壁垒的决胜关键

人工智能三要素即数据、算法和算力[1],也是数字经济的核心驱动力。数据是信息的载体,是数字经济的“能源”。算法是处理、分析数据的方法,挖掘数据规律,是数字经济的“引擎”。算力即处理数据、执行算法所需的硬件和软件的综合能力,是驱动数据处理和算法运行的“支柱”。尽管算法和算力在数据处理和应用中不可或缺,但拥有独特数据资产的企业才能够构筑难以逾越的竞争壁垒。

1.数据是算法和算力的基础

算法依赖数据进行训练和优化,深度学习模型需要经海量标注数据后才能达到较高的准确率,数据规模和数据质量存在瑕疵都会导致模型性能失衡。同样,算力的价值体现在对数据的处理能力上,如果处理对象本身不成规模或不具有价值,强大算力将失去用武之地。

2.数据驱动创新,决定商业模式

数据经济的核心在于数据驱动的决策和创新。当下已经广泛应用到各大平台,软件的精准营销、个性化推荐等商业模式的成功,离不开定向数据的不断积累和分析能力的持续优化。在数量激增的AI时代,企业想要突出重围,需要的不是样样通、样样松的“万能补丁”,而是能够打通单一品类并持续深入的“穿云箭”。公开数据的价值是有限的,主流的模型已将其价值消耗殆尽。只有垂直领域的专业数据能够帮助企业更快发掘行业痛点,作出有效决策;专注于行业特定数据训练得到的小模型能在更短的时间内成为“领域专家”,也能反哺企业积累定向数据。从这个角度来看,算法和算力只是工具,而数据才是真正决定商业价值的核心。此外,数据自身也在不断催生新的商业模式,如数据交易、数据服务等,提供了新的降本增效的思路。

3.高质量数据是企业宝贵的战略资产

算法可以开源,算力可以购买,但高质量数据往往具有独占性。数据的积累需要长期投入和特定场景支持,互联网巨头的核心竞争力并非仅在于其算法或算力,更在于其基于自身业务优势积累的用户行为数据、交易数据等独特资源。企业在收集的海量数据的基础上,通过清洗、加工得到垂直领域专业数据,再经专业分析形成企业专属数据和更进一步的专家知识[2]。这些高质量数据集无法依靠爬虫爬取,只有经过行业深度合作和专业处理才能获得。通过实践获取、经过深度处理和知识整理生成的数据集难以被竞争对手简单复制,在某些对于场景化数据集有广泛需求的领域,如医疗、交通、金融等,高质量数据集的价值甚至可能远远超过业界的研究文献,因此成为企业最重要的资产。

(二)高质量数据集的开源现状与保护困境

我国数据资源总量高且增势明显,无论是供给方还是需求端,都存在着极大的市场潜能。2023年,全国数据生产总量达32.85ZB(泽字节),同比增长22.44%[3]。2024年,全国数据市场交易规模预计超1600亿元,同比增长30%以上,其中场内市场数据交易(含备案交易)规模预计超300亿元,同比实现翻番[4]。但是我国高质量数据集供给的场景完善度依然存在较大的提升空间,当前高质量数据集供给动力匮乏、供需关系失衡[5]。究其原因,一是高质量数据集的投入与回报不成正比。此处的投入不仅包含收集、加工过程中的资本投入,由此关联的安全责任风险也让企业对数据集供给持保守态度;二是当前数据的法规政策不够明晰,数据产权定义未统一,尽管司法实践中已经有大量的判例认可了数据集价值并提供了运用现有法规进行权益保障的思路,但是面对数据集权益与安全责任的复杂场景依然缺少可直接落地、贴合现实场景、能够有效解决争议的法律规定。

二、人工智能数据集类型与应用

GB/T 36344-2018《信息技术数据质量评价指标》‌将数据集定义为“具有一定主题,可以标识并可以被计算机化处理的数据集合”。《面向人工智能的数据集质量通用评估方法总体要求(报批稿)》将人工智能数据集定义为“具有一定主题,可以标识并可以用于人工智能训练、验证及测试等处理过程的数据形式”。人工智能数据集内容丰富,种类繁多,依据不同的分类标准可以分为多种类型。常见的分类标准包括:数据形式、数据类型、数据标注情况、数据来源、应用领域、训练流程等,其中高质量数据集还可以依据精细化标注的程度细分为“通识数据集”“行业通识数据集”“行业专识数据集”[6]。本文从实践角度出发,重点讨论按照数据类型标准分类的人工智能数据集[7]。

(一)图像数据集

1.常见数据集

包含数字化的图像,如JPEG或PNG格式的照片、医学影像、卫星图像等[8],不同的图像内容和组织方式应用于各项测试[9]。例如ImageNet按WordNet层次组织图像;CIFAR-10/100分别包含10类和100类彩色图像,可用于快速测试;Labelme含大量标注图像;IMDB-Wiki有人脸及年龄、性别标签;COCO适合目标检测与分割;MNIST为手写数字图像集。

2.应用场景

(1)互联网娱乐:用于自动美颜、直播互动、短视频特效、身份认证等;

(2)安防:实现视频安防监控,如嫌疑人检测、非法事件检测、人流密度检测等,以及入侵报警、门禁消防等功能;

(3)自动驾驶:进行场景语义分割,行人识别,车道线识别,障碍物识别等;

(4)新零售:支持无人售货机、无人超市、虚拟试衣等功能,还可进行顾客购物轨迹分析、顾客行为分析、顾客情绪分析等;

(5)OCR:实现拍照翻译、身份证/驾驶证识别,银行卡识别等;

(6)智能家居:助力智能机器人、智能摄像头、智能管家等产品的开发;

(7)智能制造:用于设备缺陷检测、原料缺陷检测、自动分拣系统、信息物理系统(CPS)等;

(8)智能医疗:辅助医疗机器人、智能诊疗、智能影像识别、智能健康管理等工作。

(二)文本数据集

1.常见数据集:

以文本形式表示的数据,如新闻文章、博客帖子、社交媒体帖子、书籍、网页内容、产品评论等[10]。常见文本数据集包括:预训练语料库(通用与特定领域)、指令微调数据集、人类偏好数据集、评估数据集和传统NLP数据集。传统NLP数据集含情感分析、语义匹配、文本生成等类型。这些数据集广泛应用于舆情监测、语义判断、机器翻译、文本分类等自然语言处理任务,助力模型训练与性能评估。

2.应用场景:

(1)机器翻译与跨语言处理:不同语种之间自动互译,推动翻译网站、翻译app、翻译机等产品的应用;

(2)智能客服与对话系统:用户提出问题,系统根据用户的咨询内容让用户选择更细分的应答模式,再定位到用户的实际场景中,给出具体回答,整个过程呈现漏斗状的筛选。基于对话数据集训练的智能客服,能够处理多数的常见问题,结合用户查询日志能够进一步优化商品推荐话术;

(3)自然语言理解:包括自动问答、情感识别、语义理解等技术,应用于智能音箱、语音助手、智能客服、AI机器人等领域;

(4)情感分析与舆情监控:通过分析社交媒体上的文本数据,了解公众对特定事件、产品或服务的态度;挖掘社交媒体上的热门话题和趋势,基于此为企业决策提供参考;

(5)知识图谱与问答系统:例如利用医学知识图谱辅助医生决策,同时通过结构化数据集还可以实现客户关系智能检索;

(6)文本生成与内容创作:通过定向训练文本生成模型,可以生成新闻报道、文章摘要、对话回复等,完成初步的结构梳理。

(三)音视频数据集

1.常见数据集 [11]

常见音视频数据集有语音识别、语音合成、音乐、动作识别、视频分类、视频理解等类型。语音识别如LJSpeech,包含13,100个音频剪辑;语音合成如VCTK、Aishell-3等;动作识别分类如UCF-101、Kinetics;视频理解如Movienet,广泛应用于对应领域模型训练。

2.应用场景:

(1)语音识别:实现将语音准确转换为文本,广泛应用于智能语音助手、语音输入、转写等场景,未来有望进一步用于身份认证或司法取证的环节中;

(2)语音生成:用于智能客服、有声读物、语音导航等领域,如智能音箱中的语音播报、电子书的有声朗读等;

(3)个人音乐馆:音乐推荐、音乐风格识别、音乐情感分析等,音乐平台可以根据用户听歌历史推荐相似风格的音乐,分析情感元素辅助音乐创作;

(4)动作识别:实现对视频中动作的自动识别和分类,可应用于智能安防监控、体育赛事分析、人机交互等领域,检测异常动作,辅助赛事解说;

(5)视频分类与检索:帮助用户快速找到感兴趣的视频,实现个性化推荐,广泛应用于视频网站、视频搜索引擎等;

(6)视频理解:实现对视频内容的深度理解和分析,可应用于视频摘要、视频问答、视频生成等领域。

(四)数值数据集

1.常见数据集 [12]

数值数据集可大致分为结构化数值数据集、时间序列数据集、矩阵/张量数据集、稀疏数值数据集及地理空间数值数据集。

2.应用场景 [13]

(1)回归分析:可用于房价预测、股票价格预测。例如以波士顿房价数据集为基准用线性回归模型预测房价,输入特征为房间数、面积,输出为连续房价值;

(2)分类任务:用于疾病诊断、垃圾邮件检测。例如经乳腺癌数据集(良恶性分类)训练后可用随机森林模型根据肿瘤特征(如半径、纹理)预测是否为恶性;

(3)聚类分析:实现客户细分、异常检测;

(4)降维与可视化:应用于高维数据探索;

(5)预测与异常检测:支持需求预测、设备故障预警。如企业订单记录可用于销售预测和库存管理,根据历史订单数量、金额等数据,预测未来的销售趋势,合理安排库存;

(6)路径规划与热点分析:包含物流配送优化、疫情传播模拟等。

(五)地理空间数据集

1.常见数据集 [14]

地理空间数据集常见类型有矢量数据集(含点、线、面数据,如城市位置、道路、行政区划)、栅格数据集(如卫星图像、DEM、气象栅格数据)、地理编码数据集(地址数据库、POI 数据)、三维与时空数据集(三维城市模型、时空轨迹数据)等。

2.应用场景

(1)城市规划与管理:土地利用规划、基础设施布局优化。用矢量数据划分城市功能区(如住宅区、工业区),结合三维数据模拟城市天际线。分析交通流量数据(时空数据)优化公交线路;

(2)环境监测与资源管理:森林覆盖监测、水资源管理。用遥感影像(栅格数据)监测森林砍伐,结合矢量数据划定保护区边界,通过气象栅格数据(如降雨量)预测洪水风险;

(3)灾害预警与响应:地震救援、洪水预警。结合实时传感器数据(如余震监测)和基础地理数据(道路、建筑分布)规划救援路线。洪水预警中,用栅格数据(水位、流速)模拟淹没范围;

(4)交通与物流优化:路径规划、物流配送优化。用道路矢量数据和实时交通流量数据(时空数据)计算最短路径,优化配送路线;

(5)公共医疗:疫情传播模拟、医疗资源分配。用人口栅格数据和病例时空数据分析疫情传播趋势,结合医疗设施位置数据优化疫苗分配方案;

(6)精准农业:作物产量预测、灌溉管理。用植被指数栅格数据监测作物生长状况,结合气象数据(如降雨量)和土壤湿度数据优化灌溉计划。

上述列举的数据集多为开源数据集,公共数据与私域数据均有涉及。企业模型的开发、迭代过程必然伴随专项数据集的投喂,受限于企业自身的数据获取能力和数据积累体量,使用开源的人工智能数据集是企业最合算的选择。然而“开源”≠“免费”≠“无约束”,如果未能及时关注到开源数据集的风险点,数据集的供需双方都可能陷入“免费的才是最昂贵的”困境。

三、开源人工智能数据集的商用风险

以某人工智能语音数据集案[15]为例,原告A公司在官网发布“AI数据开源计划1505小时中文普通话语音数据”,两年前曾在官网提供该数据集的精选子集(200小时)的下载渠道和训练方法。被告B公司在其官方网站在标注版权归属方信息的情况下向公众传播该子集,涉案数据集子集累计被下载29次。B公司行为最终被认定构成2019年反不正当竞争法第二条规定的不正当竞争行为。经过终审判决,B公司最终赔偿A公司经济损失10万元和合理维权支出2300元。这个案件的赔偿金额在同类案件中并不算顶格。今年5月北京市海淀区人民法院公布的一起互联网医疗平台数据搬运案,判决赔偿的金额高达230万元[16]。

(一)开源方风险

1.授权协议强传染性

对提供者来说,开源意味着向特定群体公布自己的技术成果,竞争对手可能利用开源数据集反向工程技术,削弱提供方的竞争优势。

2.来源合法性

当开源数据集中包含未授权的第三方内容,或包含未完全脱敏的个人信息,如用户姓名、联系方式、身份证号等,在商用过程中,如果数据处理不当,可能导致这些信息泄露,侵犯用户隐私,引发法律风险和用户信任危机。届时,提供者和使用者将共同面临商誉损失的困境,在经济赔偿等方面或将继续承担连带责任。

3.数据偏差

提供者对开源数据需要长期承担维护成本,尽管如此,想要保障数据集质量依然是一项艰难的工作。不论是数据集初始状态即存在噪声或标注错误,还是在开源过程中因数据脱节造成偏差,随着数据的使用频率将大幅上升,这些错误在应用训练中会被不断强化,影响训练模型公平,输出带有歧视的结论。

(二)使用方商用风险

1.非商用限制

部分协议明确禁止商业用途。常见的如知识共享许可协议(Creative Commons license),即CC许可协议,主要涉及署名(BY)权、继承(SA)权、非商业性使用(NC)权、禁止演绎(ND)权4项权利[17]。若数据集适用CC BY-NC、CC BY-NC-SA、CC BY-NC-ND等许可协议,将其用于商业目的即构成违约。这里的“非商业性使用”通常是指使用行为的主要意图或者指向并非获取商业优势或金钱报酬,判断的重点在于“营利性”。针对设置了商用限制的数据集,不论是通过打包出售数据集或使用开源数据集训练模型后提供收费API等直接盈利的方式,还是利用数据优化推荐系统或利用数据集形成免费的行业报告吸引客户等间接获利的方式,都可能触发非商用的限制。

2.强传染性

使用者如果未能关注到许可证的传染性约束,也可能面临侵权风险。开源数据集通常附带特定的许可证,主流许可证有GPL(GNU General Public License,简称GPL)许可证、LGPL(GNU Lesser General Public License)许可证、Apache许可证、BSD(Berkeley Software Distribution)许可证、MIT(Massachusetts Institute of Technology)许可证等。许可证要求尊重原始著作权人及整个开源项目的著作权,进行版权声明,明确使用许可证类目并保留全文或链接,允许修改和再发布,不对代码质量和软件性能等提供任何保证部分[18]。但在许可自由度、传染性约束及商业限制等条款上存在差异。若协议要求“基于数据集的衍生成果必须开源”(如GPL),但企业将其用于闭源商业产品(如训练AI模型后嵌入付费系统),可能被迫公开核心技术或面临诉讼。

3.授权模糊或冲突

部分数据集可能混合不同来源的数据,如部分来自CC0协议(通过特定的声明方式,作者或版权所有人放弃其作品上的全部著作权和邻接权,将作品贡献于公共领域,使任何人都可以自由地使用、复制、分发、改编甚至用于商业目的,而无需获得原作者的许可或支付费用),部分来自未明确授权的贡献者,甚至可能存在未获授权的个人信息。授权不明也会带来无法溯源的问题,进一步导致数据集内容不可信,为商用“埋雷”。

参考文献:

[1]李爱君.训练数据主体权益保护的新型数据财产权构建[J].政法论丛,2023,6.

[2]《你的数据有多好,你的模型就有多强》,载微信公众号“大数据AI智能圈”2025年4月22日,https://mp.weixin.qq.com/s/E3i-rzYjpJTNfklUhDmvXA.

[3]全国数据资源调查工作组.全国数据资源调查报告(2023年)[R/OL].(2024-05-30)[2025-05-15].https://www.nda.gov.cn/sjj/ywpd/sjzy/0830/20240830191408027390482_pc.html.

[4]新华社.(2025,1月11日).2024年全国数据市场交易规模预计超1600亿元.[新闻报道].https://www.gov.cn/lianbo/bumen/202501/content_6997834.htm.

[5]《我国高质量场景数据集的供给现状与发展策略》,载微信公众号“网信前沿观察”2025年3月25日,https://mp.weixin.qq.com/s/CDWUigVo90aKyDWtej5QGQ.

[6]国家数据局. 国家数据局:分三类建设高质量数据集赋能AI发展[EB/OL]. (2025-04-01)[2025-05-19]. https://www.nda.gov.cn/sjj/ywpd/szkjyjcss/0429/20250429221703099105731_pc.html.

[7]百度开发者中心人工智能算法数据集的类型概览人工智能算法数据集的类型概览[EB/OL]. (2024-01-01)[2025-05-19]. https://developer.baidu.com/article/detail.html?id=3047104.

[8]实在智能. 用于人工智能训练的常见数据集及其特点[EB/OL]. (2024-02-20)[2025-05-19]. https://www.ai-indeed.com/encyclopedia/7472.html

[9]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36.

[10]《LLM文本数据集775TB:覆盖32个领域,444个数据集》,载微信公众号“AI大模型学习基地”2024年6月26日,https://mp.weixin.qq.com/s/TiBqQLR9iy6nlWThfmKSmg.

[11]https://blog.csdn.net/CAU_Ayao/article/details/127324202.

[12]PurStar. 数据类型的多样性:结构化数据、半结构化数据、非结构化数据[EB/OL]. (2020-12-15)[2025-05-20]. https://www.cnblogs.com/purstar/p/14138957.html.

[13]百度开发者中心. 探索机器学习:33个常用数据集解析[EB/OL]. (2024-01-01)[2025-05-20]. https://developer.baidu.com/article/detail.html?id=3331467.

[14]《地理空间数据的定义、收集和应用》,载微信公众号“GIS工具”2023年8月29日,https://mp.weixin.qq.com/s/KcYOfN_DRzDxhmAxCKpCyg.

[15]北京知识产权法院(2024)京73民终546号.

[16]《海淀法院审结涉互联网医疗平台数据搬运案》,载微信公众号“北京海淀法院”2025年5月12日,https://mp.weixin.qq.com/s/N5i1FbTuHIun4QDP9AOYmw.

[17]黄如花,李楠.开放数据的许可协议类型研究[J].图书馆,2016,(08):16-21.

[18]《海律说AI|AI开源模型的法律暗礁:许可证冲突与商用化风险防控》,载微信公众号“海淀律师”2025年4月16日,https://mp.weixin.qq.com/s/24sG1_AzvfuG2z-IMgnhsA.

欢迎投稿

“海律说AI”专栏征文活动长期有效 ,请大家将稿件以电子邮件形式发送至投稿邮箱:wufan0114@163.com。邮件主题按照“投稿+题目+单位+姓名”的格式填写。

法律工作 All-in-One
律页法律工具1
律页法律工具2
律页法律工具3
律页平台
律页法律功能1
律页法律功能2
律页法律功能3
开始免费使用