人工智能训练数据的版权争议及合规方案

2025.02.11 张传磊顾劭宇周峻宇

2025年1月20日，中国人工智能模型DeepSeek-R1正式发布，以远低于其他AI巨头的研发成本做到性能比肩投入数亿美元的OpenAI o1模型，仅上线半个月左右，DeepSeek应用便登顶15个国家和地区的应用商店下载排行榜，为AI行业投下了一颗“震撼弹”，再一次引发了人们对AI大模型崛起的关注。

目前，以文生图、文生文、文生视频等为创作形式的生成式人工智能最为普遍，其基于现有大规模数据集及模型，根据使用者的输入，生成新的文本、程序代码、图像、视频及音频等，能够应对多种场景需求，其模型本质系通过学习大量数据来发现数据中的模式及规律。因此，必须保证丰富及优质的数据供应作训练素材，才能使人工智能生成更准确、更细节的结果。

利用海量数据训练人工智能模型过程中，难以避免使用到他人享有版权的作品作为训练素材。由于模型训练通常涉及数据的收集、清洗、标注、调整等处理，使用文本、音频、视频、图片等受我国《著作权法》保护的作品种类时，难免陷入构成侵犯他人复制权、改编权等著作权的争议。随着AI行业飞速发展，如何平衡保护创作者权益和推动AI产业发展的天平已经成为不可回避的问题，而人工智能训练数据的版权争议正是这一矛盾的体现。

本文将结合国内现行立法及在先判例，参考国外相关立法实践，梳理人工智能训练数据的版权争议并探讨合规方案。

一、人工智能训练数据的版权争议

目前，各界对于人工智能训练数据行为是否构成著作权侵权存在诸多争议，大致可以归为支持及不支持构成侵权的以下两类派别：

（一）AI训练数据不构成侵权——主张“合理使用”或“非表达性使用”

人工智能模型训练需要摄入海量数据，考虑到各项成本，从事AI研发的企业或平台在实践中不可能做到对他人享有版权的训练素材去逐一取得授权，但若未经授权使用版权作品又将面临侵权风险，如此人工智能技术的发展便被套上了使用数据成本与侵权风险的两难枷锁。

为更快地促进我国AI产业发展，避免错失机遇，该等观点主张应将人工智能训练数据的行为纳入我国《著作权法》规定的“合理使用”情形。其主张人工智能作为普惠性技术，其模型对训练数据的使用属于对这一底层技术资源的发掘，具备公共属性，受益者为公众，并且从结果论上，仅作为输入端的训练行为并未进行商业营利，未影响到版权作品的正常使用或侵害他人合法权益，应纳入合理使用的范畴¹。这一观点得到了2024年9月杭州互联网法院在“奥特曼起诉触手AI侵犯信息网络传播权”案件中判决书的支持。

此外，部分观点认为，人工智能在训练数据的过程中，对版权作品的使用，并非像人类一样基于某种特定观念或角度来阅读、欣赏或理解作品，AI模型通常会将训练数据作为可区别的独立对象，进行机械的分析拆解，从而分析归纳数据中的逻辑规律、语义模式等，其不产生类似于人类那样对作品表达的阅读及理解行为，并非现有《著作权法》框架下的使用作品行为，因此自然不会构成现有法律框架下的著作权侵权行为²。

以上观点更多是站在促进AI产业发展，偏向维护AI从业者利益的立场，认为人工智能训练数据行为不构成侵权。

（二）AI训练数据构成侵权——不应归为“合理使用”的场景

与之相反，也有观点主张：人工智能训练过程中需要将大量数据输入到系统中以供训练学习，将大量有版权的作品复制并传输到计算机内存或存储设备中，甚至有可能继续增加副本反复训练，已构成对原作品的复制操作。AI模型通过对有版权的作品学习分析，将原作品表达转换为其他形式表达或生成实质性相似的新内容，或在不同设备、网络平台中传输共享，这些行为在未经版权人许可的情况下，均已构成对作品复制权、改编权及信息网络传播权的侵犯³。在现行《著作权法》未明确将AI模型训练数据列为合理使用情况下，对合理使用盲目做扩大解释有失偏颇，AI模型未经授权使用版权作品规模庞大，情节严重，危害广泛，不仅不应予以豁免，反应当予以严厉制裁，否则对花费巨大成本获取授权，重视数据合规工作的其他企业而言也是不公平的。对于上述“非表达性使用”的观点，其也认为是否属于“思想-表达”二分法的“表达”并不取决于使用作品的主体，作品的表达即为各种要素的组合搭配，无论是人的感知或是机器的逻辑，其对作品的使用均是通过作品要素的排列组合所理解、阅读，均属于对作品“表达”的使用，若坚持“非表达性使用”的主张，则会将天平过于倾斜向AI产业方，而严重威胁到现有的版权保护框架⁴。此外，扩张合理使用有悖《著作权法》的激励初衷，合理使用的制度目的在于通过限制著作权人利益从而促进知识流通和产生，如若将数据训练行为全部归入合理使用范畴，反而会因对权利人排他性权利的剥夺令开发者能低成本、无节制地抓取和使用作品，进而使“机器生成内容市场”替代“人类创作作品市场”，导致版权人生产积极性受挫。

这类观点更偏向于维护著作权人合法权益，维持现有版权保护框架的立场，主张人工智能未获授权训练数据的行为应构成侵权。

二、人工智能训练数据版权问题的国内立法及判例

我国现行法律法规对人工智能训练数据的版权问题没有直接、具体的规定，少量相关内容分散在各规范文件中。2023年7月公布的《生成式人工智能服务管理暂行办法》第七条规定：“开展预训练、优化训练等训练数据处理活动的，不得侵害他人依法享有的知识产权”⁵，《生成式人工智能服务安全基本要求》进一步规定：“数据用于训练前，应进行知识产权侵权风险识别，不使用存在知识产权侵权风险的数据进行训练；应建立知识产权问题的投诉举报渠道；并在用户服务协议中告知用户使用生成内容的知识产权风险及关于知识产权问题识别的责任与义务”。我国《著作权法》目前列举的合理使用及法定许可场景中，并没有能直接涵盖人工智能训练数据的条款。

同时，伴随生成式人工智能的蓬勃发展，我国正在积极地探讨通过立法保障其训练数据的相关权利，2024 年 4 月发布《网络安全技术生成式人工智能预训练和优化训练数据安全规范（征求意见稿）》⁶，要求 GenAI 服务提供者不应在预训练和优化训练中使用存在知识产权侵权问题的数据。2024 年 4 月发布《人工智能示范法 2.0（专家建议稿）》⁷，第 18 条提出建设人工智能领域数据库的倡议，以建立人工智能训练数据合理使用制度保障人工智能领域数据要素供给。2024 年 7 月发布《人工智能法（学者建议稿）》，第 24 条提出了人工智能训练数据的合理使用规则，即当人工智能开发者使用他人享有著作权的数据进行模型训练时，如果该使用行为与数据原本的使用目的或功能不同，且不影响该数据的正常使用，也没有不合理地损害数据权利人的合法权益，则该使用行为属于合理使用，人工智能开发者可以在表明来源的前提下对数据进行使用⁸。上述文件体现了我国对于人工智能训练数据的预期规制方向。

司法领域，早在2023年10月，四位插画师就因发现小红书平台推出的AIGC工具Trik生成的图片在色调、构图、风格等与自己作品相似，而向小红书及Trik软件主体公司提起诉讼，指控其未经授权采集存储其作品并将其作为AI训练素材，生成类似图片的行为侵犯了其复制权、信息网络传播权等多项权利。这是我国首件AI模型训练数据版权纠纷案件⁹。近期，国内人工智能公司MiniMax也被爱奇艺指控其未经授权使用了爱奇艺享有版权的影视素材进行AI模型训练，导致其名下AIGC工具“海螺”生成了侵犯其作品版权的内容。值得一提的是，MiniMax在海螺AI的用户协议中已事先明确“用户在使用海螺AI软件时上传的内容均应系原创或已合法授权”、“海螺AI对自有内容享有知识产权”、“由此导致的侵权风险和责任由用户承担”等格式条款10，此案件的最终判决必然会对AI模型训练数据的行为定性以及法律责任作出示范性的裁判，对AI模型训练行为的版权争议具有里程碑性质的指导意义。遗憾的是，两件案件目前都在进一步审理当中，并未有任何进展，令人拭目以待。

此外，广州互联网法院和杭州市中级人民法院于2024年判决了两件上海新创华文化发展公司诉某AI公司侵犯其“奥特曼”系列作品著作权的案件¹¹，是我国目前为数不多的AIGC著作权纠纷的判决。相较于前述案件，这两件案例更多侧重于判断被告公司的平台责任，其是否履行了关键词过滤、内容审核的平台义务。但值得一提的是，一方面，在杭州互联网法院审理的“奥特曼起诉触手AI侵犯信息网络传播权”案件中，法院认定：“在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下，可以被认为是合理使用”¹²。另一方面，在杭州市中级人民法院对上述案件的二审判决中,法院将人工智能服务提供者的过错认定划分为了输入端和输出端的注意义务两个维度，并认为若要求人工智能服务提供者在输入端的训练数据活动中对每一份数据逐一审查验证，既不具备可行性，也会加重开发监管负担，阻碍人工智能发展。以上裁判对我国司法领域现阶段对 AI训练版权数据是否属于合理使用作出了示范，值得讨论与研究。

由上述案例可见，人工智能训练数据的版权问题越发常见，相关纠纷愈发增多，现行法律法规已难以应对AI行业的迅速发展及随之而来的版权争议，无论是AI平台方还是创作者或公众都亟需更加完善的法律法规及规范指引，来更好地保障各方的自身利益，以确保在AI技术发展的大潮下平衡好利益的天平。

三、人工智能训练数据版权问题的域外立法实践

相较于国内，其他国家及地区对人工智能训练数据的版权争议有相对更多的探索。日本在2018年修订其《著作权法》时引入了第三十条之四，规定“在非享受目的使用作品的场景下，原则上，用于信息解析的行为属于权利限制，不应构成侵犯著作权。但存在两个前提条件，一是在必要范围内，二是不得不当损害著作权人利益”¹³，此外，其第四十七条之五规定：“与计算机数据处理及提供该等结果相关的轻微利用等，在必要限度内属于著作权的限制范围”，这对于更聚焦于技术层面而非复制传播作品内容的AI模型训练数据的行为无疑开通了绿灯。但由于其修订时AI技术尚处于起步阶段，在AI技术突飞猛进的数年后，这种法律框架遭到了创作者和部分学者的严厉批评。2024年3月日本发布《AI与著作权法的思考》，将人工智能的使用划分为了“学习开发阶段”及“生成使用阶段”，并强调并非所有训练行为均为合理使用，特殊场景下仍构成侵权¹⁴。但总体看，日本的政策更倾向于让利于促进AI产业的发展，削弱对作品权益的保护。

欧洲在人工智能训练数据版权方面，主要通过欧盟层面立法及成员国国内法的转换适用进行规范，欧盟颁布的《单一数字市场版权指令》规定了文本和数据挖掘的版权例外情形，包括“以科学研究为目的”及“在作品合法获取且权利持有人未有效保留权利”等情形¹⁵，此外，《欧盟人工智能法案》虽未直接界定训练数据版权归属，但规定训练数据需符合版权等法律，且创建数据集训练AI模型适用TDM例外，要求企业确保数据来源合法、标注版权信息，以规范数据使用。但从立法层面看，欧盟对人工智能训练数据的版权保护相对其他法域更加严格，保护力度更大。但2024年9月德国汉堡地区法院审理的LAION案中，LAION未经授权使用摄影师作品用作AI训练数据，法院认定其构成“以科学研究为目的例外”，不构成侵权¹⁶，为AI训练数据版权纠纷的审理提供了参考，说明在司法实践中，欧盟对AI产业的监管仍存在权衡及松动。

美国版权法第107条规定了判断合理使用需考虑的四个要素¹⁷，其可适用于人工智能训练数据的版权判定，若人工智能训练数据并未具有商业性质，未损害原作品的市场价值或未使用原作品的实质性表达或核心内容，可能会被认定为合理使用。目前，美国已经有多起相关案例，2024年3月，包括《纽约时报》《芝加哥论坛报》等多家媒体起诉微软和OpenAI，指控其非法复制数百万篇文章训练其AI产品，包括Copilot及ChatGPT等工具生成了内容高度相似的假文章¹⁸；Getty Image起诉Stability AI案中，Stability AI被指控未经许可复制超1200万张图片及元数据训练其AI模型Stable Diffusion，甚至篡改版权管理信息¹⁹，虽然目前这些案件尚未有进展及结果，但鉴于美国版权法赋予了判定合理使用的灵活四要素，法院最终作出何种裁决都具备可能性。目前，在其他相关案件中，美国司法对合理使用四要素的具体评判态度并不明朗，如在Westlaw诉Ross Intelligence案中，法院在论证第一要素时指出，转换性使用是否成立取决于实际使用性质，若人工智能是通过学习语言模式生成新文本，而非刻板复制，可认定为转换性使用²⁰。然而，考虑到美国作为AI产业龙头的先导地位，很有可能会以让利于AI产业发展，否定训练数据的过度版权保护为其主流倾向。

四、应对人工智能训练数据版权争议的合规方案

根据当前国内立法情况及司法实践来看，“合理使用”似乎是现阶段处理人工智能训练数据版权纠纷的相对优选。

目前部分学者主张的“非表达性使用”极容易动摇依据“思想-表达”二分法所建立的版权保护体系，而另一种权利限制-法定许可制度目前以明确、穷尽的形式在我国《著作权法》中列举了具体的适用范围，其现有情形不包括人工智能训练数据，也未设置兜底条款，若要将AI训练数据的情形列入法定许可，需要颁布相关法律文件，立法成本及时间成本更大。并且，在法定许可制度下，AI从业者即使无需获取授权，但仍需要支付报酬，面对海量的训练数据，需支付的报酬数额不仅难以计算，并且需要支付的巨额成本无疑也会极大限制其产业发展，同样达不到促进AI产业发展的目的。相比之下，“合理使用”制度在现有法律框架下能最大程度维持双方利益的天平，无需突破现有立法框架，其兜底条款也为日后面对新形势、新变化留下了灵活的裁判空间。面对目前AI行业的飞速发展，通过适用“合理使用”原则在不突破现有版权制度前提下，适当让利于科技进步，更符合当下时代需求²¹。杭州市中院审理的“奥特曼诉触手AI侵犯信息网络传播权”案件的判决书中也支持了这一主张。然而，合理使用制度的适用仍存在诸多难点，例如如何对合理使用目的进行拓宽解释，如何从制度及技术层面规范合法访问从而保障著作权人利益，训练数据复制后的保密及处理等问题²²，人工智能训练数据的合理使用制度体系仍需要进行进一步的规范和完善。

从企业合规角度，“合理使用”制度的适用绝非意味着对AI平台未经授权使用版权作品的责任豁免，AI平台企业仍需遵从《生成式人工智能服务管理暂行办法》的规定，在数据训练、数据处理过程中不得侵犯他人的知识产权。

一方面，仍应鼓励AI平台采取合法渠道购买，取得合法授权的方式获取训练数据，对明确标明版权出处的作品应主动获取授权或支付报酬，增强数据及版权合规意识，避免陷入后续纠纷；另一方面，AI平台作为互联网平台，其虽可以援引“避风港规则”进行抗辩，但同样受相关法律法规中平台责任规定的约束，应对平台内的数据内容履行基本的审查义务，并以合理方式提醒平台使用者对知识产权义务的遵从，应设立平台内的举报维权平台，对平台内受到举报或明显侵犯他人作品版权的内容及时予以删除下架；同时引入版权声明机制，根据用户的反馈及要求从训练数据体系中撤销相关版权作品。

此外，为避免纠纷，在尚未出台明确的合规指引或政策的当下，AI平台可优先使用无版权的作品或公共领域中不受著作权法保护的内容作为训练素材，或使用合成数据代替版权数据进行训练，如商汤科技发布的“日日新5.0”通用大模型，该模型采用混合专家架构，在模型训练阶段使用的均是合成数据²³。鉴于很多作品的内容都具有实质替代性，选用以上方式同样可以达到类似效果的训练产出。

同时，AI平台可与相关数据供应商进行积极合作，部分人工智能行业头部企业正采取更为高效的合作方式以应对尚不明晰的人工智能训练数据规制情况，如Perplexity AI 公司2024年 7月推出“出版商计划”²⁴，该计划提出 Perplexity AI 在引入合作伙伴版权数据的同时，需要向合作伙伴反哺一定程度的收入分成及提供必要的技术支持；再如由全球版权交易所 Global Copyright Exchange （GCX）、日本图片库提供商 Pixta、德国数据市场Datarade等发起的“数据集提供商联盟（DPA） ”²⁵，旨在建立推广符合各国现行著作权法精神的人工智能版权数据开发利用标准和法律框架，积极推动促进人工智能企业和版权数据提供商合作。企业可实时关注上述商业合作运行情况，选取与自身规模、发展方向相适应的合作模式进行应用。

[1] 徐小奔:《技术中立视角下人工智能模型训练的著作权合理使用》，载《法学评论》2024年第4期。

[2] 陶乾:《基础模型训练的著作权问题:理论澄清与规则适用》，载《政法论坛》2024年第5期。

[3] 万勇:《人工智能时代著作权法合理使用制度的困境与出路》，载《社会科学辑刊》2021年第5期

[4] 张新宝、卞龙:《生成式人工智能训练语料的著作权保护》，载《荆楚法学》2024年第5期

[5] 《生成式人工智能服务管理暂行办法》，国家互联网信息办公室5第15号，2023年8月15日实施

[6] 国家市场监督管理总局、国家标准化管理委员会《网络安全技术生成式人工智能预训练和优化训练数据安全规范（征求意见稿）》

[7] 人工智能治理创新论坛《人工智能示范法 2.0（专家建议稿）》

[8] AI善治论坛人工智能法律治理前瞻《中华人民共和国人工智能法（学者建议稿）》

[9] 《多位创作者起诉小红书偷画师作品“炼”AI模型涉侵权，已获立案》，载微信公众号“知产前沿”，2023年11月30日

[10] 《视频平台诉AI大模型训练侵权打响“第一枪”》，载微信公众号“湖北省版权保护中心”，2025年1月13日

[11] 广州互联网法院（2024）粤0192民初113号；杭州市中级人民法院（2024）浙01民终10332号

[12] 杭州互联网法院（2024）浙0192民初1587号民事判决书

[13] Copyright Law of Japan, Copyright Research and Information Center, https://www.cric.or.jp/english/clj/cl2.html

[14] 日本文化審議会著作権分科会法制度小委員会「AIと著作権に関する考元方について」。

[15] See Directive (EU) 2019/790 of The European Parliament and of The Council of 17 April 2019 on Copyright and Related rights in the Digital Single Market and Amending Directives 96/9/EC and 2001/29/EC

[16] See Hamburg Regional Court (Germany), Case No,3100227/23

[17] See 17 U.S.C.§107.

[18] See Bobby Allyn, 'New York Times' sues ChatGPT creator OpenAI, Microsoft, for copyright infringement, npr, https://www.npr.org/2023/12/27/1221821750/new-york-times-sues-chatgpt-openai-microsoft-for-copyright-infringement

[19] See Getty lmages(US), Inc.v, Stability Al, Inc., 1:23-cv-00135,(D. DeFeb 03, 2023) ECF No.1, p.18.

[20] Thomson Reuters Enterprise Centre GMBH and West Publishing Corp., v. Ross Intelligence Inc. 2020-cv-006131-SB

[21] 易继明，《大模型语料训练合理使用问题研究》，载《中国版权》2024年第6期。

[22] 包赛君,肖冬梅：《生成式人工智能训练数据的著作权法因应：欧盟版权例外规则及其对我国的启示分析》，载图书馆论坛，2015年第1期

[23] 《率先完成“云、端、边”全栈布局！大模型性能对标GPT-4 Turbo，商汤“日日新SenseNova 5.0”全面升级》，载商汤科技官方网站，2024年4月23日

[24] AI搜索引擎Perplexity与出版商启动收入共享计划，载科学网。2024年8月1日

[25] 张何灿,易成岐,郭鹏,等：《高质量AI数据体系面临的数据版权困境、应对策略解析与实施路径研究》，载农业图书情报学报2024年第9期