我们于上周发布了一篇《版权“合理使用例外”:AIGC平台模型训练合规边界初探》文章,讨论了大型语言模型训练端在使用数据与版权作品时,适用“合理使用例外”的可能性。巧的是,2025年6月24日,美国加州北区联邦地区法院(下称“法院”),就原告ANDREA BARTZ, CHARLES GRAEBER,以及 KIRK WALLACE JOHNSON(下称“三位作家”)诉被告ANTHROPIC PBC(下称“Anthropic”)案件1(下称“Anthropic案”)有关“合理使用”事项作出第一项关键即决判决2。该案中,美国法院首次裁决未经作者授权、复制从合法来源获取的作品副本用于训练大型语言模型之行为构成合理使用。
美国法院在该案中的观点也与我们上周发布的文章中一些判断不谋而合,这也进一步印证了未来各国立法、司法进一步重视技术创新与权益保护的深层次价值平衡,促进AIGC平台发展的趋势。所以,我们梳理了Anthropic案件事实、以及美国法院对于“合理使用”原则的分析与适用,用例证方式再次探讨“版权合理使用例外”。
一、Anthropic案件事实概览
被告Anthropic是一家由前OpenAI员工于2021年1月创立的人工智能软件公司。其核心产品是一项名为Claude的AI软件服务。Anthropic使用从图书馆中挑选的书籍和其他文本来训练支撑不同版本Claude的大型语言模型(LLM)。当用户输入文本提示词时,Claude会快速以模仿人类的阅读和写作的方式相应,输出文本。
原告三位作家认为,Anthropic从盗版来源及合法购买渠道复制了原告书籍,并将这些复制件汇集构建成其自有中央资源数据库(Central Research Library)。Anthropic进一步复制了该数据库中书籍复制件的不同组合及子集,纳入各类“混合数据集”,并利用这些混合集训练多个大语言模型(LLMs)。并且,即使在Anthropic已决定不使用某些书籍复制件训练LLMs或永不再将其用于此目的后,Anthropic仍将这些复制件作为永久性通用数据库予以保留。Anthropic的所有复制行为均未经原告授权。
2024年8月,三位作家提起诉讼,指控Anthropic未经授权擅自复制其作品构建数据库,并复制这些作品以训练LLMs,从而侵犯其版权。
二、“合理使用”原则的分析与适用
法院首先明确了应基于《美国版权法》第107条3规定的“合理使用”四要素进行审查,并分别针对每个要素如何适用于复制作品副本用于训练LLMs、以及用于建立中央资源数据库之行为进行分析。
1、要素一:使用的目的和性质
根据《美国版权法》第107条第1款4,法院明确该要素即是指“该使用的目的和性质,包括该使用是否具有商业性质或用于非营利性教育目的”。
对于复制作品副本用于训练LLMs之行为:法院认为使用版权作品训练LLMs以生成新文本之目的与性质具备典型转换性(exceedingly transformative)。Anthropic训练LLMs并非为镜像复制或取代原作品,而是能够创造性创作出截然不同的作品。因此法院倾向于该要素构成合理使用。
对于复制作品副本用于建立中央资源数据库之行为:法院基于作品的不同来源分别进行论述: i)就印刷版转换为数字版的已购图书馆书籍副本而言,法院认为由于Anthropic购买了相关印刷图书、且并未向任何外部人员提供,Anthropic有权以印刷格式保留这些作品的副本、选择以数字格式留存,并存放在中央资源数据库中,基于此目的进一步制作的训练LLMs副本;ii)就盗版图书馆书籍副本而言,法院认为复制盗版来源制作的副本不构成合理使用——并认为盗版复制造成的损害无法通过事后购买相同作品副本来消除。
2、要素二:受版权保护作品的本质
根据《美国版权法》第107条第2款5,此要素“要求承认某些作品比其它作品更接近版权保护的预期核心,故当复制前者作品时更难成立合理使用”。法院认为,第二要素主要功能在于协助评估其它要素:揭示涉案作品性质与其衍生性用途性质之差异并揭示所取用每部作品的数量及实质性与该衍生性用途之关联。由于Anthropic承认所有原告的著作——无论非虚构或虚构类均已出版——且均含表达性元素。法院认为Anthropic在该要素项下对所有副本的复制均不构成合理使用。
3、要素三:使用部分的数量和实质性
根据《美国版权法》第107条第3款6,合理使用要素系被告所用版权作品“被使用部分的数量及实质性”。此要素关键在于确认使用比例是否“相对于复制目的具有合理性”。因此,法院会首先对照作品本身考量,继而更重要地去考量对照拟实现的转换性目的。
对于复制作品副本用于训练LLMs之行为:由于三位作家并未指控Claude服务的输出与原告作品之间存在任何可追溯的联系。因此,用于训练支撑Claude的LLM的复制行为具有合理性。
对于复制作品副本用于建立中央资源数据库之行为:同样,i)就印刷版转换为数字版的已购图书馆书籍副本而言,由于Anthropic在购买书籍后并将其转换为电子版本,Anthropic享有将相关书籍留存在在中央资源数据库的权利。ii)就盗版图书馆书籍副本而言,法院认为Anthropic完全缺乏复制书籍副本的任何权利依据,故并不认为其构成合理使用。
4、要素四:该使用对受版权保护作品的潜在市场或价值的影响
根据《美国版权法》第107条第4款7,当复制者提供副本即能取代了版权所有者已经提供或本可以轻易提供的副本的需求时,即不构成合理使用。
对于复制作品副本用于训练LLMs之行为:法院认为用于训练特定LLMs的副本没有也不会取代公众对三位作家作品副本的需求,或者不会以版权法所关注的方式取代。虽然三位作家提出,将其作品用于训练LLMs会导致与其作品存在竞争的作品数量激增。但是法院倾向于认为,此等权益并非受版权法所关注或保护的竞争性权益。版权法旨在推进保护原创作品,而非保护作者免受竞争。因此,法院认为该要素支持构成合理使用。
对于复制作品副本用于建立中央资源数据库之行为:i)就印刷版转换为数字版的已购图书馆书籍副本而言,法院认为格式转换在此要素审查中并不会产生显著的影响,而采取中立观点。ii)就盗版图书馆书籍副本而言,法院认为用于建立中心图书馆且从盗版来源获取的副本显然取代了对作家书籍的需求。因此,法院并不支持盗版库副本适用合理使用。
5、法院意见
在分别分析上述四项要素后,法院进一步基于四项要素以及立法目的进行综合权衡8。法院整体上认为:1)对于复制作品副本用于训练LLMs之行为而言,除版权作品性质要素外,其余要素均支持构成合理使用。用于训练特定LLMs的副本构成合理使用具备正当性;2)对于复制作品副本用于建立中央资源数据库之行为中:i)将购买印刷库副本转为数据库副本的复制行为而言,虽然不同要素分析意见不一,但由于Anthropic所购印刷副本均已销毁,且其数字替代品并未对外分发,因此亦具有正当性、构成合理使用;ii)对于构建数据库的下载盗版副本不具合理使用正当性,所有要素均指向不支持合理使用。
对于Anthropic已决定不使用某些书籍复制件训练LLMs或永不再将其用于此目的后,若Anthropic意图使用仍需提供独立正当理由,因此Anthropic仍将数据库中的这些复制件作为永久性通用数据库予以保留之行为并不构成合理使用。
三、我们的观察
Anthropic案进一步明确AI训练数据的合理使用边界,各大模型训练主体应注意对于就LLMs训练的输入数据获得合法来源,特别是,美国法院的下述观点值得特别关注:
1、美国法院明确文本类数据训练阶段的“转换性”原则,即使用版权作品训练LLMs以生成新文本之目的与性质具备典型转换性(exceedingly transformative)。若训练后输出内容与原告作品无直接可追溯关联,且未再现原作内容,Anthropic训练LLMs并非为镜像复制或取代原作品,而是能够创造性创作出截然不同的作品。
2、法院提出AI生成内容激增不构成市场替代。法院更倾向于认为版权法旨在保护原创作品,而非屏蔽竞争。法院倾向于认为LLMs提供的新内容,并不会取代公众对于模型训练端输入作品副本的需求。LLMs提供的新内容产生的竞争并不应视为对模型训练端输入作品作家的竞争性或版权权益的损害。
3、美国法院基于“合理使用”的审查仍然采用四要素+个案综合衡平的认定思路。从法院对于“合理使用”的审判思路来看,美国法院仍然倾向于基于“合理使用”的四要素作为认定是否构成合理使用的基础,但是美国法院会进一步在个案中,基于具体被告实施的侵权行为进行分类后,再在上述四要素基础上进一步分析。美国法院并不会因为某个要素并未构成合理使用即全盘否定适用“合理使用”的可能性,而是会最终基于各要素分析结果再进行综合衡平、认定。
四、本案带来的启发
如我们上周发布的《版权“合理使用例外”:AIGC平台模型训练合规边界初探》一文中所述,杭州互联网法院在奥特曼案件9判决中就已经呈现为AIGC平台构建“合理使用例外”的方向性意见,杭州互联网法院认为数据训练的使用行为“聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众”。
在前文中,我们尝试提出,构建AIGC平台模型训练的版权“合理使用例外”,是维系版权保护与技术创新平衡的关键支点,同时期待立法层面能够为AIGC大模型平台提供“合理使用例外”提供支持,并尝试提出针对“例外的例外”。但是值得注意的是,我们亦同意“合理使用例外”亦不应被滥用,而应当有明确的制约情形。
需要说明的是,美国法院针对Anthropic案的裁判,也仅是一项个案的尝试。AIGC大模型平台使用版权作品用于训练是否能够被中国法院或境外法院普遍认定构成合理使用,仍然有待时间的检验。我们将继续关注,并与大家分享。
1. https://www.courtlistener.com/docket/69058235/231/bartz-v-anthropic-pbc/
2. Case 3:24-cv-05417-WHA Document 231 Filed 06/23/25 Page 9 of 32
3. 17 U.S.C. § 107 [T]he fair use of a copyrighted work . . . for purposes such as criticism, comment, news reporting, teaching (including multiple copies for classroom use), scholarship, or research, is not an infringement of copyright. In determining whether the use made of a work in any particular case is a fair use the factors to be considered shall include —(1) the purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes; (2) the nature of the copyrighted work; (3) the amount and substantiality of the portion used in relation to the copyrighted work as a whole; and (4) the effect of the use upon the potential market for or value of the copyrighted work.
4. 17 U.S.C. § 107(1).
5. 17 U.S.C. § 107(2).
6. 17 U.S.C. § 107(3).
7. 17 U.S.C. § 107(4).
8. Campbell, 510 U.S. at 578.
9. 一审:杭州互联网法院(2024)浙0192民初1587号;二审:杭州市中级人民法院(2024)浙01民终10332号
声 明
君合官网所刊登的文章仅代表作者本人观点,不得视为君合律师事务所或其律师出具的正式法律意见或建议。如需转载或引用该等文章的任何内容,请注明出处。未经本所书面同意,不得转载或使用该等文章中包含的任何图片或影像。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。