一、概述
2023年7月13日,国家互联网信息办公室会(以下称“网信办”)等七部门联合发布了《生成式人工智能服务管理暂行办法》(以下称“暂行办法”),将于2023年8月15日正式生效实施。暂行办法在网信办等七部门于2023年4月11日发布的《生成式人工智能服务管理办法》(征求意见稿)(以下称“征求意见稿”)的基础上进行了部分修改,是我国首份生成式人工智能的监管文件。从首次公开征求意见到暂行办法正式发布,仅经历了短短三个月的时间,由此可见生成式人工智能的飞速发展对法律监管的迫切要求。此次修改体现了主管部门就尚处于高速发展的生成式人工智能之审慎包容的立法态度,从政策层面为生成式人工智能的合法合规发展提供支持,也为将来可能的《人工智能法》的出台奠定基础。
本文拟从人工智能的监管原则、开发阶段主要义务、生成内容层面主要义务以及服务提供阶段主要义务等四个修改亮点进行分析。
二、适用范围
暂行办法第二条明确了其规制主体为向“境内”“公众”提供生成式人工智能服务的主体,即将面向境外公众、面向境外非公众、面向境内非公众提供服务的主体排除在外。结合暂行办法第二十条,来源于境外向境内提供生成式人工智能服务的主体,也应受限于暂行办法的相关规定。
情形 | 是否适用 |
来源于中华人民共和国境内向境内公众提供生成式人工智能服务 | 是 |
来源于中华人民共和国境外向境内公众提供生成式人工智能服务 | 是 |
仅向中华人民共和国境外公众提供生成式人工智能服务 | 否 |
相较于征求意见稿,暂行办法在适用范围上规定了例外,即“行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不适用本办法的规定”。因此,如果接入生成式人工智能技术仅用于内部研发或内部使用为目的、且未向境内公众提供服务的,不受暂行办法规制。我们认为,以上例外规定体现了暂行办法对新技术之包容、鼓励的态度。
此外,暂行办法还充分考虑了不同行业监管之特性,指出“从事新闻出版、影视制作、文艺创作等活动另有规定的,从其规定”。我们理解,原则上新闻出版、影视制作、文艺创作等活动仍适用暂行办法的规定,但后续新闻、广电、电影、教育等主管部门将可能结合其行业监管的特性制定更有针对性的监管要求。
三、四大亮点解析
亮点一:确立包容审慎和分类分级监管原则
1)对生成式人工智能服务确立包容审慎和分类分级监管原则
暂行办法第三条指出,“对生成式人工智能服务实行包容审慎和分类分级监管”。但目前暂行办法尚未就分类分级监管提出具体规则与判断标准,暂行办法第十六条明确要求国家有关主管部门“针对生成式人工智能技术特点及其在有关行业和领域的服务应用,完善与创新发展相适应的科学监管方式,制定相应的分类分级监管规则或者指引”。
我们认为,由于生成式人工智能技术在各行业的应用程度具有显著差异,带来的潜在风险等级也存在着不同,因而进行分类分级监管具有必要性。例如在新闻出版业中,利用生成式人工智能技术制造虚假新闻,一旦该等新闻被未经鉴别地大范围传播,将可能造成较大的不利影响。欧盟《人工智能法》(草案)将人工智能应用场景分为最低风险(Low and Minimal Risk)、有限风险(Limited Risk)、高风险(High Risk)以及不可接受的风险(Unacceptable Risk)四个级别,并据此进行分级分类监管。
我们认为,未来我国也可能参照欧盟《人工智能法》进行风险分类和分级管理。现阶段在分类分级监管尚未出台前,企业可以考虑结合即将正式出台的欧盟《人工智能法》分级逻辑,结合行业、应用的场景以及覆盖范围等要素,管控提供和/或使用人工智能服务过程中的风险。特别是,对于其中高风险(High Risk)以及不可接受的风险(Unacceptable Risk)等级的场景,保持谨慎态度。
另外,我们理解我国的分级分类监管也将考虑我国的国情,在社会主义核心价值观、社会公德、舆论属性等方面投入更高的关注。
2)对提供者和使用者均提出了基本要求
暂行办法第四条明确提出“提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,遵守以下规定……”。相较于征求意见稿仅对人工智能服务提供者(以下称“提供者”)提出基本要求,暂行办法将基本要求的义务主体范围扩大至使用者。这个修订有利于划分提供者和使用者的责任。在生成式人工智能服务提供者所提供的服务符合暂行办法等相关法律法规要求的情况下,使用者利用技术从事违法违规行为所造成的损害后果,应当由其自身承担。
例如,在以ChatGPT为首的聊天智能模型在市场上进行流行后,由于此类聊天智能模型在训练和迭代中无法确保每一次都能准确识别出人类的有意诱导,其所输出的内容也无法实现全方位的人工核查,因此国内出现了不少使用ChatGPT模仿新闻格式、撰写虚假新闻的案例。此时使用者如违反了暂行办法第四条的禁止性规定,生成“虚假有害信息”,则使用者应当承担相应的法律责任。提供者虽免于承担上述由使用者造成的损害后果,但按照暂行办法第十四条的规定,提供者发现使用者利用生成式人工智能服务从事违法活动的,仍负有“依法依约采取警示、限制功能、暂停或者终止向其提供服务等处置措施,保存有关记录,并向有关主管部门报告”的义务。
3)凸显对未成年人的保护
暂行办法第十条就未成年人这一特殊使用主体要求提供者履行更高的保护义务,要求其“采取有效措施防范未成年人用户过度依赖或者沉迷生成式人工智能服务”。由于生成式人工智能技术所依赖的数据来源较为复杂、对数据进行追溯也较为困难,因此提供者往往难以100%确保数据的真实性与准确性。而未成年人相较成年人而言对数据、生成内容的辨别能力较弱,暂行办法要求对未成年人提供特殊保护具有合理性。
但暂行办法未就“有效措施”做出明确的规定。参照《未成年人保护法》以及《关于进一步严格管理 切实防止未成年人沉迷网络游戏的通知》等规定,可从以下几方面对未成年人进行保护:一是加强时间管理,根据未成年人社交、场合、用途设置合理和适度的生成式人工智能产品或服务使用时间,落实防沉迷要求;二是加强权限管理,加强实名登记,设立检查年龄的验证机制;三是加强适龄及风险提示,对生成式人工智能产品进行分类并作出提示,防止未成年人接触不适宜的产品或者服务;四是加强投诉举报处理机制,积极处理使用者反馈的不适宜未成年人内容及产品。
亮点二:明确了人工智能开发阶段的主要义务
1)明确训练数据使用的要求
生成式人工智能若想尽可能提高产出结果的准确性,不可避免地需要进行大量的数据训练。暂行办法就生成式人工智能数据训练提出了具体的合规要求,第四条第三款要求提供者“尊重知识产权、商业道德,保守商业秘密……”,第七条要求提供者“依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:使用具有合法来源的数据和基础模型”、“涉及知识产权的,不得侵害他人依法享有的知识产权”、“涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形”“采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性”以及“遵守其他有关规定和有关主管部门的相关监管要求”。此外,暂行办法还就数据训练提出了政策鼓励措施,要求推动“生成式人工智能基础设施和公共训练数据资源平台建设”以及“公共数据分类分级有序开放”。
上述条款要求训练数据有合法来源,不能侵权,但在现实中如何落地执行,则仍需要进一步探讨。以著作权为例,由于数据训练库中的数据往往包含受著作权法保护的内容,因此如何利用该等内容进行数据训练?是否都需要获得权利人的明确授权?这是一个在实践中很有操作难度的问题。具体而言,我们认为需要基于以下角度理解训练阶段的著作权法风险:
从训练内容角度,暂行办法明确不得侵害他人“依法享有的知识产权”,这就排除了不受知识产权保护的内容,如单纯的事实消息、不具有独创性的内容等。生成式人工智能开发者使用上述数据集进行数据训练并不涉及对权利人知识产权的侵犯。尽管如此,相关数据/内容仍可能受《反不正当竞争法》《个人信息保护法》等其他法律法规的保护。
从行为角度,需要分别从内容获取阶段、内容输入阶段及内容输出阶段评估具体的著作权法项下行为。以首例生成式人工智能数据训练版权侵权案1(Getty Images诉Stability AI)为例,在该案中,原告认为被告未经权利人许可,获取与利用版权作品作为Stable Diffusion的训练图像,侵犯了其就图像所享有的版权。Stable Diffusion模型对版权作品的利用可分为两个阶段,一是生成式人工智能模型内容输入阶段,二是生成式人工智能模型内容输出阶段。在内容输入阶段,需将权利人的图像作品进行复制,落入复制权的规制范围。而在内容输出阶段,若生成式人工智能经过处理后所生成的内容与原作品在表达上构成“实质性相似”,则仍落入复制权的规制范围。即使不构成“实质性相似”,而属于在保留原作品基础表达的前提下形成了新的表达,则可能受改编权的规制。另外,根据我们处理类似项目的经验,训练数据获取阶段也可能涉及著作权侵权风险,如未经权利人许可,故意避开或破坏权利人设定的技术措施,抓取他人享有著作权的作品,也同样可能构成《著作权法》侵权。该不适当的内容抓取行为还可能引发不正当竞争风险,甚至涉嫌破坏计算机信息系统罪等刑事风险。
从豁免情形角度,应判断上述利用作品的行为是否构成“合理使用”。美国《版权法》对合理使用的判断遵循“四要素分析法”,即作品新用途的目的和性质,是否对原作品进行转化、受版权保护的原作品性质、新作品中使用原作品的数量和实质性、以及作品新用途是否破坏了原作品的价值和市场。实际上,人工智能使用作品作为训练数据是否属于“转换性使用”存在很大争议,且人工智能所生成的内容很大程度上挤占了被利用作品的原有市场,已经引起原作品著作权人的强烈不满。而我国现行《著作权法》关于合理使用的规定,能适用于生成式人工智能的情形主要有三个,即“个人使用”、“适当引用”、“科学研究”。由于目前生成式人工智能模型最终系针对不特定主体的商业性服务,不符合“个人使用”之目的;而“适当引用”的适用前提为“介绍、评论某一作品或者说明某一问题”,也与生成式人工智能的商业化应用不相符;“科学研究”要求在“学校课堂教学或者科学研究”范围内使用,且“少量复制”的要求明显与数据训练所需要的海量数据存在着矛盾。因此,生成式人工智能使用作品作为数据训练可能难以满足“合理使用”的要求,人工智能开发者进行数据训练仍建议获得训练数据所涉权利人的授权。尽管如此,目前传统的作品事前授权模式在生成式人工智能领域或许难以适用。由于部分原始数据的体量巨大、权属复杂,要求服务提供者在将上述数据用于数据训练前就获得权利人的事先许可,将导致获得授权的过程过于漫长,最终可能的结果便是人工智能仅能就少量的获得授权的数据进行训练,引发算法模型偏见等后果。
鉴于上述,从著作权法角度,我们建议生成式人工智能开发者、提供者:
a) 对用于数据训练的原始数据进行分类,确定需要获得授权的数据及所需获得的权利(结合后续的使用方式)。如已经处于公共领域的内容,属于无需获得著作权授权的数据类型(但仍可能涉及其他权利);尚在保护期内的作品,则属于需要获得著作权人授权的数据类型;
b) 从内容获取阶段、内容输入阶段及内容输出阶段三个阶段评估自身行为的合法性及风险等级;
c) 从便捷性角度考虑,可与拥有庞大的数据库/知识库的经营者达成合作协议,并审查合作协议中的权利保证等条款;
d) 对数据库/知识库内容的权利归属及授权链文件进行分类审查、抽查,合规排摸,以确保使用该等内容进行人工智能训练未超出授权范围;
e) 推动公共训练数据资源平台建设。暂行办法鼓励公共训练数据资源平台的建设,提供者可以关注并积极推动该平台的建成。
2)明确数据标注要求
《互联网信息服务深度合成管理规定》(以下称“《深度合成规定》”)原则性地提及了要加强训练数据的管理,保障训练数据的安全。暂行办法第八条则对数据训练作出了更为细化的规定,包括训练数据标注规则和标注人员的要求,即生成式人工智能服务提供者应“制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作”。
数据标注把需要计算机识别和分辨的图片事先打上标签,让计算机不断地识别这些图片的特征,最终实现计算机能够自主识别。2因此数据标注的精确度在一定程度上决定了人工智能的智能程度,暂行办法就数据标注所作出的具体规则有利于提高生成式人工智能的智能程度,进而增强训练数据的“准确性”。
3)安全评估与备案
暂行办法第十七条就生成式人工智能服务提供者的安全评估开展以及备案进行了规定。此前征求意见稿曾要求生成式人工智能服务提供者在对外提供服务前,均需按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。暂行办法对上述规定作出了较大的调整,明确仅“具有舆论属性或者社会动员能力的”提供者应当开展安全评估,并履行算法备案手续,与《互联网信息服务算法推荐管理规定》以及《深度合成规定》保持一致。
亮点三:创设了人工智能网络信息生成内容的责任主体
1)网络信息生成内容的责任主体
暂行办法第九条明确了人工智能网络信息生成内容的责任主体,规定“提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务”。此前征求意见稿第五条曾要求人工智能服务提供者承担“内容生产者”的责任,该规定意味着提供者应承担知识产权侵权、人格权侵权、个人信息侵权等一系列责任。而暂行办法则将“内容生产者责任”改为了“网络信息内容生产者责任”,并在其后增加了“履行网络信息安全义务”,是否意味着暂行办法将服务提供者的义务范围限缩至“网络信息安全”内,将有待进一步解释。
另外,服务提供者还负有与用户签订服务协议明确双方权利义务,“警示”、“限制功能”以及“保存记录”和“报告”的义务等。
尽管如此,由于生成式人工智能使用场景多元,而该条款所明确的网络信息安全义务不足以涵盖提供者的所有义务,我们建议:
a) 在多个身份重合时,考虑不同身份下应当承担的义务及责任,进行独立评估。例如,生成式服务提供者通常也是著作权法下的网络服务提供者,需要评估其是否构成对侵权内容的“明知”或“应知”;又如,生成式服务提供者同时又是广告发布者时,需要考虑广告发布者的义务,对生成的广告内容尽到审核义务;
b) 当存在多个服务主体时,则应当通过协议、平台规则等方式明确各自的责任划分;
c) 明确不同场景下人工智能服务提供者和使用者的责任划分。如在涉及侵权的内容系由使用者提供的情况下,应当由使用者承担内容侵权责任,但服务提供者也应尽到“警示”、“限制功能”以及“保存记录”和“报告”等义务。
亮点四:规定了提供者在提供人工智能服务中的义务
1)服务协议的制定
暂行办法第九条第二款要求“提供者应当与注册其服务的生成式人工智能服务使用者签订服务协议,明确双方权利义务”。自从以ChatGPT为代表的生成式人工智能模型“爆火”后,国内各界的关注重点即在于人工智能输出的内容权利归属何方以及侵权责任划分问题。目前不少生成式人工智能模型即在服务协议中就生成内容的权利归属、提供者与使用者的责任划分、免责条款等进行约定,以避免潜在的争议。
目前主流生成式人工智能模型的权利归属模式主要分为以下四类:
权利归属模式 | 软件开发者 | 条款概述 |
权利全部归属于用户 | OpenAI | 《使用条款》3:用户输入的内容,其权利归属于用户所有;且在用户遵守OpenAI公布的相关条款前提下,OpenAI将输出内容的所有权利分配给用户,即用户可以将输出内容用于任何目的,包括销售或出版等商业目的。 |
权利归属于用户 ,但使用方式将根据具体情况予以限制 | 有条件Canva | 《使用条款》4:我们提供各种内容供你在设计中使用。你需要遵守一些关于你可以如何使用内容,以及你可以将含有该内容的设计用作什么用途的限制。这些限制依据内容的类型和来源有所不同……你的设计可能同时包括用户内容和许可内容。 虽然你保留对你的用户内容的所有权,使用任何包含许可内容的设计均应遵守《Canva可画内容许可协议》中适用的条款……我们不拥有你的设计,但是对设计的使用可能存在一些限制,具体取决于你的设计中包括哪些Canva提供的内容。 |
权利归属取决于用户是否为付费用户 | Midjourney | 《服务条款》5:“您拥有您使用服务创建的所有资产。……如果您是非付费用户,则您不拥有您所创建的图像。但是,Midjourney授予您在知识共享非商用4.0版本的公共版权国际许可。 |
权利归属于软件开发者,用户取得授权 | Storyboard That | 《版权政策》6: 必须购买至少 1 年的帐户才能在商业出版物中使用情节提要;用户需告诉出版商其不拥有插图的权利。 |
2) 使用者输入信息的保密义务
暂行办法第十一条规定了人工智能服务提供者不得收集非必要信息和不得“非法”向他人提供使用者的输入信息和使用记录。使用者在生成式人工智能产品中输入的内容可能涉及个人隐私或者商业秘密,若被人工智能服务提供者非法对外提供,则可能导致隐私或者商业秘密泄露。即便提供者未将上述信息提供给第三方,若该等信息被作为训练数据用于训练人工智能模型,也可能出现在其他使用者向人工智能模型输入特定指令后,上述涉密信息被输出的情况。因此,目前有不少生成式人工智能模型就输入信息可否用于模型的再训练在服务协议中进行了约定。
如OpenAI在《使用条款》中明确指出不会使用用户提供的API内容来开发或改进其服务,即不会将用户输入的内容进行再训练。该等条款安排在一定程度上也能够避免用户和OpenAI对于内容权利归属引发争议,也避免了在数据训练阶段泄露用户输入内容的问题。
3)生成内容的标识
暂行办法第十二条规定了人工智能服务提供者的强制性标识义务,即“提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识”。参照《深度合成规定》的规定,人工智能服务提供者的标识分为两类,一是使发布、传播的人工智能生成的信息内容可被自身识别、追溯的标识,该类标识有利于服务提供者对其制作生成的内容予以追踪,在争议发生时或其他需要确定人工智能生成信息来源时能够找到源头。二是以显著方式对社会公众有效提示信息内容的标识,此类标识是为了提示公众该信息是通过人工智能生成的方式得到的,提示公众注意该等内容的真实性与准确性。
需要注意的是,由于目前我国著作权法下“创作”主体仍应为自然人,人工智能无法成为作品的作者,因此强制性标识不应被视为类似于著作权法项下“作者”的标注,而仅起到追溯以及提示的作用。被标注的内容是否属于著作权法项下的作品,仍需要根据该内容的具体创作过程进行判断,即人类是否实质性参与了人工智能的创作过程,内容是否体现了人类的独创性表达或个性化选择、判断及技巧等。因此也不宜因标注了人工智能信息就直接否认生成物的作品属性。
5. 处理与罚则
1)提供者对违法内容/行为的处理义务
暂行办法第十四、十五条为人工智能服务提供者设置了违法内容/行为的处理义务。此前征求意见稿中关于提供者一旦发现网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件必须暂停或终止服务的规定,被修改为可以采取“警示、限制功能、暂停或者终止向其提供服务”等处置措施,在一定程度上给予提供者一定的自由裁量权。此外,提供者还应当建立健全“投诉、举报机制,设置便捷的投诉、举报入口,公布处理流程和反馈时限,及时受理、处理公众投诉举报并反馈处理结果”。
2)应对检查
暂行办法第十九条明确了人工智能服务提供者应配合有关主管部门对生成式人工智能服务开展的监督检查,即“按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助”。该数据披露义务是暂行办法第十一条的例外规定。
四、值得进一步关注的内容
1. 无包容审慎和分类分级的具体方案
暂行办法确立了包容审慎和分类分级的监管原则,但目前尚缺乏具体的落地方案,有待主管部门进一步明确。如前文所述,分类分级监管原则可以参考欧盟《人工智能法》(草案),生成式人工智能服务提供者可参考草案的标准进行合规评估。
2. 特殊行业的特殊要求
暂行办法充分考虑了特殊行业的特殊要求,指出“从事新闻出版、影视制作、文艺创作等活动另有规定的,从其规定”。以部门为分类的监管方式,能更有针对性地制定具体的监管措施和指导方针,有待主管部门出台具体的行业规范。
3. 公共数据的分类分级开放
暂行办法提出“推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源”。但暂行办法并未明确就何为公共数据、如何分类分级及开放进程等作出具体规定,仍有待未来进一步明确。
五、结语
生成式人工智能已经成为人工领域竞争的新赛道,以Chat GPT为代表的大型生成式人工智能模型为人类构建数字化世界提供了无限机遇。中国率先出台这部暂行办法是面对新技术发展的必然选择,而包容审慎的态度将为生成式人工智能提供了制度竞争优势以及更广阔的发展空间。
[1] Andersen et al v Stability AI Ltd et al 3:23-CV-00201.
[2] Alonso O. Challenges with label quality for supervised learning. Journal of Data and Information Quality, 2015 6(1): 1-3.
[3] https://openai.com/policies/terms-of-use
[4] https://www.canva.cn/policies/terms-of-use/
[5] https://docs.midjourney.com/docs/terms-of-service
[6] https://www.storyboardthat.com/help-and-faqs/storyboard-copyright-faq