编者按 在生成式人工智能数据训练过程中,未经版权人许可的作品使用行为面临着侵权风险。本文作者认为,著作权法应将此种作品使用行为纳入合理使用范畴,并从合法来源要求、权利人 选择—退出 机制、模型提供者承担披露训练内容的义务3个方面设置适用限制条件,明晰版权人权益与生成式人工智能数据训练合法性的界限。 开发生成式人工智能模型,需要以海量文本、图像、视频等包含受版权保护的作品作为语料进行数据训练,若未经权利人许可,则面临版权侵权风险。数据训练中的作品使用行为构成侵权抑或合理使用,已成为实践中相关纠纷的核心争议焦点。我国合理使用制度采用封闭式的立法技术,现行著作权法穷尽式列举的合理使用条款无法涵盖这一新兴场景下的作品使用行为。因此,在期待司法予以能动回应的同时,有必要探索如何革新著作权法规则,以明晰版权人权益与生成式人工智能数据训练合法性的界限,兼顾版权保护与产业发展。 纳入合理使用范畴 笔者认为,基于生成式人工智能数据训练对作品使用具有转换性目的的技术本质,可以考虑将其纳入合理使用范畴。生成式人工智能是计算机深度学习算法的一大应用,其通过数据训练提取、学习文字、图像、音符等符号的分布规律和组合特征。海量数据训练旨在增强生成模型的泛化性能,即确保模型能够准确处理来自相同数据分布的新样本,使其面对未知用户指令仍能灵活生成内容。可见,作品作为训练语料的意义在于提高生成模型类似于人类学习过程中的 理解 能力,而非再现作品的具体表达并供公众欣赏其艺术价值。实际上,如果模型因过度记忆训练语料而输出与语料实质相似的内容,将被视为技术错误。 将生成式人工智能数据训练纳入合理使用范畴使之合法化,也符合著作权法促进文学艺术作品创作与传播的公共利益要求。经过技术的不断迭代,人工智能已能生成外观上与人类创作作品几乎无异的内容,在质量上能够满足一定程度的欣赏需求。例如,中央广播电视总台推出的微短剧《中国神话》,借助 文生图 图生视频 等生成式人工智能技术拓展了人们对神话的常规想象,再通过经典意象和当下人类社会的深度链接,给观众带来了前所未有的视听享受。作为人类创作的辅助工具,生成式人工智能可以丰富创作素材,提升创作效率与质量,由此促进文艺繁荣。因此,为解决人工智能版权侵权风险与其作品使用需求之间的矛盾,合理使用是具有正当性的制度选择。 合理确定限制条件 由于版权作品被用于数据训练能够创造商业收益,且高质量的生成内容可能构成对版权作品潜在市场的竞争替代,因此,作品用于数据训练事实上已成为人工智能时代新的作品利用形式,如何保障权利人的利益是不容忽视的问题。在合理使用的具体规则中,应当通过适用限制条件的合理设计解决此问题。参考域外的立法探索,可以从合法来源要求、权利人 选择—退出 机制、模型提供者承担披露训练内容的义务3方面进行限制。 合法来源要求意味着作品应当是通过订阅等合同安排获得权利人授权,或是基于合理使用、法定许可等规则而合法接触的,否则将作品用于数据训练仍需获得授权。通过这一限制,权利人仍能够保护其版权内容,通过收取访问费用等方式保障其经济利益。需注意的是,还应明确权利人仍能够采取技术保护措施。对于已设置反爬虫措施或防抓取措施的网络内容,经破解后接触作品的,也属于非法接触,排除合理使用规则的适用。 选择—退出 机制赋予权利人主动决定其作品是否参与生成式人工智能数据训练的权利。这一机制在实践中已被广泛应用,成为平衡技术进步与版权保护的重要工具。例如,法国音乐作曲家、作者和出版者协会在2023年10月发表声明,称将选择退出其曲目作品的机器学习,表示使用其曲目作品须获得授权,并明确协商利用条件。再如,某人工智能公司创建了网站,该网站允许创作者选择退出生成模型的训练数据集,截至2024年4月已有10亿余件艺术作品退出。公众耳熟能详的谷歌、微软、Open AI公司亦通过扩展爬虫协议,为权利人提供便捷的选项,允许他们将网络作品排除在相关模型训练之外。 选择—退出 机制介于数据训练使用作品的授权模式和传统合理使用模式二者之间,是人工智能时代加强权利人保护与促进产业发展二者间的妥协方案。在这一机制下,除非权利人主动行使退出权,否则作品原则上可被用于数据训练而无需个别授权,由此能够降低版权许可的高昂成本,也缓解了因获得许可困难而导致的训练语料匮乏,以及因此加剧的算法偏见等问题。同时,区别于传统合理使用模式偏向绝对性的自由无偿使用,版权人有权保留其作品被无偿地用于数据训练,通过行使选择退出权以此换取协商议价空间,增强在许可谈判中的议价能力。 选择—退出 机制的灵活方案能够适应技术变革,既考虑到人工智能时代对数据处理的需求,又兼顾权利人的合法权益,有助于解决传统合理使用模式可能对权利人造成不合理损害的适用困境。 模型提供者承担披露训练内容的义务,这一要求根植于生成式人工智能数据训练的固有不可追溯特性与日益增长的透明度需求之中。以聊天机器人等大型语言模型为例,在其数据训练过程中,海量的书籍等文本资料被转化为数十亿计的序列数据,随后,算法会计算这些序列中每个语词后续语词出现的概率。然而,由于模型最终仅保留了原始语料的概率统计表示形式,因此,基于此类模型输出的句子、文章等具体内容,往往难以追溯其特定的原始来源。 正是基于这一背景,要求模型提供者公开其训练内容,以提升数据训练过程的透明度,显得尤为重要。这一做法不仅能够有效保障权利人对其作品使用情况的知情权,而且还是权利人有效行使退出权的重要前提。换言之,权利人只有充分了解其作品如何被用于模型训练后,才能做出是否允许其作品被用于此类用途的决定。 此外,训练内容的公开披露还有助于简化输出端可能出现的侵权判断过程。当监督机构或权利人需要判断某一作品是否被非法地、专门用于生成实质性相似的表达时,公开的训练内容将成为重要的参考依据,从而大大降低侵权判定的难度和复杂性。因此,模型提供者披露训练内容的义务,不仅是透明度和知情权保障的体现,也是维护创作生态健康、促进技术创新与版权保护和谐共生的关键一环。
# 版权前沿 | 明确人工智能数据训练的版权边界
随着人工智能技术的飞速发展,其应用场景越来越广泛,对数据的需求也日益增长。在数据训练过程中,涉及到的版权问题也愈发复杂。本文将探讨人工智能数据训练中的版权边界问题,并提出相应的解决方案。
## 一、人工智能数据训练的版权归属
在人工智能数据训练中,涉及到数据的采集、整理、标注等环节。对于这些数据的版权归属,需要根据具体情况进行判断。
一般来说,数据采集者享有数据的版权,但在数据使用过程中,需要遵守相关法律法规和合同约定,不得侵犯他人的合法权益。对于数据整理和标注者,其劳动成果也应受到法律保护。
## 二、人工智能生成物的版权归属
人工智能在数据训练的基础上,可以生成新的作品,如文章、音乐、绘画等。对于这些生成物的版权归属,同样存在争议。
一种观点认为,人工智能生成物是基于训练数据生成的,其版权应归属于数据提供者。另一种观点则认为,人工智能生成物具有一定的创造性,其版权应归属于开发者或使用者。
## 三、合理使用与授权许可
在人工智能数据训练过程中,需要合理使用他人的作品,以避免侵权行为的发生。根据《著作权法》的规定,合理使用是指在特定情况下,无需获得著作权人的授权,即可使用他人的作品。
对于商业性的数据训练,通常需要获得著作权人的授权许可,并支付相应的版权费用。在授权许可过程中,需要明确授权范围、使用方式、使用期限等具体事项,以避免侵权风险。
## 四、建立数据共享机制
为了促进人工智能技术的发展,需要建立数据共享机制,以提高数据的利用效率。在数据共享过程中,需要明确数据的版权归属和使用方式,以保护数据提供者的合法权益。
同时,建立数据共享机制还可以促进数据的流通和交易,为人工智能企业提供更多的数据资源,推动技术创新和产业发展。
## 五、加强版权保护与监管
为了保护人工智能数据训练中的版权,需要加强版权保护与监管。一方面,需要完善相关法律法规,明确人工智能数据训练中的版权归属和侵权责任。另一方面,需要加强版权执法力度,打击侵权盗版行为,维护市场秩序。
## 六、结论
人工智能数据训练中的版权边界问题是一个复杂的法律问题,需要根据具体情况进行判断。为了促进人工智能技术的发展,需要明确版权归属、合理使用、授权许可、建立数据共享机制、加强版权保护与监管等措施,以保护数据提供者和开发者的合法权益,促进人工智能技术的健康发展。