近期,一个引人深思的问题终于在现实生活中浮出水面:当大型模型利用我们的作品进行训练时,这是否涉及版权保护?在这种情境下,我们的权益又该如何界定?
OpenAI最近因被指控未经授权使用《权力的游戏》及其他多部小说作为训练数据而受到作家协会的起诉。作者们坚信,OpenAI的行为侵犯了他们的知识产权,并对他们的创作生计构成了威胁。
指控理由
作家协会是出版作家的行业协会,17位作家指控OpenAI在训练其聊天机器人时使用了他们的作品。在这起版权侵权的集体诉讼中,原告包括:David Baldacci、Mary Bly、Michael Connelly、Sylvia Day、Jonathan Franzen、John Grisham、Elin Hilderbrand、Christina Baker Kline、Maya Shanbhag Lang、Victor LaValle、George R.R. Martin、Jodi Picoult、Douglas Preston、Roxana Robinson、George Saunders、Scott Turow和Rachel Vail。
根据投诉,这些作家不仅对OpenAI未经许可使用他们的作品进行模型训练表示不满,还因为AI系统在回应人们请求时不公平地复制他们的写作而感到愤慨。控诉指出:“OpenAI的服务危及了小说作家谋生的机会,因为大型语言模型使任何人能够自动且低成本地生成文本,而这些本该由作家创作的内容。”
诉讼的核心观点在于,当AI实验室在训练过程中将他们的作品纳入模型时,这实际上等同于未获授权的复制,而GPT模型输出的文本则被视为侵犯版权作品的非法派生物。
诉讼中特别提到,ChatGPT不仅“成功”创作了一部《权力的游戏》前传的详细大纲,还使用了马丁(原作者)《冰与火之歌》系列中的相同角色。实际上,其他作家也能够通过类似方式获得与自己作品相近的结果,这引发了作者们对版权的担忧。
作家们表示,他们从未明确或默示授权OpenAI以当前的方式访问或使用他们的作品。因此,他们对ChatGPT的“创作能力”感到不安,认为这可能构成版权侵权。
原告律师发现,直到最近,ChatGPT还能够准确无误地返回受版权保护书籍的文字原文,这表明底层大型语言模型在训练过程中确实完全录入了这些书籍。尽管最近ChatGPT对此进行了修改,会以“我无法提供版权文本的逐字摘录”来回应此类请求,但这一变化可能是因为作家协会向OpenAI和其他公司发出了公开信。
盗窃与版权意识的分歧:
根据诉状,OpenAI承认它用于训练模型的数据集包括“Common Crawl”和两个基于互联网的高质量书籍语料库,均称为“Books1”和“Books2”。然而,OpenAI尚未公开这些数据信息的具体内容,引发了原告的忧虑。他们担心,可能存在盗版书籍混入OpenAI的训练数据中,这将进一步复杂化这一纠纷。
OpenAI拒绝讨论Books2数据集的来源。一些独立的AI研究人员质疑,Books2是否包含了从大型盗版图书库下载的电子书文件,如Library Genesis(LibGen),该网站以其庞大的盗版文本库而闻名,早已为司法界所熟知。Books2的其他可能来源还包括Z-Library和Bibliotik等盗版种子跟踪器。
根据诉状,GPT-3到GPT-4之间的能力和复杂性显著提升,这无疑表明训练数据集的规模在不断扩大。因此,合理推测OpenAI可能使用了一个或多个极其庞大的盗版电子书来源来训练像GPT-4这样强大的大型语言模型。
原告强调,此类做法可能涉及对版权作品的侵权,而OpenAI却未提供任何合法途径来获取训练所需的大量书籍。例如,投诉中提到的解决方案是支付用于培训ChatGPT的内容的费用,但OpenAI并未考虑这种做法。原告引用首席执行官Sam Altman在国会作证时的证词,表示OpenAI相信版权,并已为部分训练数据支付费用。这突显了OpenAI与作家协会及原告之间的分歧,以及在如何处理大型语言模型的训练数据方面存在的复杂问题。
审视永久禁令的可行性
美国作家协会首席执行官Mary Rasenberger评论道:“对于小说作家而言,OpenAI未经授权使用他们的作品等同于大规模的身份盗窃。”她进一步强调了小说作家的独特地位:“小说作者通过他们的想象力创造出全新的世界——在故事中塑造了地点、人物和事件。然而,人们开始传播那些由GPT生成的内容,这些内容可能模仿或直接使用原作者的角色和故事。甚至有公司在销售允许用户‘进入’作家书籍世界的提示,这明显侵犯了原创作者的知识产权。”
作者协会希望通过此诉讼获得如下赔偿和保护措施:
- 因被告OpenAI失去获得其作品许可的机会以及市场侵占而造成的损害,以避免原告成为自己作品的替代者;
- 发出永久禁令,以防止此类损害再次发生。
结语
这一事件不仅凸显了大型模型训练数据中的版权难题,超越了单纯的技术和法律讨论,深入探讨了人类创作者的创造力、作品的内在价值与大型模型派生物之间的复杂利益交织。让我们再次深入思考一个持续被讨论的话题:在人工智能时代,我们如何界定和保障版权?
如何举证?
由于大型模型的训练数据和过程均不透明,著作权人即便察觉到侵权行为,也面临着难以提供充分证据的困难。当我们的原创作品未经授权地被用作训练材料时,该依据何种标准界定被侵犯的版权领域?
如何判决?
不同国家在人工智能与版权的法律关系上有着不同的定义和立场。在中国,根据《著作权法》和《生成式人工智能服务管理暂行办法》,服务提供者在涉及训练数据处理的各个环节,都不得侵犯他人的知识产权,明确指出训练素材必须获得著作权人的授权。而在美国,虽然使用受版权保护的材料进行AI训练可能需要授权,但“合理使用”原则也对此提供了一定的保护。该原则的界定较为模糊,因多种因素而异,包括使用目的、性质、数量等,同时也需考虑其对潜在市场或作品价值的影响。日本则允许在特定条件下将版权内容用于AI训练视为“合理使用”,前提是不损害原作的主观价值与著作权人权益。尽管各国都明确提出了对版权的尊重和保护,但具体的执行标准和界定仍存在差异。
这些问题迫使我们深入思考,在科技快速发展的今天,如何更好地协调创作者权益、技术创新与版权保护之间的关系。对此话题,期待在评论区与大家共同探讨。