OpenAI陷非法抄书风波：美国作家协会联名起诉，AI版权问题再次入局！

近期，一个引人深思的问题终于在现实生活中浮出水面：当大型模型利用我们的作品进行训练时，这是否涉及版权保护？在这种情境下，我们的权益又该如何界定？

OpenAI最近因被指控未经授权使用《权力的游戏》及其他多部小说作为训练数据而受到作家协会的起诉。作者们坚信，OpenAI的行为侵犯了他们的知识产权，并对他们的创作生计构成了威胁。

指控理由

作家协会是出版作家的行业协会，17位作家指控OpenAI在训练其聊天机器人时使用了他们的作品。在这起版权侵权的集体诉讼中，原告包括：David Baldacci、Mary Bly、Michael Connelly、Sylvia Day、Jonathan Franzen、John Grisham、Elin Hilderbrand、Christina Baker Kline、Maya Shanbhag Lang、Victor LaValle、George R.R. Martin、Jodi Picoult、Douglas Preston、Roxana Robinson、George Saunders、Scott Turow和Rachel Vail。

根据投诉，这些作家不仅对OpenAI未经许可使用他们的作品进行模型训练表示不满，还因为AI系统在回应人们请求时不公平地复制他们的写作而感到愤慨。控诉指出：“OpenAI的服务危及了小说作家谋生的机会，因为大型语言模型使任何人能够自动且低成本地生成文本，而这些本该由作家创作的内容。”

诉讼的核心观点在于，当AI实验室在训练过程中将他们的作品纳入模型时，这实际上等同于未获授权的复制，而GPT模型输出的文本则被视为侵犯版权作品的非法派生物。

诉讼中特别提到，ChatGPT不仅“成功”创作了一部《权力的游戏》前传的详细大纲，还使用了马丁（原作者）《冰与火之歌》系列中的相同角色。实际上，其他作家也能够通过类似方式获得与自己作品相近的结果，这引发了作者们对版权的担忧。

作家们表示，他们从未明确或默示授权OpenAI以当前的方式访问或使用他们的作品。因此，他们对ChatGPT的“创作能力”感到不安，认为这可能构成版权侵权。

原告律师发现，直到最近，ChatGPT还能够准确无误地返回受版权保护书籍的文字原文，这表明底层大型语言模型在训练过程中确实完全录入了这些书籍。尽管最近ChatGPT对此进行了修改，会以“我无法提供版权文本的逐字摘录”来回应此类请求，但这一变化可能是因为作家协会向OpenAI和其他公司发出了公开信。

盗窃与版权意识的分歧：

根据诉状，OpenAI承认它用于训练模型的数据集包括“Common Crawl”和两个基于互联网的高质量书籍语料库，均称为“Books1”和“Books2”。然而，OpenAI尚未公开这些数据信息的具体内容，引发了原告的忧虑。他们担心，可能存在盗版书籍混入OpenAI的训练数据中，这将进一步复杂化这一纠纷。

OpenAI拒绝讨论Books2数据集的来源。一些独立的AI研究人员质疑，Books2是否包含了从大型盗版图书库下载的电子书文件，如Library Genesis（LibGen），该网站以其庞大的盗版文本库而闻名，早已为司法界所熟知。Books2的其他可能来源还包括Z-Library和Bibliotik等盗版种子跟踪器。

根据诉状，GPT-3到GPT-4之间的能力和复杂性显著提升，这无疑表明训练数据集的规模在不断扩大。因此，合理推测OpenAI可能使用了一个或多个极其庞大的盗版电子书来源来训练像GPT-4这样强大的大型语言模型。

原告强调，此类做法可能涉及对版权作品的侵权，而OpenAI却未提供任何合法途径来获取训练所需的大量书籍。例如，投诉中提到的解决方案是支付用于培训ChatGPT的内容的费用，但OpenAI并未考虑这种做法。原告引用首席执行官Sam Altman在国会作证时的证词，表示OpenAI相信版权，并已为部分训练数据支付费用。这突显了OpenAI与作家协会及原告之间的分歧，以及在如何处理大型语言模型的训练数据方面存在的复杂问题。

审视永久禁令的可行性

美国作家协会首席执行官Mary Rasenberger评论道：“对于小说作家而言，OpenAI未经授权使用他们的作品等同于大规模的身份盗窃。”她进一步强调了小说作家的独特地位：“小说作者通过他们的想象力创造出全新的世界——在故事中塑造了地点、人物和事件。然而，人们开始传播那些由GPT生成的内容，这些内容可能模仿或直接使用原作者的角色和故事。甚至有公司在销售允许用户‘进入’作家书籍世界的提示，这明显侵犯了原创作者的知识产权。”

作者协会希望通过此诉讼获得如下赔偿和保护措施：

因被告OpenAI失去获得其作品许可的机会以及市场侵占而造成的损害，以避免原告成为自己作品的替代者；
发出永久禁令，以防止此类损害再次发生。

结语

这一事件不仅凸显了大型模型训练数据中的版权难题，超越了单纯的技术和法律讨论，深入探讨了人类创作者的创造力、作品的内在价值与大型模型派生物之间的复杂利益交织。让我们再次深入思考一个持续被讨论的话题：在人工智能时代，我们如何界定和保障版权？

如何举证？

由于大型模型的训练数据和过程均不透明，著作权人即便察觉到侵权行为，也面临着难以提供充分证据的困难。当我们的原创作品未经授权地被用作训练材料时，该依据何种标准界定被侵犯的版权领域？

如何判决？

不同国家在人工智能与版权的法律关系上有着不同的定义和立场。在中国，根据《著作权法》和《生成式人工智能服务管理暂行办法》，服务提供者在涉及训练数据处理的各个环节，都不得侵犯他人的知识产权，明确指出训练素材必须获得著作权人的授权。而在美国，虽然使用受版权保护的材料进行AI训练可能需要授权，但“合理使用”原则也对此提供了一定的保护。该原则的界定较为模糊，因多种因素而异，包括使用目的、性质、数量等，同时也需考虑其对潜在市场或作品价值的影响。日本则允许在特定条件下将版权内容用于AI训练视为“合理使用”，前提是不损害原作的主观价值与著作权人权益。尽管各国都明确提出了对版权的尊重和保护，但具体的执行标准和界定仍存在差异。

这些问题迫使我们深入思考，在科技快速发展的今天，如何更好地协调创作者权益、技术创新与版权保护之间的关系。对此话题，期待在评论区与大家共同探讨。