训练AI资料应免费吗OpenAI抛出世纪大难题

人工智能（AI）模型ChatGPT的开发者OpenAI，在近期提交给英国上议院通讯委员会的一份法律文件中，阐述了其继续使用受版权保护素材以训练AI模型的必要性。OpenAI表示，若无法持续发布改进版本，其业务或将陷入严峻困境。该文件暗示，OpenAI应当被允许免费使用版权素材，否则其业务可能难以为继。

OpenAI的法律立场

据相关报道，OpenAI在文件中指出，仅凭公有领域内容来训练AI模型存在局限性，因为当前几乎所有人类创作的表达形式都受到了版权保护，这涵盖了博客文章、照片、论坛帖子、代码片段以及政府文件等。文件中强调，“如果将训练数据仅限于一世纪前的公有领域书籍和图画，或许能进行某些有趣的实验，但这样的数据无法支撑起满足当代社会需求的AI系统。”

迄今为止，OpenAI已面临多起涉及未经授权使用版权素材的诉讼。例如，因使用《纽约时报》的内容进行训练，OpenAI被指控大规模侵犯版权；同时，美国作家协会（Authors Guild）也对OpenAI提起诉讼，指责其非法利用知名作家的作品来训练AI模型。

公众舆论与质疑

OpenAI的这一论点在公众中引发了广泛争议。有评论指出，这类似于毒品贩子以自己无法承担毒品成本为由，要求免费供应的逻辑。在OpenAI的案例中，公司主张因无法承担训练AI所需的版权素材费用，应被允许免费使用这些素材。然而，一些批评者认为这种逻辑站不住脚，他们提出，如果公司无法承担训练成本，或许应该考虑改变商业模式，甚至解散，而不是寻求特殊待遇。

AI训练的持续挑战

尽管科技产业似乎正在逐渐摒弃“快速行动，破坏规则”的文化，但OpenAI所面临的法律困境表明，许多科技巨头仍在这一理念中挣扎。此外，根据最新研究成果，网络上超过57%的内容可能已由AI生成，这可能导致大型语言模型（LLM）陷入“自我循环”训练的困境，即使用先前AI生成的内容进行自我训练，进而可能导致模型性能下降甚至崩溃。

训练AI资料应免费吗OpenAI抛出世纪大难题

相关文章