人工智能(AI)模型ChatGPT的开发者OpenAI,在近期提交给英国上议院通讯委员会的一份法律文件中,阐述了其继续使用受版权保护素材以训练AI模型的必要性。OpenAI表示,若无法持续发布改进版本,其业务或将陷入严峻困境。该文件暗示,OpenAI应当被允许免费使用版权素材,否则其业务可能难以为继。
OpenAI的法律立场
据相关报道,OpenAI在文件中指出,仅凭公有领域内容来训练AI模型存在局限性,因为当前几乎所有人类创作的表达形式都受到了版权保护,这涵盖了博客文章、照片、论坛帖子、代码片段以及政府文件等。文件中强调,“如果将训练数据仅限于一世纪前的公有领域书籍和图画,或许能进行某些有趣的实验,但这样的数据无法支撑起满足当代社会需求的AI系统。”
迄今为止,OpenAI已面临多起涉及未经授权使用版权素材的诉讼。例如,因使用《纽约时报》的内容进行训练,OpenAI被指控大规模侵犯版权;同时,美国作家协会(Authors Guild)也对OpenAI提起诉讼,指责其非法利用知名作家的作品来训练AI模型。
公众舆论与质疑
OpenAI的这一论点在公众中引发了广泛争议。有评论指出,这类似于毒品贩子以自己无法承担毒品成本为由,要求免费供应的逻辑。在OpenAI的案例中,公司主张因无法承担训练AI所需的版权素材费用,应被允许免费使用这些素材。然而,一些批评者认为这种逻辑站不住脚,他们提出,如果公司无法承担训练成本,或许应该考虑改变商业模式,甚至解散,而不是寻求特殊待遇。
AI训练的持续挑战
尽管科技产业似乎正在逐渐摒弃“快速行动,破坏规则”的文化,但OpenAI所面临的法律困境表明,许多科技巨头仍在这一理念中挣扎。此外,根据最新研究成果,网络上超过57%的内容可能已由AI生成,这可能导致大型语言模型(LLM)陷入“自我循环”训练的困境,即使用先前AI生成的内容进行自我训练,进而可能导致模型性能下降甚至崩溃。