主页 > 互联网 > 正文

多家巨头 AI 模型被指存储版权作品

2026-02-24 21:25:12来源：Techweb编辑：李川峰

扫一扫

分享文章到微信

扫一扫

关注豌豆财经网微信公众号

复制网址

　　IT之家 2 月 24 日消息，全球顶尖人工智能模型可通过提示词，生成与畅销小说几乎逐字相同的内容，这对 AI 行业声称其系统不存储受版权保护作品的说法提出了新的质疑。

　　近期多项研究显示，来自 OpenAI、谷歌、Meta、Anthropic 和 xAI 的大语言模型，对训练数据的记忆量远超此前认知。

　　AI 及法律专家向《金融时报》表示，这种“记忆”能力，可能对全球 AI 企业应对数十起版权诉讼产生重大影响，其直接动摇了这些企业的核心抗辩理由：大语言模型只是从受版权保护作品中“学习”，而非存储副本。

　　伦敦帝国理工学院应用数学与计算机科学教授伊夫-亚历山大 · 德蒙茹瓦称：“越来越多证据表明，模型记忆现象比此前认为的更为普遍。”

　　长期以来，AI 企业均否认存在记忆行为。在 2023 年致美国版权局的一封信中，谷歌曾表示：“模型本身并不存储训练数据副本，无论文本、图像或其他格式。”

　　AI 行业还主张，使用受版权书籍训练模型属于“合理使用”，认为该技术将原作品转化为具有全新意义的内容。

　　但上月发布的一项研究显示，斯坦福大学与耶鲁大学研究人员通过针对性提示词，成功让 OpenAI、谷歌、Anthropic 和 xAI 的大语言模型，输出了《权力的游戏》《饥饿游戏》《霍比特人》等 13 部作品的数千字内容。

　　通过让模型补全书中句子，谷歌 Gemini 2.5 高精度复现了《哈利 · 波特与魔法石》76.8% 的内容，xAI 的 Grok 3 则生成了 70.3%。研究人员还通过“越狱”（绕过安全限制）Anthropic 的 Claude 3.7 Sonnet，几乎提取了整部小说的完整原文。

　　这一结论建立在去年一项研究基础之上：该研究发现，Meta 的 Llama 等开源模型，会记住训练数据中特定书籍的大量内容。

　　此前 AI 专家并不确定，安全防护更严格、能阻止不当内容生成的闭源模型，是否也会出现大规模记忆现象。

　　参与该研究的耶鲁大学研究员 A· 费德 · 库珀表示：“尽管设有防护机制，模型仍能记住整段文本，这令人意外。”

　　研究人员尚未弄清大语言模型为何会记住训练数据中的内容，也不清楚模型输出中会体现多少训练数据。

　　这种记忆特性还可能对医疗、教育等其他领域产生严重影响，训练数据泄露可能引发隐私与保密问题。

　　法律专家表示，这可能使 AI 企业面临重大版权侵权责任，并影响其模型训练方式与研发成本。

　　英国品诚梅森律师事务所知识产权合伙人塞里斯 · 温 · 戴维斯称，这些研究发现“可能对那些主张 AI 模型不存储、不复制任何版权作品的观点构成挑战”。

　　AI 模型是否记忆训练数据，已成为近期版权法律纠纷的关键因素。美国一家法院去年裁定，Anthropic 使用部分受版权内容训练大语言模型可被视为合理使用，因其具有“转化性”。但法院同时认定，存储盗版作品“本质上、无可挽回地构成侵权”，最终该 AI 企业以 15 亿美元（IT之家注：现汇率约合 103.74 亿元人民币）达成和解。

　　德国去年 11 月的一项判决认定，OpenAI 因模型记忆歌词侵犯版权。此案由词曲作者及出版商协会 GEMA 提起，被视为欧盟标志性判例。

　　美国 Husch Blackwell 律师事务所合伙人鲁迪 · 特尔舍认为，无需越狱即可完整复制一整本书“显然构成版权侵权”，但问题在于“此类情况是否普遍到足以让 AI 模型承担连带侵权责任”。

　　Anthropic 表示，斯坦福与耶鲁研究中使用的越狱技术对普通用户并不实用，提取文本所需成本高于直接购买作品。该公司还称，其模型不存储特定数据集副本，只是学习训练数据中词汇与字符的模式和关联关系。

　　xAI、OpenAI 和谷歌均未回应置评请求。

　　帝国理工的德蒙茹瓦指出，AI 实验室设置防护机制防止训练数据被提取，这一事实本身就说明它们知晓问题存在。

　　芝加哥大学计算机科学教授本 · 赵质疑，AI 实验室从一开始是否真的需要使用受版权内容来训练前沿模型。“无论技术上能否实现，问题在于我们应不应该这么做。”赵表示，“法律层面最终应坚守立场，成为整个过程的裁决者。”

投稿邮箱：lukejiwang@163.com 详情访问豌豆财经网：http://www.wdyxw.com.cn

相关推荐