AIは学習データから小説をほぼ逐語的に複製可能に：著作権侵害論争の新たな局面

概要

最新のAIモデルが『ハリー・ポッター』などのベストセラー小説をほぼそのまま出力できることが研究で判明し、AI企業の「著作権物を保存していない」という主張が揺らいでいる。

詳細内容

スタンフォード大学とイェール大学の共同研究により、OpenAI、Google、Anthropic、xAIなどの主要な大規模言語モデル（LLM）が、トレーニングデータをこれまで考えられていた以上に「記憶（Memorization）」していることが明らかになった。特定のプロンプトやジェイルブレイク手法を用いることで、Gemini 2.5は『ハリー・ポッターと賢者の石』の76.8%を、Grok 3は70.3%を高い精度で再現した。これは、AI企業が長年主張してきた「モデル内部にデータのコピーは存在せず、学習は変容的（Transformative）なものである」という法的防御を根底から覆す可能性がある。すでにAnthropicが海賊版コンテンツの保存を理由に15億ドルの和解金を支払った事例や、ドイツでの著作権侵害判決も出ており、この記憶問題は今後のAI規制や法的責任の所在を左右する決定的な争点となっている。また、この問題はプライバシーや機密情報の漏洩という観点から、医療や教育分野への応用にも深刻な影響を及ぼす懸念がある。

元記事を読む他のサマリーを見る