## OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

概要

https://gigazine.net/news/20251105-common-crawl-web-scraping/

詳細内容

## OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている https://gigazine.net/news/20251105-common-crawl-web-scraping/ Common CrawlがAI学習データのため有料ウェブコンテンツを無断でスクレイピングし続けている実態が明らかになり、AI業界の倫理的課題を浮き彫りにします。 **Content Type**: 🎭 AI Hype **Language**: ja **Scores**: Signal:4/5 | Depth:3/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:5/5 **Main Journal**: 82/100 | **Annex Potential**: 84/100 | **Overall**: 76/100 **Topics**: [[Webスクレイピング, AI学習データ, 著作権, AI倫理, ペイウォール]] 非営利団体Common Crawlが、2013年以来、有料ページを含む数十億のウェブページをスクレイピングし、OpenAIなどの主要AI企業の学習データとして提供してきた実態がThe Atlanticの調査により明らかになりました。Common Crawlは「自由に利用可能なコンテンツ」のみを収集すると公言していましたが、実際にはブラウザが記事全文を読み込んだ後に購読者確認を行うペイウォールの仕組みを悪用し、有料記事の内容を秘密裏に取得していました。これにより、AI学習データ収集の倫理的・法的な側面が浮き彫りになります。パブリッシャーはCommon Crawlに対し過去のコンテンツ削除を要請しましたが、技術的な調査ではアーカイブのコンテンツが削除された形跡がないことが示唆されています。Common Crawlのエグゼクティブ・ディレクターは、削除要請は「面倒」であり、アーカイブは「不変」で「何も削除できない」と述べる一方で、「AIはインターネット上のあらゆるものに無料でアクセスできるべき」「ロボットも人間だ」と主張し、コンテンツをインターネットに公開したパブリッシャー側に責任があると発言しています。この問題は、AI産業がその「裏口」を通じていかに大量のデータを取得しているかを示唆しています。Webアプリケーションエンジニアにとって、これはコンテンツ保護のためのペイウォール戦略や、AIによるスクレイピングへの対策を再考する必要があることを意味します。また、生成AIがトレーニングされたデータの信頼性や倫理的背景に疑問を投げかけ、AI利用における著作権やデータ利用規約の厳格化が進む可能性を示唆しています。The Atlanticは、Common Crawlの行為こそがパブリッシャーにペイウォールの強化を促し、「オープンウェブ」の精神を損なっていると批判しています。

元記事を読む他のサマリーを見る