概要
https://www.suzukikenichi.com/blog/evidence-shows-that-structured-data-doesnt-help-with-ai/
詳細内容
## 構造化データはAIのコンテンツ理解に役立たない!?←実験から判明
https://www.suzukikenichi.com/blog/evidence-shows-that-structured-data-doesnt-help-with-ai/
新たな実験は、ChatGPTのブラウジングツールがウェブコンテンツ理解において構造化データを自動的に活用しないことを明確に示し、トークン化プロセスがその根本的な理由であることを解明します。
**Content Type**: Research & Analysis
**Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 86/100 | **Annex Potential**: 86/100 | **Overall**: 88/100
**Topics**: [[LLMコンテンツ理解, 構造化データ, トークン化, RAG, AI向けコンテンツ戦略]]
この記事は、Dan Petrovic氏が行った検証に基づき、ChatGPTのブラウジングツールのような大規模言語モデル(LLM)が、ウェブページのコンテンツ理解に構造化データを自動的に利用しないという重要な事実を明らかにしています。実験では、構造化データの有無でChatGPT(GPT-5ブラウジングツール)の応答を比較しましたが、ChatGPT自身がJSON-LDやメタスキーママークアップを抽出せず、プレーンテキストのHTMLコンテンツのみを取得していると明言しました。
これはWebアプリケーション開発者にとって極めて重要な知見です。私たちは、検索エンジンやAIがコンテンツをより深く理解するために構造化データをマークアップすることに多大な労力を費やしがちです。しかし、この結果は、LLMが情報を処理する「トークン化」の過程で、構造化データが持つ本来の構造と明示性が失われる可能性が高いとMark Williams-Cook氏が指摘しています。例えば、`"@type": "Organization"`のようなスキーマ要素は、トークン化されると「type」と「Organization」という別々の単位に分解され、構造としての意味が失われてしまうのです。
この知見は、AI時代におけるコンテンツ戦略とRAG(Retrieval Augmented Generation)設計に大きな影響を与えます。LLMが構造化データを直接理解しないとすれば、単にスキーマを埋め込むだけでは、AIエージェントによるコンテンツ利用やAI検索結果の精度向上に直結しない可能性があります。
ただし、LLMが構造化データを全く扱えないわけではありません。明示的に指示すれば理解できる可能性があり、これはソフトウェア設計上の選択肢です。また、RAGのグラウンディングステップで、知識グラフ(構造化データを含む)にアクセスする際には、間接的に影響を与える可能性も指摘されており、特にGoogleのAI OverviewやAI Modeがナレッジグラフを利用している点には注意が必要です。
結論として、構造化データはAIに対して万能薬ではないという現実を認識することが不可欠です。AIに特定の構造化情報を利用させたい場合は、単にマークアップするだけでなく、プロンプトエンジニアリングやRAGの設計において、より明示的なアプローチを検討する必要があります。これは、AIを活用したシステム開発において、エンジニアがより現実的な期待値と具体的な実装戦略を持つ上で不可欠な視点を提供します。