RAGシステムにおけるドキュメント・ポイズニング：攻撃者がAIの情報源を汚染する手法

概要

RAGシステムの知識ベースに偽の情報を混入させる「ドキュメント・ポイズニング」の手法と、埋め込みベクトルの異常検知による防御の有効性を実証した解説記事。

詳細内容

RAG（検索拡張生成）システムにおいて、ベクトルデータベースに不正なドキュメントを注入し、LLMの回答を意図的に誤らせる「知識ベースポイズニング（Knowledge Base Poisoning）」の危険性を詳説しています。 ### 主な内容 1. **攻撃の実証**: 企業の財務情報を改ざんする3つのドキュメントを注入。LLMは正解データがコンテキスト内にあっても、攻撃者が用意した「修正版」という権限を装った記述を優先し、誤った数値を回答しました。 2. **理論的背景**: USENIX Security 2025で発表された「PoisonedRAG」に基づき、検索条件（類似度）と生成条件（権限の主張）の両方を満たすことで攻撃が成功することを示しています。 3. **防御策の比較**: プロンプトの要塞化や出力モニタリングよりも、「埋め込みベクトルの異常検知（Embedding Anomaly Detection）」が最も効果的（成功率を95%から20%へ低減）であることを明らかにしました。 4. **実装の提言**: 知識ベースへの全書き込みパスの把握、インジェスト時の類似度チェック、定期的なスナップショットの取得を推奨しています。

元記事を読む他のサマリーを見る