AIエージェントの耐プロンプト注入耐性をテストする「Agent Arena」: 10種類の隠された攻撃ベクトル

概要

Webページを閲覧するAIエージェントが、HTML内に隠されたプロンプト注入攻撃（プロンプト・インジェクション）をどれだけ検出し回避できるかを判定するベンチマークツール。

詳細内容

「Agent Arena」は、AIエージェントの脆弱性を診断するための実験的プラットフォームです。人間には見えないがLLMが読み取ってしまう、10段階（BasicからExpertまで）の攻撃ベクトルが含まれたテスト用ページを提供します。具体的な攻撃手法には、HTMLコメント、背景と同色のテキスト、表示されないdiv要素、微小な文字、ARIA属性の悪用、ゼロ幅文字によるエンコード、画像の代替テキスト（alt）への命令埋め込みなどが含まれます。ユーザーは自社のエージェントに指定のURLを要約させ、その回答をサイト上のスコアカードに貼り付けることで、どの注入攻撃に屈したかを即座に可視化できます。また、テキストベースではなくスクリーンショットでWebを解析するエージェントがこれらの攻撃を完全に回避できるといった興味深い知見も共有されています。

元記事を読む他のサマリーを見る