エージェント型アーキテクチャにおけるセキュリティ境界：安全なAI実装のための設計指針

概要

AIエージェントによるコード生成・実行のリスクを分析し、ハネス、機密情報、生成コード、実行環境の4要素を分離して保護する堅牢なアーキテクチャを提案する。

詳細内容

VercelのCTOらによる、AIエージェント、特に「コーディングエージェント」の普及に伴うセキュリティ設計の解説記事です。多くのエージェントが現在、生成したコードをフルアクセス権限で実行している現状を危惧し、プロンプトインジェクションから機密情報を守るための境界線を定義しています。 ### 4つの主要アクターと信頼レベル 1. **エージェント(ハネス)**: LLMをオーケストレートする信頼できるバックエンド。 2. **機密情報**: APIキーやDB認証情報。生成コードから直接参照させてはならない。 3. **生成コード**: 予測不能で信頼できない「ワイルドカード」。 4. **ファイルシステム**: 実行環境。ハネスは信頼できるが、エージェントには制限が必要。 ### 推奨されるアーキテクチャ最も安全なアプローチとして、エージェントを実行する「コンピューティング環境」と、生成コードを実行する「サンドボックス環境（VM）」を完全に分離する構成を提言。さらに、ネットワークレベルで秘密情報を注入する「シークレット・インジェクション」を組み合わせることで、生成プログラムに生鍵を見せることなくAPI利用を可能にし、流出リスクを最小化します。

元記事を読む他のサマリーを見る