概要
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
詳細内容
## AIエージェント評価の要諦:Anthropicが明かす実践的ガイド
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
**Original Title**: Demystifying evals for AI agents
AIエージェント開発における信頼性と予測可能性を確保するため、コード、LLM、人間を組み合わせた多層的な評価フレームワーク(Evals)の構築手法を提示する。
**Content Type**: 🔬 Research & Analysis
**Language**: en
**Scores**: Signal:5/5 | Depth:5/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 94/100 | **Annex Potential**: 88/100 | **Overall**: 96/100
**Topics**: [[AIエージェント, 評価フレームワーク, LLM-as-a-Judge, ソフトウェアテスト, Claude]]
AIエージェントは自律的で多段階の推論を行うため、従来のシングルターンのLLM評価よりも複雑であり、一つのミスが連鎖的に増幅するリスクを抱えている。Anthropicのエンジニアリングチームは、開発者が「本番環境での不具合報告を受けてから修正し、別の箇所で退行(デグレード)を発生させる」という泥沼のリアクティブループに陥るのを防ぐため、堅牢な評価(Evals)の構築が不可欠であると説いている。
著者によれば、エージェントの評価は単なる出力のチェックではなく、タスク(問題設定)、トライアル(試行)、グレーダー(採点ロジック)、トランスクリプト(全ログ)、アウトカム(最終状態)の5要素で構成されるべきである。特に重要なのは「トランスクリプト(過程)」と「アウトカム(結果)」の区別だ。例えば、フライト予約エージェントが「予約完了」と発言しても、実際にDBに予約が存在しなければ失敗である。逆に、想定外の経路で正解に辿り着く「モデルの創造性」を殺さないよう、過度に厳格な手順のチェックを避け、最終的な状態や単体テストの結果を重視することを推奨している。
採点手法としては、以下の3つを組み合わせるハイブリッドアプローチを提示している:
1. **コードベース(決定論的)**: 単体テストや正規表現によるチェック。高速かつ安価で客観的。
2. **モデルベース(LLM-as-a-Judge)**: ルーブリック(評価基準)に基づき、共感性や出力の質など、主観が混じる要素を評価。
3. **人間による評価**: 最終的な「正解」の基準であり、モデルベースのグレーダーを校正するために使用する。
また、Webアプリケーションエンジニアが特に留意すべき点として、非決定的な挙動への対処が挙げられる。著者は、1回の成功率を示す「pass@1」だけでなく、複数回試行して一度でも成功するかを測る「pass@k」と、全ての試行で一貫して成功するかを測る「pass^k」を使い分けるべきだとしている。前者はツールとしての可能性を、後者は顧客向けサービスの信頼性を測る指標となる。
実践的なロードマップとして、まずは実際の失敗事例から20〜50個の小規模なタスクセットを作成することから始めるよう勧めている。そして、評価環境(ハーネス)はクリーンで隔離された状態(Shared Stateの排除)に保ち、何よりも「開発者自身がトランスクリプトを読み込むこと」が重要だと強調する。評価スコアは手段に過ぎず、エージェントがなぜ失敗したのかの直感を得ることこそが、製品の質を向上させる最短の道であると結論付けている。