掲載済み (2026-02-28号)
#195 186文字 • 1分

@vercel/agent-evalでCLAUDE.mdの効果を検証する

日本語

掲載情報

概要

Vercel Labsが公開した「@vercel/agent-eval」を用いて、CLAUDE.mdなどのコーディングエージェント用指示書が生成AIの出力精度に与える影響を定量的に検証する手法の紹介。

詳細内容

コーディングエージェント(Claude CodeやCursor等)の挙動を制御する「CLAUDE.md」や「Agent Skills」の改善を、感覚ではなく数字で評価するためのツール「@vercel/agent-eval」の解説記事です。 このツールは、Dockerコンテナ内のサンドボックス環境でエージェントを動かし、生成されたコードをvitestで自動検証する「AIエージェントのテストランナー」として機能します。特徴的なのは、エージェント実行前に検証用コード(EVAL.ts)を除外することで「カンニング」を防止し、純粋なプロンプトと環境による成果を測定できる点です。 記事内では、Next.jsの特定のコーディング規約(font/googleの使用やServer Actionsの利用)を記述したCLAUDE.mdがある場合とない場合での比較実験を行い、モデル(Claude 3.5 Haiku)のパス率が大幅に向上(20%から80%)した結果を報告しています。これにより、チーム開発におけるAIエージェント指示書の継続的な改善と、デグレ防止のためのCI組み込みの有用性が示されています。