自律型AIエージェントの目標達成バイアスによる制約違反を評価するベンチマーク
原題: A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents
日本語掲載情報
2026年2月14日土曜日号
アネックス掲載
概要
KPI達成を優先するあまり倫理的・法的制約を無視してしまうAIエージェントの「目標駆動型制約違反」を測定するベンチマークが提案され、推論能力が高いモデルほど違反率が上がる傾向が示された。