ARC-AGI-3: 人間のような知能を測定するインタラクティブな推論ベンチマーク

概要

ARC-AGI-3は、AIエージェントが動的な環境下で自律的に学習、適応、計画を立てる能力を測定し、人間とAIの知能の差を評価する新しいベンチマークです。

詳細内容

ARC-AGI-3は、AIエージェントの汎用人工知能（AGI）への進展を評価するための最新ベンチマークです。従来の静的なパズルとは異なり、エージェントは未知の環境を探索し、フィードバックを通じてリアルタイムで目標を取得・適応することが求められます。自然言語による指示を排除し、純粋な推論と経験による世界モデルの構築を重視している点が特徴です。人間にとっては直感的で解きやすい環境でありながら、AIにとっては長期的な計画やメモリ圧縮が必要な難易度に設計されており、AIと人間の学習効率の差を定量化します。開発者向けにSDKや対話型UI、評価ツールも提供されており、ARC Prize 2026の主要な評価指標となります。

元記事を読む