掲載済み (2025-12-27号)
#012 493文字 • 3分

## AIによる長期タスク実行能力の測定:完了までの時間が7ヶ月ごとに倍増

原題: Measuring AI Ability to Complete Long Tasks

英語

掲載情報

2025年12月27日土曜日号 メインジャーナル掲載

概要

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

詳細内容

## AIによる長期タスク実行能力の測定:完了までの時間が7ヶ月ごとに倍増 https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ **Original Title**: Measuring AI Ability to Complete Long Tasks AIエージェントが自律的に完了できるタスクの長さ(時間軸)が約7ヶ月ごとに倍増しているという調査結果に基づき、数年以内に週単位の複雑なプロジェクトを完遂可能になると予測する。 **Content Type**: 🔬 Research & Analysis **Language**: en **Scores**: Signal:5/5 | Depth:5/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:4/5 **Main Journal**: 94/100 | **Annex Potential**: 94/100 | **Overall**: 92/100 **Topics**: [[AI Evaluation, Autonomous Agents, Task-Completion Horizon, Software Engineering, Benchmarking]] AI評価機関のMETR(旧称:ARC Evals)は、AIエージェントの能力を測る新たな指標として「タスク完了までの時間軸(Time Horizon)」を提唱した。これは、人間が完了するのに要する時間に基づき、AIがどれほどの長さのタスクを自律的に完遂できるかを定量化するものだ。著者は、現在のフロントエンドモデル(Claude 3.7 Sonnet等)は、人間が数分で終わらせるタスクには100%近い成功率を示すが、4時間を超えるタスクでは成功率が10%未満に急落すると指摘する。しかし、この「完遂可能なタスクの長さ」は過去6年間、約7ヶ月ごとに2倍のペースで指数関数的に成長している。 ウェブアプリケーションエンジニアにとって、この報告はAIとの協働プロセスの転換点を示唆している。従来のベンチマークは知識や単発の推論(スプリント能力)を重視してきたが、実務レベルの「エージェント」には、数時間から数日間にわたる複数のステップやツール利用、エラー修正を自己完結させる「耐久力」が必要となる。著者の分析によれば、この成長トレンドが今後数年続けば、現在は人間の専門家が数日、あるいは数週間を費やすようなソフトウェア開発プロジェクトを、AIエージェントが自律的に完了できる時代が10年以内に到来するという。 著者がこのアプローチを重要視する理由は、AIの性能向上が実世界のインパクトにどう直結するかを予測しやすくするためだ。従来の「正答率」という尺度では、100%に近づくにつれて実用性の向上が見えにくくなる。一方で「時間軸」で測れば、数分の作業の自動化から数ヶ月のプロジェクトの自動化までを単一の対数スケールで捉えられる。筆者は、現在のAIが日常業務を代替しきれていないのはスキル不足ではなく、長いシーケンスを破綻なく繋ぎ合わせる能力の不足であると分析しており、この時間軸の延伸こそが「AIによる労働の代替」を測る真のシグナルになると主張している。開発現場における将来のワークフロー設計において、AIが担える「タスクの長さ」を前提にした戦略的判断が必要になる。