SWE-CI: 継続的インテグレーションを通じたコードベース保守能力の評価ベンチマーク

概要

LLMエージェントが、単一のバグ修正を超えて長期的なCI（継続的インテグレーション）サイクルの中でいかにコード品質を維持・進化させられるかを評価する、初のリポジトリレベル・ベンチマーク。

詳細内容

本研究は、従来のSWE-benchのような静的なバグ修正評価から、より現実に即した「動的かつ長期的な保守性」の評価へとシフトするためのベンチマーク「SWE-CI」を提案しています。SWE-CIは100のタスクで構成され、各タスクは平均233日の進化履歴と71の連続したコミットを含みます。エージェントはCIループの中で、数十回に及ぶ分析とコーディングの反復プロセスを通じてタスクを解決することが求められます。これは、短期的な機能的正しさだけでなく、複雑な要件変更や長期間の機能反復に対する適応能力を測定することを目的としています。このベンチマークにより、実用的なソフトウェアエンジニアリングタスクにおけるAIエージェントの真の能力と課題が明らかになります。

元記事を読む