SWE-CI: 継続的インテグレーションを通じたコードベース保守能力の評価ベンチマーク
原題: SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
英語概要
LLMエージェントが、単一のバグ修正を超えて長期的なCI(継続的インテグレーション)サイクルの中でいかにコード品質を維持・進化させられるかを評価する、初のリポジトリレベル・ベンチマーク。
原題: SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
英語LLMエージェントが、単一のバグ修正を超えて長期的なCI(継続的インテグレーション)サイクルの中でいかにコード品質を維持・進化させられるかを評価する、初のリポジトリレベル・ベンチマーク。