Qwen3.5の中規模モデル(122B/35B/27B/9B)をコーディングエージェントで試してみる

概要

Qwen3.5の中規模モデル群をコーディングエージェントとして比較検証し、122Bは実用的だが35B以下は修正能力に課題があること、またgpt-oss-20bの意外な高さを報告している。

詳細内容

著者のきしだ氏が、Qwen3.5シリーズの複数モデル（122B, 35B, 27B, 9B）をOpenCodeやRoo Codeといったコーディングエージェント環境でテストした記録。Java 25の標準ライブラリのみを用いたTODOアプリ開発をお題とした結果、122Bは実用レベルのコードを生成できたが、35Bや27Bは修正プロセスで既存コードを壊す傾向があり、9Bは構文エラーで完動に至らなかった。特筆すべき点として、ベンチマークスコアでは劣るgpt-oss-20bが、エージェント環境においてQwenが苦戦したバグを一発で修正する高い実用性を示したことが挙げられている。結論として、現状では35B以下の単体利用は厳しく、中規模モデルと修正に強いモデルを組み合わせる運用が現実的であると考察している。

元記事を読む他のサマリーを見る