概要
https://nowokay.hatenablog.com/entry/2025/08/11/152751
詳細内容
## GPT-5とClaude Sonnet 4でコーディング比較。ChatGPTはツールとして使い物にならない
https://nowokay.hatenablog.com/entry/2025/08/11/152751
本記事は、GPT-5とClaude Sonnet 4のコーディング能力をJava Swingの課題で詳細に比較し、GPT-5の性能向上を認めつつもChatGPTサービスがコーディングツールとして抱える具体的な実用上の問題点を浮き彫りにします。
**Content Type**: ⚙️ Tools
**Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 88/100 | **Annex Potential**: 87/100 | **Overall**: 88/100
**Topics**: [[LLMコーディング比較, GPT-5, Claude Sonnet 4, Java Swing, AI開発ツール課題]]
記事は、OpenAIのGPT-5とAnthropicのClaude Sonnet 4のコーディング能力を、Java Swingを使った多様なシミュレーション(マリオ、ドラゴンゲーム、砂時計、パストレーシング、キャビティ流れ)を通じて詳細に比較検証しています。その結果、GPT-5のコーディング能力は確かに向上し、特にマリオゲームにおける「かわいさ」の理解や、砂時計シミュレーションにおける複雑な要件への挑戦など、従来のモデルでは難しかった対応が見られました。これは、GPT-4oからさらに進化したモデルのポテンシャルを示すものです。
一方で、Sonnet 4はドラゴンゲームでの創造性、パストレーシングにおけるより標準的で正確な実装(コーネルボックス)、そしてキャビティ流れシミュレーションの成功など、依然として高い能力を発揮しており、特定の複雑なグラフィックスや物理シミュレーションでは優位性を示しました。特に、HTML+JSでより優れたUIを生成する傾向も指摘されており、Webアプリケーションエンジニアにとっては無視できない視点です。
しかし、本記事の最も重要な指摘は、GPT-5モデルの性能とは別に、**ChatGPTというサービスがコーディングツールとして実用性に欠ける**という点です。具体的な問題点として、Javaの`Timer`参照エラーの頻発、コード修正時のコメント消失、無関係なコードの変更、完全なコードを要求しても省略される問題、問題点を指摘してもコードを生成しないケース、更新が反映されない、そして無料プランの制限にすぐに達してしまう「コード出す出す詐欺」といった挙動が挙げられています。これらの課題は、モデルの能力が向上しても、ツールとしての信頼性や効率性を著しく損なうものであり、日々の開発ワークフローにAIを組み込もうとするエンジニアにとっては看過できない問題です。
結論として、モデル単体の性能は進化しているものの、利用するプラットフォームのUIや挙動が開発ワークフローに適していない場合、その真価を発揮できないという点が示唆されます。チャットUIでコードを書くのであれば、現時点ではClaudeの方が使い勝手が良いと筆者は提言しています。これは、WebアプリケーションエンジニアがAIツールを選定する際に、モデルの性能だけでなく、ツールの使いやすさや安定性も考慮すべきであるという重要な示唆を与えます。