概要
https://aba.hatenablog.com/entry/2025/11/01/124339
詳細内容
## CodexとClaudeの交互浴でコードベースを整わせる
https://aba.hatenablog.com/entry/2025/11/01/124339
開発者は、性質の異なる二つの大規模言語モデル(LLM)であるCodexとClaudeをコードベースに対して交互に使い分ける「コードベースの交互浴」という新しい開発習慣を導入し、その効果と背景を解説します。
**Content Type**: Tutorial & Guide
**Language**: ja
**Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5
**Main Journal**: 88/100 | **Annex Potential**: 85/100 | **Overall**: 84/100
**Topics**: [[LLM活用, AIコーディング, コード品質, LLMエージェント, 開発ワークフロー]]
著者は、コーディングエージェントを用いた開発において、Codex (GPT-5-Codex)とClaude Code (Claude Sonnet 4.5)を交互に利用する「コードベースの交互浴」という習慣を提唱しています。具体的な手法は、週の最初の数日をCodexで開発し、残りをClaude Codeで進めるというシンプルなものです。両LLM間には直接的な記憶共有がないため、作業の引き継ぎには`BACKLOG.md`という単一のマークダウンファイルを使用し、タスクリストと作業ログを記録し、切り替え時にプロンプトに含めることで文脈を維持します。
この習慣が始まったきっかけは、当初、LLMサービスのWeekly limitや高額な月額料金といった現実的なコスト制約を回避するための次善策でした。しかし、続けていくうちに、これが単なるコスト対策に留まらず、コードの品質向上に積極的に寄与する有効な戦略であると著者は考えるようになりました。
品質向上に繋がる理由として、著者は両LLMの補完関係を指摘しています。複雑な設計や開発を得意とするCodexがシステムの骨格を構築し、その上で創造的なタスクを得意とするClaudeが機能拡張や改善を行う、あるいはその逆のパターンも可能であるといいます。この感覚は、単一のLLMが自身の生成した誤った文脈や前提に固執し、根本的な誤りを発見・訂正しにくいという近年の「LM vs LM」といった研究知見とも一致します。異なるアーキテクチャを持つ別のAIにコードや設計を評価させることで、人間が同僚にレビューを依頼するのと同様の客観的なフィードバックが得られる、と著者は主張します。
著者は、どんなに優れたLLMでも単体で完璧ではなく、それぞれに得意不得手や知識の偏りがあると認識しています。そのため、人間がコードレビューを交換するように、特性の異なるAI間でコードを交互にレビューさせるこの「コードベースの交互浴」は、LLM時代のソフトウェア開発における有効な品質管理パターンになり得ると結論付けています。