概要
https://www.lesswrong.com/posts/u6Lacc7wx4yYkBQ3r/insights-into-claude-opus-4-5-from-pokemon
詳細内容
## ポケモン攻略から見るClaude Opus 4.5の進化と限界:視覚・記憶・推論の現在地
https://www.lesswrong.com/posts/u6Lacc7wx4yYkBQ3r/insights-into-claude-opus-4-5-from-pokemon
**Original Title**: Insights into Claude Opus 4.5 from Pokémon
ポケモン「赤」の攻略実験を通じ、Claude Opus 4.5が示した視覚認識や長期記憶(ノート作成)の飛躍的向上と、依然として残る「認知バイアス」や計画性の欠如を分析する。
**Content Type**: 🔬 Research & Analysis
**Language**: en
**Scores**: Signal:4/5 | Depth:4/5 | Unique:5/5 | Practical:3/5 | Anti-Hype:4/5
**Main Journal**: 81/100 | **Annex Potential**: 83/100 | **Overall**: 80/100
**Topics**: [[Claude Opus 4.5, AIエージェント, コンピュータビジョン, 推論能力, ベンチマーク]]
本記事は、Claude Opus 4.5をゲーム「ポケットモンスター 赤」で動作させ、そのエージェント能力を分析したレポートである。筆者は、独自の「最小限のハーネス(外部支援)」を用いたこのテストが、LLMの純粋な認知能力を測る優れたベンチマークになると主張している。
まず、**視覚能力の劇的な向上**が報告されている。Sonnet 3.7以前のモデルでは、ドアや建物、NPCの識別が困難であったが、Opus 4.5はこれらを即座に認識し、ジムリーダーの識別も正確に行う。しかし、完璧ではない。筆者は「不注意による盲目」という現象を指摘しており、モデルが特定の目的地に固執すると、視界にあるはずの障害物(いあいぎりで切れる木など)を無視したり、ただの壁を目的のエレベーターだと誤認する「幻覚」を起こしたりする。これは、注意機構が「重要ではない」と判断した情報を遮断している可能性を示唆している。
**記憶とノート作成の進化**も顕著だ。モデル自体は学習内容を定着させられないため、筆者はこれを「前向性健忘(新しい記憶を作れない状態)」の患者に例えている。Opus 4.5は過去15分程度の文脈を維持する能力が向上し、さらに自身の「ノート(メモ)」を読み書きする精度が飛躍的に高まった。これにより、一度行った複雑な移動を再現できるようになり、ゲーム進行のスピードが向上した。しかし、一度ノートに誤った前提(「階段がエレベーターである」等)が書き込まれると、その修正に数日を要するほど、外部記憶への依存度が強い。
一方で、**長期的な計画性**には依然として大きな課題がある。モデルは短期的目標に極端に執着し、貴重なアイテムを不用意に捨てたり、強力な技を無意味に浪費したりする。また、「トレーナーの視界に入るとバトルが始まる」といったゲームの根本ルールを抽象化して理解するまでには至っていない。
エンジニアへの重要な示唆として、筆者は「モデルの知能」だけが性能を決定するのではないと述べている。GPT-5.1などの競合が驚異的な速度でゲームをクリアしているのは、優れたプロンプトやミニマップの提供など、「ハーネス(周辺設計)」の最適化による影響が大きい。AIエージェントの構築において、モデルの進化を活かすための外部システム設計がいかに重要であるかを、この実験は鮮明に描き出している。