概要
https://www.robert-glaser.de/agentic-pelican-on-a-bicycle/
詳細内容
## エージェント的な自転車に乗るペリカン
https://www.robert-glaser.de/agentic-pelican-on-a-bicycle/
**Original Title**: Agentic Pelican on a Bicycle
本記事は、マルチモーダルLLMがエージェント的なループを用いて自身の生成物を評価し、改善する能力を、自転車に乗るペリカンのSVG生成というタスクを通して検証した実験について報告している。
**Content Type**: Research & Analysis
**Language**: en
**Scores**: Signal:4/5 | Depth:4/5 | Unique:5/5 | Practical:3/5 | Anti-Hype:4/5
**Main Journal**: 81/100 | **Annex Potential**: 84/100 | **Overall**: 80/100
**Topics**: [[エージェントAI, マルチモーダルLLM, LLM評価, 自己修正, SVG生成]]
Robert Glaser氏は、マルチモーダルLLMがエージェント的なループ(生成、評価、改善)を通じて自身の創造的な出力をどれだけ評価し改善できるかを検証する興味深い実験を実施しました。これは、サイモン・ウィリソン氏が長年非公式ベンチマークとして用いてきた「自転車に乗るペリカンのSVG画像を生成する」というタスクに、LLM自身のビジョン能力とツールを利用した反復的な自己修正メカニズムを追加したものです。
実験では、Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5、GPT-5-Codex、Gemini 2.5 Proの6つのモデルがテストされました。これらのモデルは、ファイルシステム、コマンドライン、そしてSVGをJPGに変換するためのChrome DevTools MCPサーバーへのアクセス、そして自身のマルチモーダルなビジョン能力を利用して、生成した画像を視覚的に確認し、問題点を特定し、満足するまで改善を繰り返しました。著者は、反復ループを具体的な指示で誘導せず、モデル自身の判断に委ねることで、「モデルが何を修正しようと選択するのか」という点を重視しました。
結果はまちまちでしたが、重要な洞察が得られました。
Claude Opus 4.1などのモデルは、自転車のチェーンを追加したり、プロポーションを改善したりするなど、機械的な関係性を理解した上で思慮深い改善を示しました。これは、ビジョン主導の洗練が意図通りに機能している兆候です。
しかし、ほとんどのモデルは最初の構成を根本的に変更するのではなく、微調整や詳細の追加にとどまりました。初期の構成がほぼ固定され、その後の反復はそれを強化する形でした。
特にGPT-5-Codexは、初期の「抽象的」な試みをさらに複雑にする方向に進み、複雑さを改善と誤解している可能性が示唆されました。これは、エージェント的なループが必ずしも良い結果につながるとは限らないことを示唆しています。
著者は、エージェント的なアプローチがゼロショット生成とは異なる結果を生む一方で、それがより良い結果をもたらすかどうかは、モデルの自己批判能力に大きく依存すると結論付けています。ビジョン能力だけでは不十分であり、美的判断、機械的推論、またはいつ詳細の追加をやめるべきかという知恵も不可欠であると指摘しています。
Webアプリケーションエンジニアの視点から見ると、この実験は、LLMを用いたエージェントシステムの設計において、単に反復を許可するだけでなく、モデルが自身の出力をどのように評価し、どのような基準で改善するかを慎重に設計することの重要性を示唆しています。特に、創造的または複雑なタスクにおけるLLMの自己修正能力の限界と特性を理解することは、より堅牢で効果的なAIアシスタントやツールを構築する上で重要です。