概要
https://zenn.dev/kosyamada/articles/97de6ec681d4f5
詳細内容
## Geminiに謎解きさせてみた
https://zenn.dev/kosyamada/articles/97de6ec681d4f5
Geminiが多様な謎解き問題に挑戦したが、抽象的な人間的常識に基づく問題には苦戦し、VLMにおける推論能力の限界と今後の進化の必要性が示された。
**Content Type**: Research & Analysis
**Language**: ja
**Scores**: Signal:4/5 | Depth:3/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:5/5
**Main Journal**: 74/100 | **Annex Potential**: 76/100 | **Overall**: 76/100
**Topics**: [[VLM, Gemini, 謎解きAI, 推論能力, LLMの限界]]
サイバーエージェント AI Labの山田氏が、Google Geminiの謎解き能力を検証する記事です。LLM/VLMが人間の持つ抽象的な常識や視覚的な手がかりをどこまで理解し、推論できるのかを探る目的で行われました。
検証は三つの異なる種類の謎解き問題を用いて行われました。
まず「五十音表の問題」では、五十音図を模したグリッドが提示されました。Geminiは、この図を日本の都道府県地図と誤認し、正しく五十音表として認識できませんでした。例えば、図中のイラストを地域の特産品と結びつけたり、黒いマスを区分けと解釈したりする一方、五十音表という言葉は一切出ませんでした。文字を配置して初めて正解を導き出しましたが、それはもはや謎解きではなく穴埋めに過ぎず、ひらめきを必要とする課題には対応できない限界を示しました。
次に「曜日に関する問題」では、一週間のカレンダーを模したグリッドが提示されました。Geminiはカレンダーであることを認識し、赤枠を日曜日、青枠を土曜日と正しく特定しました。しかし、日本の曜日名から文字を拾うべきところで、英語での曜日名(例: Saturdayの「S」)から文字を抽出しようとする誤った推論に陥りました。さらに、英語に寄せた問題でも、英語の曜日名ではなく、日本語のローマ字表記(KINYOUBI)から文字を拾うなど、言語処理における複雑な誤認が見られました。
最後に「アルファベットに関する問題」では、分母26の分数でアルファベットの順序を示す暗号が提示されました。このタイプの問題(A1Z26暗号)に対しては、Geminiは思考ステップも最小限で正解を導き出すことができました。これは、モデルがこの形式の知識を純粋に学習している可能性を示唆します。しかし、本文の文字数にヒントが隠された「意地悪な問題」では、アルファベット暗号のロジックに固執し、罠にはまって正解を導き出せませんでした。
ウェブアプリケーションエンジニアの視点から見ると、この検証結果は、現在のVLM/LLMが抽象的な人間的常識や文脈依存性の高いパズル形式の推論に苦慮している現状を明確に示しています。これは、AIを活用したシステム開発において、モデルの汎用的な「知能」に過度な期待をせず、特に複雑なユーザー入力の解釈や、文化的なニュアンス、視覚的メタファーを含むタスクを処理させる際の限界を理解することの重要性を示唆します。モデルの「思考モード」が必ずしも正しい方向への思考を導かないという知見は、AIエージェントの設計における堅牢性や、ドメイン特化型データの必要性を再認識させます。
著者は、Geminiほどのモデルでも人間の常識を抽象化した推論はまだ難しく、「謎解きAI」を実現するには専用のデータ作成が不可欠であると結論付けています。しかし、今後のVLMの進化には大きな期待を寄せています。