概要
https://qiita.com/autotaker1984/items/b7f77bac83e2d62aa8df
詳細内容
## GPT-5.1とgeoguessrするのがめっちゃ楽しい #Gemini
https://qiita.com/autotaker1984/items/b7f77bac83e2d62aa8df
著者は、GPT-5.1、GPT-5、Gemini 2.5 ProといったAIモデルの地理推論能力を、GeoGuessr形式の写真特定ゲームを通じて詳細に比較検証した。
**Content Type**: ⚙️ Tools
**Language**: ja
**Scores**: Signal:4/5 | Depth:3/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:4/5
**Main Journal**: 98/100 | **Annex Potential**: 98/100 | **Overall**: 72/100
**Topics**: [[LLM, 地理情報推論, AIモデル比較, GPT-5.1, 画像認識]]
筆者は、GPT-5.1に導入された「Adaptive Reasoning」スキル、すなわち問題の難易度に応じて推論時間を自動調整する機能に着目し、その推論能力を検証するため、自身が保有する風景写真を用いたGeoGuessr形式の地名特定ゲームを考案した。この実験では、GPT-5.1 Instantモードに加え、比較対象としてGPT-5 Instantモード、Gemini 2.5 Proを用い、各モデルが与えられた風景写真から地名を特定できるか、3回までの回答権とThinkingモデルへの移行ルールを設けて評価した。
実験の結果、江の島やシンガポールのガーデンズ・バイ・ザ・ベイ、黒部ダムといった有名なランドマークが写っている写真では、全てのAIモデルが高い精度で正解できた。しかし、難易度を上げた問題では各モデルの得意不得意が顕著に現れた。筆者の分析によると、GPT-5系モデルはランドマークや地形などの「知識型」判断に強く、不正解の場合でも都道府県レベルでは近い地域を特定することが多かった。一方、Gemini 2.5 Proは特徴が強く刺されば一撃で正解する「直感型」の傾向を見せたが、一度外れると大きく異なる場所を推測するなど、回答が大きくずれる場面もあった。
この実験から、AIが特定に難航するのは、「個性的な建物であってもあまり有名でないもの」や「明確な目印がない写真から特定できる情報を抜き出すこと」であり、AIの「目があまり良くない」という限界が浮き彫りになったと著者は指摘する。つまり、見た目の特徴が明瞭で知識データベースと結びつきやすい場所は得意だが、曖昧な視覚情報や知名度の低い場所からの推論は依然として課題であるという。
この検証は、AIモデルの地理推論能力とその限界を具体的なゲーム形式で示すものであり、WebアプリケーションエンジニアがAIを活用する際、特に画像認識や情報推論のタスクにおいて、モデルの特性や得意分野を理解することの重要性を示唆している。実用的なAIシステムを設計する上で、各モデルの推論スタイルの違いや、どのような情報がAIにとって「目印」となるかを把握するための貴重な洞察を提供する。