概要
https://zenn.dev/olemi/articles/gemini-3-vision-supermarket-flyer-test
詳細内容
## Gemini 3 ProのVision性能をチラシチャレンジしてみた
https://zenn.dev/olemi/articles/gemini-3-vision-supermarket-flyer-test
Gemini 3 Proは、スーパーの複雑なチラシから商品情報を正確に抽出する「チラシチャレンジ」で他モデルを上回る性能を示し、Vision機能の実用性を検証しました。
**Content Type**: 🔬 Research & Analysis
**Language**: ja
**Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 90/100 | **Annex Potential**: 89/100 | **Overall**: 92/100
**Topics**: [[Vision AI, LLM性能評価, OCR, 文書理解, ハルシネーション]]
この記事は、AIモデルのVision性能、特に日本語の複雑なレイアウトを持つ文書の読解および構造理解能力を測る「チラシチャレンジ」について詳述しています。著者は、最新のGemini 3 Pro、ChatGPT (おそらくGPT5.1?)、Claude 4.5 Sonnet、Grok 4.1を比較し、その実力を検証しました。
検証では、情報量が多くレイアウトが複雑な「スーパー玉出」のチラシを使用し、「木 27日 限り」の特定枠内にある全商品情報を抜き出すタスクを与え、各モデルに「木曜日のお買い得商品を全て教えて」というシンプルなプロンプトを投入しました。
結果として、Grok 4.1とClaude 4.5 Sonnetは、チラシに記載のない多くの商品を捏造(ハルシネーション)し、実用不可と評価されました。ChatGPTは抽出した情報の正確性は高かったものの、対象20商品中4商品しか認識できず、網羅性に課題を残しました。
一方、Gemini 3 Proは、20商品中10商品を正確に抽出し、さらに3つの部分正解(商品名の一部混同や価格の読み取りミスなど)を記録しました。特に、他のモデルが見落とした「キャノーラ油」や「麻婆茄子の素」なども認識するなど、複雑なレイアウトからここまで詳細な情報を認識できたのはGemini 3 Proのみでした。一部のミスはあったものの、その性能は「実用圏内」にあると結論付けられています。
著者は、Gemini 1.5の時点でもVision性能は高いと感じていたが、Gemini 3 Proでさらに精度が向上したと評価しています。この結果は、ウェブアプリケーションエンジニアが日本のスーパーのチラシのような複雑な画像情報から、商品名、内容量、価格といった構造化されたデータを抽出する際に、Gemini 3 Proのような最新のVision AIモデルが現実的な選択肢となりつつあることを強く示唆しています。特に、ハルシネーションのリスクを管理しつつ、高い網羅性を求める要件において、今後の活用が期待されます。