## GPT, Geminiのマルチモーダルドキュメントの認識能力評価

概要

https://tech.layerx.co.jp/entry/2025/12/17/114045

詳細内容

## GPT, Geminiのマルチモーダルドキュメントの認識能力評価 https://tech.layerx.co.jp/entry/2025/12/17/114045 LayerXは、GPTおよびGeminiのマルチモーダルモデルAPIを評価し、業務帳票や複雑なグラフからの情報抽出における認識能力の境界線を明らかにし、モデル選定の指針を提示しました。 **Content Type**: Research & Analysis **Language**: ja **Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5 **Main Journal**: 90/100 | **Annex Potential**: 89/100 | **Overall**: 92/100 **Topics**: [[マルチモーダルAI, VLM, GPT, Gemini, ドキュメント認識, 情報抽出]] LayerXのR&Dインターン生が、OpenAIのGPTシリーズ（GPT-4.1-mini, GPT-4.1, GPT-5-mini）とGoogleのGemini-2.5-proのマルチモーダルドキュメント認識能力をAPI単体で評価し、実用的な側面から各モデルの得意・不得意を明らかにしました。本検証の目的は、一般的なベンチマークではなく、実際の業務帳票や複雑なグラフを含むデータセットを使用し、「具体的にどのようなドキュメントなら読み取れて、どこで失敗するのか」という境界線を明らかにすることにありました。評価には、AI inside社のPolySphere-3データ（請求書、領収書など）、ECD（複雑な科学的チャート画像）、StockMark社のビジネススライド質問など、多様なレイアウトと視覚的複雑性を持つデータセットが用いられました。プロンプトエンジニアリングによるバイアスを排除するため、統一プロンプトでJSON出力を指示し、LLM（GPT-4.1）による判定で正答率を算出しました。検証の結果、性能・精度面ではGemini-2.5-proが頭一つ抜きん出ており、特に情報量が多く複雑な表からの構造化された情報抽出に優れていることが判明しました。一方、コストと速度の面ではGPT-4.1-miniが優秀で、汎用的なドキュメントであれば十分な精度を発揮します。また、GPT-4.1では半角カナ・記号の誤認識や文字の過剰な補正によるハルシネーションが多発したのに対し、GPT-4.1-miniは軽量なためかハルシネーションが少なく、扱いやすいという意外な発見もありました。どのモデルも標準的な棒グラフ、折れ線グラフ、一般的な帳票の数値・文字列の読み取りは可能ですが、現状のSOTAモデルでも「グラフの一部拡大図の認識」「複雑なネットワーク図の接続関係理解」「文字の上に訂正印やロゴが重なる情報の抽出」といった課題は克服できていないことが示されました。著者らは、この結果から、プロダクトへの応用においては「精度優先ならGemini-2.5-pro、コスト・速度優先ならGPT-4.1-mini」とモデルを使い分け、入力画像の難易度やシステムの要件に応じて最適なモデルを選択することが重要であると結論付けています。今回の検証フローはスクリプト化されており、Gemini 3など今後の新モデルの評価にも継続的に活用していく予定です。

元記事を読む他のサマリーを見る