掲載済み (2026-03-21号)
#201 143文字 • 1分

日本語の手書きメモを書き起こせるOCRを探すために21モデルを片っ端から試した話

日本語

掲載情報

概要

日本語の手書きメモOCR精度を検証するため、Gemini 3.1、GPT-5.4、YomiTokuなど21種類のAPI・OSSモデルを比較し、Geminiシリーズが最高精度を記録したことを示す実証レポート。

詳細内容

日本語の手書き文字は読み順や形状の複雑さからOCRの難易度が高い。本記事では、Hungarian NLSやCERなどの指標を用い、計21の主要VLMおよびOCRモデルを比較検証している。結果として、Gemini 3.1 Pro Previewが最高精度(NLS 0.924)を達成し、軽量版のFlash Liteも非常に高いコストパフォーマンスを示した。API勢ではGoogle Cloud VisionやAzure AI Visionが速度面で圧倒的だが、OSS勢では日本語特化のYomiTokuや軽量なGLM-OCRが健闘。一方で、GPT-5.4は日本語手書きにおいて苦戦し、DeepSeekやMistral等のモデルでは多言語ハルシネーション(中国語混入等)が見られた。Modalを用いた実行環境や、アノテーションツールの自作、評価指標の設計など、エンジニアリングの側面からも詳細に解説されている。