## GLM-OCR：複雑な文書解析でSOTAを記録した0.9Bの軽量マルチモーダルOCRモデル

概要

https://huggingface.co/zai-org/GLM-OCR

詳細内容

## GLM-OCR：複雑な文書解析でSOTAを記録した0.9Bの軽量マルチモーダルOCRモデル https://huggingface.co/zai-org/GLM-OCR **Original Title**: zai-org/GLM-OCR **実現する**、0.9Bという軽量なパラメータ数で複雑な文書レイアウトの解析と構造化データ抽出において世界最高水準の性能を。 **Content Type**: ⚙️ Tools **Language**: en **Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 89/100 | **Annex Potential**: 87/100 | **Overall**: 88/100 **Topics**: [[OCR, マルチモーダルLLM, ドキュメント解析, vLLM, RAG]] **GLM-OCR**は、0.9Bという極めて軽量なパラメータ数でありながら、複雑な文書理解において世界最高水準の性能を持つマルチモーダルOCRモデルです。**GLM-V**アーキテクチャをベースに、**CogViT**ビジュアルエンコーダーと**GLM-0.5B**言語デコーダーを組み合わせ、**Multi-Token Prediction (MTP)**損失の導入により、学習効率と認識精度を大幅に向上させています。特にベンチマークの**OmniDocBench V1.5**で総合1位を獲得しており、数式、複雑な表、ソースコード、印影などが混在する実務上の難解なレイアウトでも高精度な解析が可能です。技術面では、**vLLM**、**SGLang**、**Ollama**といった主要な推論フレームワークをサポートしており、1秒あたり約1.86ページのPDF処理という高いスループットを実現しています。また、**JSONスキーマ**を指定した情報抽出（プロンプト制御）を標準でサポートしているため、身分証の読み取りや特定のビジネス文書からの構造化データ抽出といったワークフローに即座に統合できます。 RAG（検索拡張生成）の精度向上のためにPDFや画像からのテキスト抽出を効率化したいエンジニアや、エッジ環境で動作する高速なドキュメント解析パイプラインを構築したい開発者に最適なツールです。

元記事を読む他のサマリーを見る