GLM-OCR: 高精度・高速・包括的なドキュメント解析を実現する0.9BパラメータのオープンソースOCRモデル

概要

GLM-Vアーキテクチャをベースにした、複雑なレイアウトや数式・表を高精度かつ高速に処理できる0.9Bパラメータの次世代マルチモーダルOCRモデル。

詳細内容

GLM-OCRは、Zhipu AIのGLM-Vエンコーダー・デコーダー構造を採用したドキュメント理解のためのマルチモーダルOCRモデルです。主な特徴として、以下の点が挙げられます。 1. **圧倒的な性能**: OmniDocBench V1.5でスコア94.62を獲得し、数式、表、情報抽出など主要ベンチマークでSOTAを記録。 2. **軽量かつ高速**: わずか0.9Bパラメータながら、Multi-Token Prediction (MTP)の導入により、vLLMやSGLangを用いた効率的な推論が可能です。 3. **実用的なパイプライン**: PP-DocLayout-V3によるレイアウト解析と並列認識を組み合わせ、複雑なビジネス文書やコード、印影などを含む実世界のデータに最適化されています。 4. **柔軟なデプロイ**: クラウドAPIの利用に加え、セルフホスト（vLLM, SGLang, Ollama, MLX）にも対応したSDKが提供されています。開発者向けに包括的なツールチェーンが公開されており、MarkdownやJSON形式での構造化出力が容易に行えます。

元記事を読む他のサマリーを見る