## DeepSeek-OCRを試す

概要

https://note.com/shi3zblog/n/n99bb0c642f1e

詳細内容

## DeepSeek-OCRを試す https://note.com/shi3zblog/n/n99bb0c642f1e 著者は、DeepSeek-OCRの長文文脈理解能力を検証し、HuggingFace版では課題があったものの、vLLM版がPDFからの高精度なMarkdown変換に優れることを実践的に示した。 **Content Type**: ⚙️ Tools **Language**: ja **Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 86/100 | **Annex Potential**: 84/100 | **Overall**: 84/100 **Topics**: [[DeepSeek-OCR, OCR技術, LLM, vLLM, 開発環境構築]] 本記事では、著者がDeepSeek-OCRの「視覚的に文章を理解することで、より長い文脈に対応できる」という主張を検証した実践的な試行が報告されています。一般的なOCRとは異なるこの特性に注目し、長い文章を画像化して読み取らせるという「意地悪な」テストを通じてその真価を探りました。まず、著者は`uv`を用いた環境構築からDeepSeek-OCRのHuggingFace版を試しました。`torch`や`vllm`、`flash-attn`などの依存関係をインストールする具体的なコマンドが示されています。しかし、公式チュートリアルで`vllm`のダウンロードが省略されている点や、サンプルコードが単純すぎて手動でのファイル名変更や出力ディレクトリ指定が必要な点に注意を促しています。長いPNGファイルを読み込ませたところ、期待通りには機能せず、画像部分の認識はほぼ失敗しましたが、1ページ単位であれば比較的良好な結果が得られることが判明しました。この段階では、謳われている「画像からコンテキストを追うことで長文に対応」というメリットは実感できませんでした。次に、著者はDeepSeek-OCRのvLLM版に挑戦しました。vLLM版の利用には`config.py`を編集して入力・出力パスを設定する必要があり、こちらも使い方の説明が不足していると指摘しています。しかし、書籍のPDFを直接入力パスに渡したところ、「ほぼ完璧なMarkdownが得られた」と報告されており、長文処理におけるvLLM版の優れた性能が確認されました。結論として、著者はDeepSeek-OCRがその本領を発揮するのはvLLM版であり、特にPDFのような長文の文書変換において非常に有効であると評価しています。ただし、vLLM版の呼び出し方が複雑で、利用には自分でラッパーを記述するなどの工夫が必要であると述べています。公式リポジトリのドキュメントの分かりにくさも課題として挙げつつも、ツールの潜在的な価値は高いと結論付けています。

元記事を読む他のサマリーを見る