gemini embedding 2 で "資料単位のナレッジ化" が容易に！？OCRできない見た目の知識をRAG化する

概要

Googleのマルチモーダル埋め込みモデル「gemini-embedding-2-preview」を活用し、OCRが困難な資料の「見た目」の情報をそのままベクトル化してRAGに組み込む手法を解説。

詳細内容

2026年3月に公開された「gemini-embedding-2-preview」は、テキスト、画像、PDF、動画、音声を同一のベクトル空間にマッピング可能なマルチモーダル埋め込みモデルです。本記事では、従来のOCRによるテキスト抽出に依存したRAGの課題を指摘し、資料のレイアウト、書式、印影といった「視覚的な特徴」を直接検索のキーとして活用する手法を提案しています。銀行の通帳画像を例に、資料そのものを埋め込み、紐づけられた業務ナレッジ（担当者情報や処理フロー）を検索・推論するPythonの実装例を紹介。文字情報が不足している資料でも、見た目の類似性から適切な業務判断を支援する新しいRAGの可能性を示しています。

元記事を読む