Gemini Embedding 2: Google初のネイティブ・マルチモーダル埋め込みモデルが発表

概要

Googleは、テキスト、画像、動画、音声、ドキュメントを単一の共有ベクトル空間にマッピングし、高度なマルチモーダル検索やRAGを実現する「Gemini Embedding 2」を公開しました。

詳細内容

Google DeepMindは、Geminiアーキテクチャをベースとした次世代埋め込みモデル「Gemini Embedding 2」をパブリックプレビューでリリースしました。本モデルの最大の特徴は、テキスト、画像、最大120秒の動画、音声、PDFドキュメントを一つの統一された埋め込み空間に統合できる「ネイティブ・マルチモーダル性」です。これにより、従来のようなメディアごとの個別処理が不要になり、テキストと画像を組み合わせたインターリーブ入力による複雑な意味理解も可能になりました。技術面では、Matryoshka Representation Learning（MRL）を採用しており、デフォルトの3072次元から精度とコストのバランスに応じて動的に次元数を縮小可能です。Gemini APIおよびVertex AIを通じて利用可能で、LangChainやLlamaIndexといった主要な開発フレームワークとも統合されています。

元記事を読む