Gemini Embedding 2 の概要：Google初のネイティブ・マルチモーダル埋め込みモデル

概要

テキスト、画像、動画、音声を単一のベクトル空間に統合マッピングする、Google初のネイティブ・マルチモーダル埋め込みモデル「Gemini Embedding 2」が発表されました。

詳細内容

Googleは、Geminiアーキテクチャを基盤とした次世代埋め込みモデル「Gemini Embedding 2」をGemini APIおよびVertex AIでパブリックプレビューとしてリリースしました。従来のテキスト専用モデルと異なり、画像、最長120秒の動画、音声、最大6ページのPDFを単一の統合埋め込み空間に直接マッピング可能です。インターリーブ入力（画像とテキストの組み合わせ等）をネイティブに理解し、メディア間の複雑な関係性を捉えます。また、Matryoshka Representation Learning (MRL) を採用しており、デフォルトの3072次元から、精度を保ちつつ用途に応じて次元を動的に縮小（1536, 768など）できるため、検索パフォーマンスとストレージコストの最適化が可能です。LangChainやLlamaIndex、主要なベクトルデータベースへの統合も既にサポートされています。

元記事を読む他のサマリーを見る