Gemini Embedding 2: Google初のネイティブマルチモーダル埋め込みモデル

概要

テキスト、画像、動画、音声、PDFを単一のベクトル空間に統合し、高度なマルチモーダルRAGや検索を実現するGoogle初のネイティブ埋め込みモデルが登場。

詳細内容

Googleは、Geminiアーキテクチャを基盤とした初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」をパブリックプレビューで公開しました。このモデルの最大の特徴は、テキスト、画像、動画（最大120秒）、音声、および文書（最大6ページのPDF）を単一の共通埋め込み空間にマッピングできる点にあります。複数のモダリティを組み合わせた「インターリーブ入力」をネイティブに理解できるため、画像とテキストを組み合わせた複雑なコンテキストの検索も容易になります。また、Matryoshka Representation Learning (MRL) を採用しており、ストレージコストや性能要件に応じて出力次元数（最大3072）を柔軟に調整可能です。従来のテキスト専用モデルを凌駕する性能を持ち、マルチモーダルRAGやセマンティック検索、データクラスタリングの精度を飛躍的に向上させます。

元記事を読む他のサマリーを見る