Google は 2026 年 3 月 10 日(現地時間)、テキスト、画像、動画、音声、ドキュメントを単一の埋め込み(Embedding)スペースに処理できる初のネイティブマルチモーダル対応モデル「Gemini Embedding 2」を発表し、パブリックプレビューとして公開しました。
これまでテキストのみを対象としていた基盤モデルを大きく拡張し、Gemini アーキテクチャの強力な処理能力を活かすことで、100 以上の言語でデータが持つ意味合いを正確に捉えることができるようになりました。
現在、Gemini API および Vertex AI を通じて利用可能になっています。
テキストや画像、音声をまとめて理解するマルチモーダル機能
Gemini Embedding 2 の最大の特長は、多様なデータ形式を一つのリクエストで組み合わせて処理できる点です。 たとえば、テキストと画像を同時に読み込ませることで、データ間の複雑な関係性を AI がより正確に理解し、高精度な検索や分類が可能になります。
各データ形式における処理の上限は以下のとおりです。
- テキスト: 最大 8192 トークン
- 画像: 1 回のリクエストにつき最大6枚(PNG および JPEG 形式に対応)
- 動画: 最大 120 秒(MP4 および MOV 形式に対応)
- 音声: 事前にテキスト化(文字起こし)することなく、直接読み込んで処理が可能
- ドキュメント: 最大 6 ページの PDF ファイルを直接処理
音声をテキスト化する手間が省ける点や、画像とテキストを組み合わせた複雑な検索システムを構築できる点は、開発者にとって非常に使い勝手が向上したと言えます。
将来的に、Google Workspace 上での社内データ検索(RAG)や、独自チャットボットの精度向上なども期待できます。
コストと精度のバランスを調整できる柔軟な設計
以前のモデルと同様に、Gemini Embedding 2 は「マトリョーシカ表現学習(MRL)」と呼ばれる技術を採用しています。これにより、出力されるデータのサイズ(次元数)を柔軟に縮小できるため、アプリのパフォーマンスとストレージコストのバランスを取りやすくなっています。
標準の次元数は 3072 となっており、用途に合わせて3072、1536、768のいずれかを使用することで、最も高い品質が得られると推奨されています。
Gemini API および Vertex AI で提供開始
Gemini Embedding 2 は、従来モデルの単なるアップデートではなく、テキスト、画像、動画の各タスクにおいて既存の主要なモデルを上回るパフォーマンスを発揮し、高度な音声処理能力も備えています。
現在、Gemini API と Vertex AI からアクセスできるほか、LangChain や LlamaIndex、Vector Search といった主要なAI開発ツールやデータベースにも対応しています。
企業が社内の膨大なデータから必要な情報を瞬時に引き出したり、複雑な文書やメディアファイルを横断的に分析したりする高度なアプリケーションにおいて、Gemini Embedding 2 は強力な選択肢になることが期待されます。


