Google、動画生成 AI モデル「Gemini Omni」を発表。第一弾の Gemini Omni Flash が本日より提供開始

2026年5月20日

当サイトは Google Adsense、Amazon アソシエイト等アフィリエイト広告を利用して収益を得ています.

Google は 2026 年 5 月 19 日（現地時間）、新しいマルチモーダル生成 AI モデルファミリー「Gemini Omni」を発表しました。

その第一弾となる「Gemini Omni Flash」は同日よりグローバルで提供を開始しており、テキスト・画像・音声・動画を組み合わせた入力から高品質な動画を生成・編集できる点が特徴です。

Gemini Omni とは

Gemini Omni は、従来の Veo がテキストから動画を生成するモデルであるのに対し、テキスト、画像、音声、動画といったあらゆる形式の入力を受け付け、Gemini が持つ現実世界の知識に基づいた動画を出力します。

Google DeepMind の CTO であり Google の Chief AI Architect を務める Koray Kavukcuoglu 氏は、両者の違いについて「Veo はテキストから動画のモデルだが、Omni は真のマルチモーダル入力・マルチモーダル出力モデルだ」と説明しています。

自然言語による動画編集

Gemini Omni Flash は、自然言語による動画編集が可能で、会話形式でプロンプトを重ねることで、登場キャラクターの一貫性や物理的な動きを保ちながら、シーンの変更や追加が行えます。

撮影済みの動画を入力として渡し、キャラクターの動作を変更したり、新しいオブジェクトを追加したりといった編集も可能です。

物理演算と世界知識の統合

Gemini Omni は重力、運動エネルギー、流体力学といった物理現象への理解が向上しており、より自然な動きのシーンを生成できます。

また、Gemini が持つ歴史、科学、文化に関する知識を活用し、単純なパターンマッチングを超えた映像表現が可能です。

複数の入力形式に対応

テキスト、画像、動画を自由に組み合わせた入力に対応しており、キャラクター画像を参照としたキャスティングや、スタイル参照を使った映像変換などができます。

音声については、まず自分の声を使ったアバター機能からの対応となり、その他の音声入力は順次拡充予定です。

生成された動画には「SynthID」が埋め込まれる

生成されたすべての動画には、電子透かし技術「SynthID」が自動的に埋め込まれます。

動画が Gemini Omni によって生成されたものかどうかは、Gemini アプリ、Gemini in Chrome、Google 検索から確認できます。

提供プランと対応プラットフォーム

Gemini Omni Flash は本日より、Google AI Plus、Pro、Ultra の全有料プランユーザーを対象に、Gemini アプリおよび Google Flow を通じてグローバルに順次提供が開始されます。

YouTube ショート動画および YouTube Create アプリでは今週より無料で利用可能です。デベロッパーや企業向けの API 提供は数週間以内に開始される予定です。

今後は画像や音声といった出力形式への対応も予定されており、Gemini Omni ファミリーは段階的に拡充される見込みです。

関連記事:

Google AI Ultra が月額 14,500 円から利用可能に。上位プランも 32,000 円に値下げ

尾村真英

Technical Writer

HelenTech を運営している尾村真英です。これまでに 50 台以上の Chromebook をレビューしており、主に小規模事業者を対象に Chromebook や Google Workspace の導入・活用支援も行っています。
現在は、Chrome Enterprise 公式ユーザーコミュニティのモデレーターとしても活動し、Professional ChromeOS Administrator 資格を保有しています。