Google DeepMind

Gemini Omni

近日公開

公開Vertex AI APIはI/O 2026後数週間で展開中

Gemini Omni Flashは2026年5月19日にリリースされました。公開Vertex AI APIが展開され次第、LoveGen AIに追加します。

Published May 12, 2026Updated May 12, 2026

Gemini Omni Flash AIビデオジェネレーター

GoogleのUnified Omniモデルで動画を作成・編集

Gemini Omni FlashはGoogle DeepMindの新しい統合ビデオ生成モデルで、2026年5月19日のGoogle I/O 2026で発表・公開されました。専用のVeoモデルとは異なり、Gemini Omni Flashはテキスト・画像・音声・動画の入力をネイティブに受け付け、高解像度の動画と同期音声を1回のパスで生成するシングルトランスフォーマーベースのオムニアーキテクチャで構築されています。会話型マルチターン編集に対応しており、カメラアングルの変更、オブジェクトの差し替え、シーンの書き換え、背景の変更を自然言語プロンプトで実行できます。

Gemini OmniはGoogle I/O 2026で発表され、最初の出荷バリアント——Gemini Omni Flash——が同日（2026年5月19日）に展開開始されました。Googleはこのモデルを「あらゆる入力から何でも作れる」モデルと説明しており、動画から始まり、GeminiのReasoningと生成メディアを組み合わせてより強力な世界理解、マルチモーダル性、編集を実現します。

公開時点で、Gemini Omni Flashはネイティブ同期音声を伴う10秒の高解像度クリップを生成します——リップシンク付き対話、画面上のアクションに合わせた効果音、アンビエントバックグラウンド——これらすべてがシングルフォワードパスで生成されます。Googleは10秒の制限がモデルの制約ではなく展開上の判断であることを確認しています。重力・運動エネルギー・流体力学を含む物理演算の理解が向上し、よりリアルなモーションを実現しています。

主要な出荷機能は会話型マルチターン編集です。クリップが完成したら、自然言語で変更内容を指定します——「カメラアングルを左にシフトして」「彫刻を泡で作って」「人物が鏡に触れたとき、液体のように波紋を立てて」——するとOmniが対象の要素を書き換えながら残りは維持します。リファレンス・スタッキングを使えば、キャラクター画像・音声ファイル・スタイルリファレンスを1つのプロンプトで組み合わせられ、ワンクリック適用のテンプレートベース作成がGeminiアプリとGoogle Flowに組み込まれています。

Gemini Omni FlashはGeminiアプリとGoogle Flowを通じてGoogle AI Plus・Pro・Ultraサブスクライバーへグローバル展開中で、YouTube Shorts RemixとYouTube Createアプリでは18歳以上のユーザーに無料で提供されます。生成された全動画には知覚不能なSynthIDウォーターマークとC2PAコンテンツ認証情報が付与されます。Vertex AIを通じた公開開発者・企業向けAPIアクセスはI/O後数週間で展開予定で、LoveGen AIはAPIが公開され次第Gemini Omni Flashを統合します。

Gemini Omni Flashの使い方

ステップ1：作成モードを選択

テキストプロンプトから生成、画像のアニメーション化、複数のリファレンス（画像・音声・スタイル）の組み合わせ、またはワンクリック作成のための組み込みテンプレートから選択します。

ステップ2：動画または編集内容を指定

詳細なプロンプトを入力するか、自然言語で編集内容を指定します——Gemini Omni Flashはチャット経由でカメラの動き・オブジェクト差し替え・背景変更・スタイル変更を理解します。

ステップ3：生成してブラッシュアップ

「生成」をクリック。Gemini Omni Flashはネイティブ同期音声付きの10秒高解像度クリップを返します。マルチターンチャットで最初から作り直さずに特定の要素を調整できます。

Gemini Omni Flash 技術仕様

提供元	Google DeepMind
リリース日	2026年5月19日（Google I/O 2026）
バリアント	Gemini Omni Flash（Omniファミリー初の出荷モデル）
アーキテクチャ	統合トランスフォーマーベースのオムニモデル（テキスト＋画像＋音声＋動画入力→動画＋音声出力）
入力モード	テキスト・画像・音声・動画——マルチリファレンス・スタッキングを含む
出力	ネイティブ同期音声付き高解像度動画
最大収録時間	1クリップ10秒（展開上の制限、モデルの制約ではない）
ネイティブ音声	対話（リップシンク）、効果音、アンビエント——シングルパスで生成
編集	会話型マルチターン——カメラ、背景、オブジェクト、アクション、スタイル
物理演算	重力・運動エネルギー・流体力学が向上
出所証明	SynthIDウォーターマーク＋C2PAコンテンツ認証情報（必須）
利用可否	GeminiアプリとGoogle Flow（AI Plus/Pro/Ultra）；YouTube Shorts RemixとCreateアプリ（無料、18歳以上）
APIアクセス	I/O 2026後数週間でVertex AI公開APIを展開中

Gemini Omni Flashが注目される理由

統合オムニモデルアーキテクチャ

Gemini Omni FlashはGoogleの統合トランスフォーマーベースのオムニアーキテクチャで構築された初のVideoモデルです——テキスト・画像・音声・動画をシングルパスで処理する1つのモデルが、別々のパイプラインシステムが生じるモダリティ間のギャップを解消します。リファレンス・スタッキングを使えば、キャラクター画像・音声ファイル・スタイルリファレンスを1つのプロンプトで組み合わせられます。

会話型マルチターン編集

自然言語で変更内容を指定するとGemini Omni Flashが直接適用します——カメラのシフト、オブジェクトの差し替え、シーンの書き換え、背景の変更——残りのクリップはそのままです。マルチターン編集は以前のコンテキストを引き継ぐので、最初から作り直さずに反復できます。

ネイティブ同期音声＋物理演算の向上

リップシンク付き対話・画面同期の効果音・アンビエントバックグラウンド音声が動画とともにシングルフォワードパスで生成されます——別途TTS処理やフォーリー段階は不要です。重力・運動エネルギー・流体力学の理解が向上しよりリアルなモーションを実現し、全出力にSynthIDとC2PAの出所証明が付与されます。

Gemini Omni Flash vs 他のAIビデオジェネレーター

Feature	Gemini Omni Flash	Veo 3.1	Sora 2	Grok Imagine
提供元	Google DeepMind	Google DeepMind	OpenAI	xAI
アーキテクチャ	統合トランスフォーマーオムニモデル	拡散モデル	拡散モデル	Aurora（自己回帰型）
会話型編集	あり——マルチターン	なし	なし	なし
最大解像度	高解像度	1080p	1080p	720p
最大収録時間	10秒（展開上の制限）	8秒（延長可）	20秒	15秒
ネイティブ音声	あり——シングルパス	あり	あり	あり
入力モード	テキスト・画像・音声・動画	テキスト・画像（最大3枚）	テキスト・画像＋Cameos	テキスト・画像1枚
テンプレート	あり	なし	なし	なし
出所証明	SynthID＋C2PA	SynthID	C2PA	—
利用可否	Geminiアプリ・Flow・YouTube	利用可能	利用可能	利用可能

Gemini Omni Flashで作れるもの

会話型動画編集

タイムラインエディターを完全にスキップ——自然言語で変更内容を指定するとGemini Omni Flashが直接適用します。カメラアングルのシフト、オブジェクトの差し替え、背景の変更、アクション全体の書き換えを1つのプロンプトで実行できます。

テンプレート駆動のSNSコンテンツ

組み込みテンプレートを選んでプロンプトを入力するだけで、同期音声付きの完成した10秒クリップを取得できます——YouTube Shorts・Reels・TikTok形式向けに設計され、制作経験不要です。

対話シーンの作成

正確なリップシンクとアンビエント音声を持つリアルな会話シーンをシングルパスで生成——マーケティングスクリプト・教育コンテンツ・ショートフィルムの対話に最適です。

リファレンス・スタック生成

キャラクター画像・音声ファイル・スタイルリファレンスを1つのプロンプトで組み合わせて、特定の外見・声・美的感覚をクリップ全体で維持する一貫したキャラクターを生成できます。

シーンのストーリーボード

スクリプトのシーンをネイティブ音声付きの短いクリップとして素早く可視化。マルチターンチャット編集で最初から作り直さずにショット間のフレーミング・オブジェクト差し替え・アクション書き換えを調整できます。

ブランド動画制作

テンプレートで素早くブランド動画を作成し、会話型編集でブラッシュアップ——製品ショットの差し替え、背景の変更、またはブランドに合わせたビジュアルトーンの調整を行います。

Gemini Omni Flashに関するよくある質問

Gemini Omni Flashとは何ですか？

Gemini Omni FlashはGoogle DeepMindの新しい統合ビデオ生成モデルで、2026年5月19日のGoogle I/O 2026で発表・公開されました。Gemini Omniファミリー初の出荷モデルで、テキスト・画像・音声・動画の入力をネイティブに処理し、高解像度の動画と同期音声をシングルパスで生成するシングルトランスフォーマーベースのオムニアーキテクチャで構築されています。主要機能には会話型マルチターン編集、物理演算の向上、リファレンス・スタッキングが含まれます。

Gemini Omni FlashとVeo 3.1の違いは何ですか？

Veo 3.1はテキスト・画像から動画への変換に特化した専用の動画拡散モデルです。Gemini Omni Flashは統合トランスフォーマーベースのオムニアーキテクチャで構築されており——1つのモデルがテキスト・画像・音声・動画をシングルパスで処理し、GPT-4oと概念的に近いもの——動画生成をGeminiのReasoningと結びつけます。これにより、Veo 3.1では実現できない会話型マルチターン編集・リファレンス・スタッキング・テンプレート駆動の作成が可能になります。現時点でVeo 3.1の方が長いクリップとより豊富なマルチ画像入力制御を提供しています。

Gemini Omni Flashの会話型編集とは？

クリップが完成したら、自然言語で変更内容を指定します——「カメラアングルを左にシフトして」「彫刻を泡で作って」「赤いカップをコーヒーマグに差し替えて」「このシーンをキャラクターが屋外にいるように書き換えて」——するとGemini Omni Flashが対象の要素を書き換えながら残りは維持します。マルチターン編集は以前のコンテキストを引き継ぐので、最初から作り直さずに反復できます。なお、起動時点では既存動画の音声編集は意図的に除外されています。

Gemini Omni Flashは同期音声を生成できますか？

はい。Gemini Omni Flashはネイティブ同期音声を生成します——リップシンク付き対話、画面上のアクションに合わせた効果音、アンビエントバックグラウンド——動画とともにシングルフォワードパスで、別途TTS処理やフォーリー段階は不要です。生成された全出力にはSynthIDウォーターマークとC2PAコンテンツ認証情報が自動で付与されます。

LoveGen AIでGemini Omni Flashはいつ利用できますか？

Gemini Omni Flashは2026年5月19日にGeminiアプリ・Google Flow・YouTube Shorts Remix・YouTube Createアプリ内でリリースされました。Vertex AIを通じた公開開発者・企業向けAPIアクセスはGoogle I/O 2026後数週間で展開予定です。LoveGen AIはAPIが公開され次第、Gemini Omni Flashを統合します。

Gemini Omni Flashにはどんな動画テンプレートがありますか？

Gemini Omni FlashにはテンプレートベースのVideo制作が搭載されており、GeminiアプリとGoogle Flow内でワンクリックで適用できます。テンプレートは構図・テンポ・音声を処理してすばやく生成でき、カスタムAIアバター作成フローも利用可能です。現在のテンプレートカタログはGeminiアプリとFlowのプロダクトサーフェスにあります。