
Google DeepMind
Gemini Omni
Google は未リリース
Google's unified omni-model for video generation is launching soon on LoveGen AI.
Gemini Omni AIビデオジェネレーター
GoogleのUnified Omniモデルで動画を作成・編集
Gemini OmniはGoogle DeepMindが近日公開予定の統合ビデオ生成モデルで、Google I/O 2026直前にGeminiアプリのリークUIで初めて確認されました。専用のVeoモデルとは異なり、テキスト・画像・動画・音声を1つの統合システムで処理するシングルオムニアーキテクチャで構築されているようです。リークされたデモによると、ネイティブ同期音声とチャットベースの動画編集(透かし除去、オブジェクト差し替え、シーン書き換えなど)に対応しているとみられますが、正確なスペックは公式発表次第です。
Gemini Omniは2026年5月、Google I/O 2026(5月19〜20日開催予定)の直前に、GeminiアプリのUIで文字列として発見されました。Googleはまだ正式発表を行っておらず、以下の情報はすべてリークされたデモとUI文字列に基づくものであり、公式ドキュメントではありません。スペック・料金・提供時期は公式発表次第です。
リークされたデモによると、このモデルはチャットベースの動画編集を主要機能としてサポートしているようです。ユーザーは自然言語で変更内容を指定できるとみられます。例として「透かしを除去して」「赤いカップをコーヒーマグに差し替えて」「このシーンをキャラクターが屋外にいるように書き換えて」などが挙げられ、モデルはフレームごとの手動作業なしに編集を適用します。リークされたデモには、高級レストランでスパゲッティを食べる2人の男性のシーンや、教授が黒板に数学の証明を書きながら説明するシーンが含まれていました。
ネイティブ同期音声はシングルパスで生成されるようです:リップシンクの対話、画面上のアクションに同期した効果音、背景アンビエント音声がすべて一緒に出力され、別途TTS処理やフォーリー後処理は不要です。リークされたアプリUIではクイックスタート用の既製テンプレートライブラリも確認できました。
すべての技術仕様——解像度、収録時間、フレームレート、アスペクト比、料金など——は公式に確認されておらず、正式リリース次第となります。LoveGen AIはAPIが公開され次第、Gemini Omniを統合する予定です。
Gemini Omniの使い方
ステップ1:作成モードを選択
テキスト→動画(プロンプトで生成)、画像→動画(参照画像をアニメーション化)、または既製テンプレートを選んでクイックスタートします。
ステップ2:動画または編集内容を指定
詳細なプロンプトを入力するか、自然言語で編集内容を指定します——Gemini Omniはチャット経由でシーン変更・オブジェクト差し替え・スタイル調整を理解します。
ステップ3:生成してブラッシュアップ
「生成」をクリック。Gemini Omniはネイティブ同期音声付きの動画を返します。チャットエディターで特定の要素を最初から作り直さずに調整できます。
Gemini Omni 技術仕様
| 提供元 | Google DeepMind |
| アーキテクチャ | 統合オムニモデル(テキスト+画像+動画+音声)——公式確認待ち |
| 現在のステータス | 未正式発表——2026年5月にリークUIで確認 |
| 発表予定 | Google I/O 2026(2026年5月19〜20日) |
| 入力モード | テキスト→動画、画像→動画、チャットベース編集(リークデモより——TBD) |
| 動画編集 | チャットベース:オブジェクト差し替え、透かし除去、シーン書き換え(リークデモより——TBD) |
| テンプレート | 既製テンプレートライブラリ(リークUIより——TBD) |
| ネイティブ音声 | 対話(リップシンク)、効果音、アンビエント音声をシングルパスで生成(リークデモより——TBD) |
| 解像度 | TBD——公式リリース次第 |
| 収録時間 / FPS / 料金 | TBD——公式リリース次第 |
Gemini Omniが注目される理由
統合オムニモデルアーキテクチャ
Gemini OmniはGoogleの統合オムニアーキテクチャで構築された初のビデオモデルとみられます——テキスト・画像・動画・音声の生成を1つのモデルがシングルパスで処理し、別々のパイプラインモデルが生じるモダリティ間のギャップを解消します。アーキテクチャの詳細は公式確認次第です。
チャットベースの動画編集
リークされたデモによると、自然言語で変更内容を指定するとGemini Omniが直接適用します——透かし除去、オブジェクト差し替え、シーン書き換えなどをタイムラインのスクラブやフレームごとの編集なしに実行。機能の詳細は公式リリース次第です。
シングルパスのネイティブ同期音声
リークされたデモでは、リップシンクの対話・画面同期の効果音・アンビエント背景音声が動画とともにシングルフォワードパスで生成されていました——別途TTS処理やフォーリー段階は不要です。確定スペックは公式発表次第です。
Gemini Omni vs 他のAIビデオジェネレーター
| Feature | Gemini Omni | Veo 3.1 | Sora 2 | Grok Imagine |
|---|---|---|---|---|
| 提供元 | Google DeepMind | Google DeepMind | OpenAI | xAI |
| アーキテクチャ | 統合オムニモデル(TBD) | 拡散モデル | 拡散モデル | Aurora(自己回帰型) |
| チャットベース編集 | あり(リークデモより) | なし | なし | なし |
| 最大解像度 | TBD | 1080p | 1080p | 720p |
| ネイティブ音声 | あり(リークデモより) | あり | あり | あり |
| 画像入力 | TBD | 最大3枚 | 1枚 + Cameos | 1枚 |
| テンプレート | あり(リークUIより) | なし | なし | なし |
| 利用可否 | 近日公開 | 利用可能 | 利用可能 | 利用可能 |
クリエイター・編集者・ストーリーテラーへの活用例(予定)
チャットベースの動画編集
リークされたデモによると、タイムラインエディターは不要です。変更内容を指定するだけ——要素の除去、オブジェクトの差し替え、シーンの変更——Gemini Omniが自然言語で直接適用します。
テンプレート駆動のSNSコンテンツ
リークされたUIによると、既製テンプレートを選んでプロンプトを入力するだけで、TikTok・Reels・Shorts向けの音声付き動画を取得できます——制作経験不要。詳細は公式リリース次第です。
対話シーンの作成
正確なリップシンクとアンビエント音声を持つリアルな会話シーンをシングルパスで生成——マーケティングスクリプト・教育コンテンツ・ショートフィルムの対話に最適です。
画像のアニメーション化と音声追加
写真やイラストをアップロードしてプロンプトと組み合わせてアニメーション化。Gemini Omniは別途音声ツールなしでモーションと同期効果音を追加します。
シーンのストーリーボード
スクリプトのシーンをネイティブ音声付きの短いクリップとして素早く可視化。チャットエディターで最初から作り直さずにフレーミングや対話を調整できます。
ブランド動画制作
テンプレートでブランド動画を素早く作成し、チャットベース編集で要素を差し替えたりトーンをブランドボイスに合わせて調整します。
関連AIビデオジェネレーターを探す

Veo 3.1
Google DeepMindの1080pビデオモデル。フレーム→動画変換とネイティブ音声生成に対応。

Sora 2
OpenAIの映画品質ビデオジェネレーター。物理的に正確な動きと20秒の収録時間に対応。

Grok Imagine
xAIのAuroraエンジン搭載ビデオモデル。Fun/Normal/Spicyのスタイルモードとネイティブ音声に対応。
Happy Horse 1.0
アリババの最高評価ビデオモデル。映画品質のモーションと7言語のリップシンクに対応。

Seedance 2.0
ByteDanceのビデオモデル。ウェブ検索統合と同期音声に対応。
Kling 3.0
マルチショット AI シネマティクスとネイティブオーディオを備えた監督グレード 4K 動画。
Gemini Omniに関するよくある質問
Gemini Omniとは何ですか?
Gemini OmniはGoogle DeepMindが近日公開予定のビデオ生成モデルで、Google I/O 2026直前にGeminiアプリのリークUIで初めて確認されました。テキスト・画像・動画・音声を1つのシステムで処理する統合オムニモデルのようで、ネイティブ同期音声とチャットベースの動画編集に対応しているとみられます。詳細はすべて公式発表次第です。
Gemini OmniとVeo 3.1の違いは何ですか?
Veo 3.1は既知のスペックを持つ専用の動画拡散モデルです。Gemini Omniは統合オムニアーキテクチャで構築されているようで——1つのモデルがテキスト・画像・動画・音声をシングルパスで処理し、GPT-4oに概念的に近いものです。これにより、Veo 3.1では実現できないチャットベース編集とテンプレート駆動の作成が可能になります。アーキテクチャの詳細は公式確認次第です。
Gemini Omniのチャットベース動画編集とは?
リークされたデモによると、Gemini Omniでは自然言語で編集を指定できます。たとえば「透かしを除去して」「赤いカップをコーヒーマグに差し替えて」「このシーンをキャラクターが屋外にいるように書き換えて」などです。モデルはフレームごとの手動作業なしに編集を適用します。この機能はまだ公式に確認されておらず、詳細は変更される可能性があります。
Gemini Omniは同期音声を生成できますか?
リークされたデモによると、Gemini Omniはシングルパスでネイティブ同期音声を生成できるようです——リップシンクの対話、画面上のアクションに同期した効果音、背景アンビエント音声を含みます。これはまだ公式に確認されておらず、完全なスペックはGoogle I/O 2026の発表次第です。
LoveGen AIでGemini Omniはいつ利用できますか?
Gemini OmniはGoogle I/O 2026(2026年5月19〜20日)直前のリークUIで確認されました。Googleはまだ料金・API・提供日を正式発表していません。LoveGen AIはAPIが公開され次第、統合する予定です。
Gemini Omniにはどんな動画テンプレートがありますか?
リークされたGeminiアプリのUIで既製テンプレートライブラリが確認されました。テンプレートは構図・テンポ・音声を自動で処理し、素早い動画作成を支援するようです。テンプレートの数やカテゴリなどの詳細は公式発表次第です。
