Google DeepMind

Google DeepMind

Gemini Omni

即将推出

公开 API 将在 Google I/O 2026 后数周内陆续推出

Gemini Omni Flash 已于 2026 年 5 月 19 日发布。LoveGen AI 将在公开 Vertex AI API 推出后第一时间接入。

Gemini Omni Flash AI 视频生成器

使用 Google 统一全能模型创作和编辑 AI 视频

Gemini Omni Flash 是 Google DeepMind 的全新统一视频生成模型,于 2026 年 5 月 19 日在 Google I/O 2026 正式发布。与专用的 Veo 模型不同,Gemini Omni Flash 构建在单一的 Transformer 全能架构之上,原生接受文本、图像、音频和视频输入,并在单次推理中输出带同步音频的高清视频。它支持对话式多轮编辑——通过自然语言提示词调整摄像机角度、替换对象、改写场景或修改背景。

Gemini Omni 在 Google I/O 2026 上首次亮相,首个发布版本——Gemini Omni Flash——于同日(2026 年 5 月 19 日)开始推送。Google 将其定位为「一个可以从任何输入创作任何内容、首先从视频开始」的模型,结合了 Gemini 的推理能力与生成式媒体能力,带来更强的世界理解、多模态和编辑能力。

首发阶段,Gemini Omni Flash 生成 10 秒高清片段,并配有原生同步音频——口型同步的对话、与画面同步的音效,以及背景环境音——全部在单次前向推理中生成。Google 已确认 10 秒的限制是部署决策,而非模型本身的约束。模型对物理的理解(包括重力、动能和流体力学)显著提升,运动效果更加真实。

首发的旗舰功能是对话式多轮编辑。生成片段后,您可以用自然语言描述修改——「把摄像机角度向左移动」「把雕塑变成由气泡组成」「当人物触碰镜子时,让它像液体一样泛起涟漪」——Omni 会精准修改目标元素,同时保持画面其余部分不变。多参考叠加(reference stacking)支持在一个提示词中同时使用角色图像、音频文件和风格参考;Gemini 应用与 Google Flow 中还内置了一键应用的模板创作功能。

Gemini Omni Flash 正在面向全球 Google AI Plus、Pro 和 Ultra 订阅用户通过 Gemini 应用与 Google Flow 推送,并在 YouTube Shorts Remix 和 YouTube Create 应用中向 18 岁及以上用户免费开放。每段生成视频都带有不可察觉的 SynthID 水印和 C2PA 内容凭证。面向开发者和企业的公开 Vertex AI API 将在 I/O 后数周内陆续推出;LoveGen AI 将在该 API 公开后第一时间接入 Gemini Omni Flash。

如何使用 Gemini Omni Flash

01

第一步:选择创作模式

通过文本提示词生成、为图像添加动态、混合多种参考(图像、音频、风格),或选择内置模板一键创作。

02

第二步:描述您的视频或编辑内容

撰写详细提示词或用自然语言描述编辑内容——Gemini Omni Flash 通过对话理解摄像机运动、对象替换、背景更改和风格转换。

03

第三步:生成并精修

点击生成。Gemini Omni Flash 返回带原生同步音频的 10 秒高清片段。使用多轮对话精修特定元素,无需重新开始。

Gemini Omni Flash 技术规格

提供商Google DeepMind
发布日期2026 年 5 月 19 日(Google I/O 2026)
版本Gemini Omni Flash(Omni 系列首个发布模型)
架构统一 Transformer 全能模型(文本 + 图像 + 音频 + 视频 输入 → 视频 + 音频 输出)
输入模式文本、图像、音频、视频——支持多参考叠加
输出高清视频 + 原生同步音频
最大时长每个片段 10 秒(部署限制,并非模型约束)
原生音频对话(口型同步)、音效、环境音——单次推理生成
编辑对话式多轮——摄像机、背景、对象、动作、风格
物理理解增强的重力、动能和流体力学理解
内容凭证SynthID 水印 + C2PA 内容凭证(强制)
可用渠道Gemini 应用与 Google Flow(AI Plus/Pro/Ultra);YouTube Shorts Remix 与 Create 应用(免费,18+)
API 访问公开 Vertex AI API 将在 I/O 2026 后数周内陆续推出

Gemini Omni Flash 的独特优势

统一全能模型架构

Gemini Omni Flash 是 Google 首款基于统一 Transformer 全能架构的发布视频模型——同一模型在单次推理中处理文本、图像、音频和视频,消除了分离管道系统之间的模态接缝。多参考叠加(reference stacking)支持在一个提示词中同时使用角色图像、音频文件和风格参考。

对话式多轮编辑

用自然语言描述修改,Gemini Omni Flash 直接应用——调整摄像机、替换对象、改写场景或更改背景——同时保持画面其余部分不变。多轮编辑基于先前的上下文构建,您可以持续迭代而无需重新开始。

原生同步音频 + 增强物理理解

口型同步的对话、画面同步音效和背景环境音在单次前向推理中与视频一起生成——无需单独的 TTS 或 Foley 阶段。对重力、动能与流体力学的增强理解带来更真实的运动效果,每段输出都带有 SynthID 与 C2PA 内容凭证。

Gemini Omni Flash 与其他 AI 视频生成器对比

FeatureGemini Omni FlashVeo 3.1Sora 2Grok Imagine
提供商Google DeepMindGoogle DeepMindOpenAIxAI
架构统一 Transformer 全能模型扩散模型扩散模型Aurora(自回归)
对话式编辑是——多轮
最高分辨率高清1080p1080p720p
最大时长10 秒(部署限制)8 秒(可延长)20 秒15 秒
原生音频是——单次推理
输入模式文本、图像、音频、视频文本、图像(最多 3 张)文本、图像 + Cameos文本、1 张图像
模板
内容凭证SynthID + C2PASynthIDC2PA
可用性Gemini 应用、Flow、YouTube可用可用可用

Gemini Omni Flash 的应用场景

01

对话式视频编辑

完全跳过时间轴编辑器——用自然语言描述所需修改,Gemini Omni Flash 直接应用。一句提示词即可调整摄像机角度、替换对象、更改背景或改写整个动作。

02

模板驱动的社交内容

选择内置模板,输入提示词,即可获得带同步音频的完整 10 秒片段——专为 YouTube Shorts、Reels 和 TikTok 格式设计,无需任何制作经验。

03

对话场景创作

在单次推理中生成具有准确口型同步和环境音频的真实对话场景——非常适合营销脚本、教育内容或短片对话。

04

多参考叠加生成

在一个提示词中同时叠加角色图像、音频文件和风格参考,生成跨片段保持一致外观、声音和美学的角色。

05

场景故事板

快速将脚本情节可视化为带原生音频的短片段。使用多轮对话编辑跨镜头调整构图、替换对象或改写动作,无需重新生成。

06

品牌视频制作

使用模板快速制作品牌视频,然后通过对话式编辑精修——替换产品镜头、更换背景或调整视觉调性以匹配品牌。

探索相关 AI 视频生成器

关于 Gemini Omni Flash 的常见问题

什么是 Gemini Omni Flash?

Gemini Omni Flash 是 Google DeepMind 的全新统一视频生成模型,于 2026 年 5 月 19 日在 Google I/O 2026 正式发布。它是 Gemini Omni 系列首个发布的模型——构建在单一的 Transformer 全能架构之上,原生处理文本、图像、音频和视频输入,并在单次推理中生成带同步音频的高清视频。旗舰功能包括对话式多轮编辑、增强的物理理解和多参考叠加。

Gemini Omni Flash 与 Veo 3.1 有何不同?

Veo 3.1 是一款专用的视频扩散模型,专注于文本生成视频与图像生成视频。Gemini Omni Flash 构建在统一的 Transformer 全能架构之上——一个模型在单次推理中处理文本、图像、音频和视频,概念上类似于 GPT-4o,并将视频生成与 Gemini 的推理能力深度结合。这带来了 Veo 3.1 所不具备的对话式多轮编辑、多参考叠加和模板驱动创作。Veo 3.1 目前提供更长的片段时长和更丰富的多图像输入控制。

Gemini Omni Flash 的对话式编辑是什么?

生成片段后,您可以用自然语言描述修改——「把摄像机角度向左移动」「把雕塑变成由气泡组成」「把红杯替换为咖啡杯」或「改写这个场景让角色在户外」——Gemini Omni Flash 会精准修改目标元素,同时保持画面其余部分不变。多轮编辑基于先前的上下文构建,您可以持续迭代而无需重新开始。首发阶段暂不支持对已有视频的音频编辑。

Gemini Omni Flash 能生成同步音频吗?

可以。Gemini Omni Flash 在单次前向推理中与视频一起生成原生同步音频——包括口型同步的对话、与画面同步的音效以及背景环境音——无需单独的 TTS 或 Foley 阶段。所有生成内容都会自动带有 SynthID 水印和 C2PA 内容凭证。

Gemini Omni Flash 何时会在 LoveGen AI 上线?

Gemini Omni Flash 已于 2026 年 5 月 19 日在 Gemini 应用、Google Flow、YouTube Shorts Remix 和 YouTube Create 应用中正式发布。面向开发者和企业的公开 Vertex AI API 将在 Google I/O 2026 之后数周内陆续推出。LoveGen AI 将在该 API 公开后第一时间接入 Gemini Omni Flash。

Gemini Omni Flash 包含哪些视频模板?

Gemini Omni Flash 内置了模板驱动的视频创作功能,在 Gemini 应用和 Google Flow 中可一键应用。模板自动处理构图、节奏与音频,方便快速生成;同时还提供自定义 AI 虚拟形象创作流程。当前模板目录位于 Gemini 应用与 Flow 产品界面内。