
Google DeepMind
Gemini Omni
公开 API 将在 Google I/O 2026 后数周内陆续推出
Gemini Omni Flash 已于 2026 年 5 月 19 日发布。LoveGen AI 将在公开 Vertex AI API 推出后第一时间接入。
Gemini Omni Flash AI 视频生成器
使用 Google 统一全能模型创作和编辑 AI 视频
Gemini Omni Flash 是 Google DeepMind 的全新统一视频生成模型,于 2026 年 5 月 19 日在 Google I/O 2026 正式发布。与专用的 Veo 模型不同,Gemini Omni Flash 构建在单一的 Transformer 全能架构之上,原生接受文本、图像、音频和视频输入,并在单次推理中输出带同步音频的高清视频。它支持对话式多轮编辑——通过自然语言提示词调整摄像机角度、替换对象、改写场景或修改背景。
Gemini Omni 在 Google I/O 2026 上首次亮相,首个发布版本——Gemini Omni Flash——于同日(2026 年 5 月 19 日)开始推送。Google 将其定位为「一个可以从任何输入创作任何内容、首先从视频开始」的模型,结合了 Gemini 的推理能力与生成式媒体能力,带来更强的世界理解、多模态和编辑能力。
首发阶段,Gemini Omni Flash 生成 10 秒高清片段,并配有原生同步音频——口型同步的对话、与画面同步的音效,以及背景环境音——全部在单次前向推理中生成。Google 已确认 10 秒的限制是部署决策,而非模型本身的约束。模型对物理的理解(包括重力、动能和流体力学)显著提升,运动效果更加真实。
首发的旗舰功能是对话式多轮编辑。生成片段后,您可以用自然语言描述修改——「把摄像机角度向左移动」「把雕塑变成由气泡组成」「当人物触碰镜子时,让它像液体一样泛起涟漪」——Omni 会精准修改目标元素,同时保持画面其余部分不变。多参考叠加(reference stacking)支持在一个提示词中同时使用角色图像、音频文件和风格参考;Gemini 应用与 Google Flow 中还内置了一键应用的模板创作功能。
Gemini Omni Flash 正在面向全球 Google AI Plus、Pro 和 Ultra 订阅用户通过 Gemini 应用与 Google Flow 推送,并在 YouTube Shorts Remix 和 YouTube Create 应用中向 18 岁及以上用户免费开放。每段生成视频都带有不可察觉的 SynthID 水印和 C2PA 内容凭证。面向开发者和企业的公开 Vertex AI API 将在 I/O 后数周内陆续推出;LoveGen AI 将在该 API 公开后第一时间接入 Gemini Omni Flash。
如何使用 Gemini Omni Flash
第一步:选择创作模式
通过文本提示词生成、为图像添加动态、混合多种参考(图像、音频、风格),或选择内置模板一键创作。
第二步:描述您的视频或编辑内容
撰写详细提示词或用自然语言描述编辑内容——Gemini Omni Flash 通过对话理解摄像机运动、对象替换、背景更改和风格转换。
第三步:生成并精修
点击生成。Gemini Omni Flash 返回带原生同步音频的 10 秒高清片段。使用多轮对话精修特定元素,无需重新开始。
Gemini Omni Flash 技术规格
| 提供商 | Google DeepMind |
| 发布日期 | 2026 年 5 月 19 日(Google I/O 2026) |
| 版本 | Gemini Omni Flash(Omni 系列首个发布模型) |
| 架构 | 统一 Transformer 全能模型(文本 + 图像 + 音频 + 视频 输入 → 视频 + 音频 输出) |
| 输入模式 | 文本、图像、音频、视频——支持多参考叠加 |
| 输出 | 高清视频 + 原生同步音频 |
| 最大时长 | 每个片段 10 秒(部署限制,并非模型约束) |
| 原生音频 | 对话(口型同步)、音效、环境音——单次推理生成 |
| 编辑 | 对话式多轮——摄像机、背景、对象、动作、风格 |
| 物理理解 | 增强的重力、动能和流体力学理解 |
| 内容凭证 | SynthID 水印 + C2PA 内容凭证(强制) |
| 可用渠道 | Gemini 应用与 Google Flow(AI Plus/Pro/Ultra);YouTube Shorts Remix 与 Create 应用(免费,18+) |
| API 访问 | 公开 Vertex AI API 将在 I/O 2026 后数周内陆续推出 |
Gemini Omni Flash 的独特优势
统一全能模型架构
Gemini Omni Flash 是 Google 首款基于统一 Transformer 全能架构的发布视频模型——同一模型在单次推理中处理文本、图像、音频和视频,消除了分离管道系统之间的模态接缝。多参考叠加(reference stacking)支持在一个提示词中同时使用角色图像、音频文件和风格参考。
对话式多轮编辑
用自然语言描述修改,Gemini Omni Flash 直接应用——调整摄像机、替换对象、改写场景或更改背景——同时保持画面其余部分不变。多轮编辑基于先前的上下文构建,您可以持续迭代而无需重新开始。
原生同步音频 + 增强物理理解
口型同步的对话、画面同步音效和背景环境音在单次前向推理中与视频一起生成——无需单独的 TTS 或 Foley 阶段。对重力、动能与流体力学的增强理解带来更真实的运动效果,每段输出都带有 SynthID 与 C2PA 内容凭证。
Gemini Omni Flash 与其他 AI 视频生成器对比
| Feature | Gemini Omni Flash | Veo 3.1 | Sora 2 | Grok Imagine |
|---|---|---|---|---|
| 提供商 | Google DeepMind | Google DeepMind | OpenAI | xAI |
| 架构 | 统一 Transformer 全能模型 | 扩散模型 | 扩散模型 | Aurora(自回归) |
| 对话式编辑 | 是——多轮 | 否 | 否 | 否 |
| 最高分辨率 | 高清 | 1080p | 1080p | 720p |
| 最大时长 | 10 秒(部署限制) | 8 秒(可延长) | 20 秒 | 15 秒 |
| 原生音频 | 是——单次推理 | 是 | 是 | 是 |
| 输入模式 | 文本、图像、音频、视频 | 文本、图像(最多 3 张) | 文本、图像 + Cameos | 文本、1 张图像 |
| 模板 | 是 | 否 | 否 | 否 |
| 内容凭证 | SynthID + C2PA | SynthID | C2PA | — |
| 可用性 | Gemini 应用、Flow、YouTube | 可用 | 可用 | 可用 |
Gemini Omni Flash 的应用场景
对话式视频编辑
完全跳过时间轴编辑器——用自然语言描述所需修改,Gemini Omni Flash 直接应用。一句提示词即可调整摄像机角度、替换对象、更改背景或改写整个动作。
模板驱动的社交内容
选择内置模板,输入提示词,即可获得带同步音频的完整 10 秒片段——专为 YouTube Shorts、Reels 和 TikTok 格式设计,无需任何制作经验。
对话场景创作
在单次推理中生成具有准确口型同步和环境音频的真实对话场景——非常适合营销脚本、教育内容或短片对话。
多参考叠加生成
在一个提示词中同时叠加角色图像、音频文件和风格参考,生成跨片段保持一致外观、声音和美学的角色。
场景故事板
快速将脚本情节可视化为带原生音频的短片段。使用多轮对话编辑跨镜头调整构图、替换对象或改写动作,无需重新生成。
品牌视频制作
使用模板快速制作品牌视频,然后通过对话式编辑精修——替换产品镜头、更换背景或调整视觉调性以匹配品牌。
探索相关 AI 视频生成器
关于 Gemini Omni Flash 的常见问题
什么是 Gemini Omni Flash?
Gemini Omni Flash 是 Google DeepMind 的全新统一视频生成模型,于 2026 年 5 月 19 日在 Google I/O 2026 正式发布。它是 Gemini Omni 系列首个发布的模型——构建在单一的 Transformer 全能架构之上,原生处理文本、图像、音频和视频输入,并在单次推理中生成带同步音频的高清视频。旗舰功能包括对话式多轮编辑、增强的物理理解和多参考叠加。
Gemini Omni Flash 与 Veo 3.1 有何不同?
Veo 3.1 是一款专用的视频扩散模型,专注于文本生成视频与图像生成视频。Gemini Omni Flash 构建在统一的 Transformer 全能架构之上——一个模型在单次推理中处理文本、图像、音频和视频,概念上类似于 GPT-4o,并将视频生成与 Gemini 的推理能力深度结合。这带来了 Veo 3.1 所不具备的对话式多轮编辑、多参考叠加和模板驱动创作。Veo 3.1 目前提供更长的片段时长和更丰富的多图像输入控制。
Gemini Omni Flash 的对话式编辑是什么?
生成片段后,您可以用自然语言描述修改——「把摄像机角度向左移动」「把雕塑变成由气泡组成」「把红杯替换为咖啡杯」或「改写这个场景让角色在户外」——Gemini Omni Flash 会精准修改目标元素,同时保持画面其余部分不变。多轮编辑基于先前的上下文构建,您可以持续迭代而无需重新开始。首发阶段暂不支持对已有视频的音频编辑。
Gemini Omni Flash 能生成同步音频吗?
可以。Gemini Omni Flash 在单次前向推理中与视频一起生成原生同步音频——包括口型同步的对话、与画面同步的音效以及背景环境音——无需单独的 TTS 或 Foley 阶段。所有生成内容都会自动带有 SynthID 水印和 C2PA 内容凭证。
Gemini Omni Flash 何时会在 LoveGen AI 上线?
Gemini Omni Flash 已于 2026 年 5 月 19 日在 Gemini 应用、Google Flow、YouTube Shorts Remix 和 YouTube Create 应用中正式发布。面向开发者和企业的公开 Vertex AI API 将在 Google I/O 2026 之后数周内陆续推出。LoveGen AI 将在该 API 公开后第一时间接入 Gemini Omni Flash。
Gemini Omni Flash 包含哪些视频模板?
Gemini Omni Flash 内置了模板驱动的视频创作功能,在 Gemini 应用和 Google Flow 中可一键应用。模板自动处理构图、节奏与音频,方便快速生成;同时还提供自定义 AI 虚拟形象创作流程。当前模板目录位于 Gemini 应用与 Flow 产品界面内。



