Google 的 Veo 系列 AI 视频模型进化迅速 — 从 2024 年 5 月的 Veo 1 到如今的 Veo 3.1,已经支持原生 4K 60fps 视频和同步音频。现在,所有目光都聚焦在 Veo 4 上,这款备受期待的下一代模型预计将在 Google I/O 2026(5 月 19–20 日)正式亮相。
Veo 4 目前尚未被 Google 官方公布。但基于泄露信息、专利文件和可靠的行业消息源,我们已经对其有了较清晰的预期。本文将梳理传闻中的功能特性、Veo 4 如何在 Veo 3.1 基础上进化,以及它与 Runway Gen-4.5 和 Kling 3.0 等竞品的对比。
目前我们对 Veo 4 了解多少
Veo 4 预计是 Google DeepMind Veo 文本转视频 AI 模型家族的第四代产品。虽然 Google 尚未确认任何规格,但多个可靠信息源指向以下可能的能力。
基于泄露和行业分析的预期规格:
- 时长: 单个片段最长 30 秒(Veo 3.1 约 15 秒),分镜串联可生成更长叙事
- 分辨率: 原生 4K(延续 Veo 3.1 的 4K 支持)
- 分镜功能: 原生多场景规划,跨镜头保持角色一致性
- 角色锚定: 运动和角度变化中面部与服装的一致性显著提升
- 音频: 增强的同步语音、环境音和音效设计(基于 Veo 3 的原生音频升级)
- 零样本虚拟形象: 从单张参考照片生成人物视频,无需微调
- 瑕疵减少: AI 视频常见瑕疵估计减少 70%
- 参数量: 传闻是 Veo 3 的 3 倍
重要提示: 以上功能均未经 Google 官方确认。一旦有官方发布信息,本文将及时更新。
Veo 3.1 目前的能力
要理解 Veo 4 可能带来什么,首先需要了解当前模型 Veo 3.1 已经具备的能力。Veo 3.1 现在可以在 LoveGen AI 和 Google 自有平台上使用。
Veo 3.1 已确认的能力:
- 真 4K 分辨率(3840x2160),最高 60fps — 首个支持原生 4K 的主流 AI 视频模型
- 原生 9:16 竖版视频,适配 TikTok 和 YouTube Shorts
- 同步音频生成,包括对话、环境音和音效
- "素材转视频" — 使用最多 4 张参考图保持角色一致性
- 场景延伸功能,支持 1 分钟以上视频
- 可通过 Google Flow、Gemini、YouTube Shorts 和 Vertex AI API 使用
- Google Vids 提供免费使用(每天最多 12 个视频)
如果你现在就想开始创建 AI 视频,可以在 LoveGen AI 上试用 Veo 3.1,无需等待 Veo 4。
Veo 4 预期的新功能
根据目前泄露的信息,以下是最有可能定义 Veo 4 的功能:
原生分镜功能
这是最受期待的新能力。当前的 AI 视频模型 生成的是独立片段。Veo 4 预计将允许你定义连续场景,为每个场景设置不同的提示词、镜头角度和动作,同时模型在所有场景间保持角色和视觉一致性。
对于电影制作者和广告人来说,这可能消除 AI 视频最大的瓶颈:拼接互不匹配的独立片段。
30 秒片段时长
Veo 3 生成 8 秒片段,Veo 3.1 通过场景延伸支持大约 15 秒。Veo 4 预计将原生生成推进到 30 秒 — 足以一次性生成完整的社交媒体广告或叙事场景。
高级角色锚定
面部特征、服装和身体特征在运动和角度变化中保持一致,一直是 AI 视频最难的问题之一。Veo 3.1 的"素材转视频"功能通过参考图解决了部分问题,而 Veo 4 据传通过改进的模型架构原生处理这个问题 — 不再需要参考图。
零样本视频虚拟形象
上传一张面部照片,Veo 4 据报道可以生成该人物说话、运动和表达情感的视频。与需要微调或 LoRA 训练的当前方法不同,这将从单张图片一步完成。
改进的音频与唇形同步
Veo 3 引入了原生音频生成 — 这个功能当时没有竞品能够匹配。Veo 4 预计将提升语音表现力、跨语言唇形同步,以及在场景切换间自然过渡的分层音效设计。
Veo 进化史:从 Veo 1 到 Veo 4
| 版本 | 发布时间 | 最长时长 | 分辨率 | 音频 | 核心特性 |
|---|---|---|---|---|---|
| Veo 1 | 2024 年 5 月 | ~4 秒 | 1080p | 无 | 首个 Veo 模型 |
| Veo 2 | 2024 年 12 月 | ~8 秒 | 4K | 无 | 引入 4K 支持 |
| Veo 3 | 2025 年 5 月 | 8 秒 | 1080p | 有 | 原生音频生成 |
| Veo 3.1 | 2025 年 10 月 | 15+ 秒 | 4K @ 60fps | 有 | 4K + 竖版 + 素材引用 |
| Veo 4(预期) | 2026 年 5 月? | 30 秒 | 4K | 增强 | 分镜 + 虚拟形象 |
Veo 4 与竞品的预期对比
2026 年初的 AI 视频生成 格局已发生重大变化。以下是 Veo 4 的预期能力与目前可用的竞品对比:
| 功能 | Veo 4(预期) | Runway Gen-4.5 | Kling 3.0 | Pika 2.5 |
|---|---|---|---|---|
| 最长片段 | ~30 秒 | 60 秒 | 5 分钟 | 10 秒 |
| 分辨率 | 4K | 4K | 4K @ 60fps | 1080p |
| 分镜功能 | 预期支持 | 不支持 | 多镜头导演(6 个切换) | 不支持 |
| 音频生成 | 预期增强 | 不支持 | 原生音频同步 | 有限 |
| 角色一致性 | 预期优秀 | 良好(参考图) | 良好(3 人追踪) | 一般 |
| 起步价 | 待定 | $12/月 | ~$0.07/秒 | $8/月 |
Runway Gen-4.5:专业后期工作流的领导者
Runway 于 2025 年 12 月发布了 Gen-4.5,同时推出了通用世界模型(GWM-1)。它目前以 60 秒的片段时长领先,在专业后期制作工作流方面表现出色 — 将 AI 视频合成到现有素材以及精确的镜头/运动控制。2026 年 2 月,Runway 还开始将第三方模型(包括 Kling 3.0)集成到其平台。
Kling 3.0:最高性价比和最长视频
Kling 3.0 由快手于 2026 年 2 月推出,可生成最长 5 分钟的视频 — 远超任何竞品。它提供原生 4K 60fps、多达 6 个镜头切换的多镜头导演模式、原生音频同步,并可在同一场景中独立追踪最多 3 个人物。按秒费用约 $0.07,也是高产量创作者最具性价比的选择。
Pika 2.5:社交内容的速度之选
Pika 占据速度细分市场 — 15–30 秒内生成 5–10 秒片段。月费 $8 起,是需要快速迭代短社交内容而非电影级品质的创作者最便宜的入口。
Veo 4 的潜在优势
如果泄露属实,Veo 4 的差异化优势将是原生分镜(目前没有竞品提供此功能)、零样本虚拟形象,以及与 Google 生态系统(Gemini、YouTube、Google Ads)最深度的集成。对于已在 Google 工作流中的创作者,Veo 4 可能成为默认选择。
Sora 怎么了?
OpenAI 的 Sora 正在分阶段关停。美国用户的网页版已于 2026 年 3 月 13 日下线。Sora App 将于 2026 年 4 月 26 日停止服务,API 访问将于 2026 年 9 月 24 日终止。
关停原因是不可持续的成本 — 据报道每天约 100 万美元的计算费用 — 用户数量在达到约 100 万峰值后下降到不足 50 万。1.5 亿美元迪士尼合作项目的崩溃加速了这一决定。OpenAI 正将 GPU 资源重新分配给其利润更高的编程和推理产品。
对于依赖 Sora 的创作者,目前的替代方案包括 Veo 3.1(现在可用)、Kling 3.0、Runway,或者等待 Veo 4。你可以在 LoveGen AI 的 AI 视频模型页面 探索所有可用的选项。
当前 Veo 定价(Veo 3.1)
Veo 4 的定价尚未公布。以下是 Veo 3.1 的当前定价结构,Veo 4 可能会沿用或在此基础上调整:
| 方案 | 价格 | 内容 |
|---|---|---|
| Google Vids(免费) | $0 | 仅 Veo 3.1,每天最多 12 个视频 |
| Google AI Pro | $19.99/月 | 增强访问和额度 |
| Google AI Ultra | $49.99/月 | 更高额度 + 优先访问 |
| Google AI Studio API | 按量计费 | 开发者访问 |
| Vertex AI(企业版) | 按量计费 | 带 SLA 的企业级访问 |
| LoveGen AI | 查看方案 | Veo 3.1 + 其他 AI 模型 |
你也可以通过 LoveGen AI 的价格方案 使用 Veo 3.1 和其他 AI 视频生成模型。
需要注意的已知局限
即使有预期的改进,某些 AI 视频生成的挑战在 Veo 4 中可能仍然存在:
画面内文字渲染
视频中的可读文字 — 招牌、标签、屏幕文字 — 在所有 AI 视频模型中仍然是最难的问题之一。预计仍需在后期制作中添加文字叠加。
复杂多人编舞
街舞、精细手势动作或复杂的群体编舞在整个行业中仍然产生不自然的结果。Veo 4 可能会改善,但不太可能完全解决。
提示词精度
AI 视频模型有时对提示词的理解较为宽泛。精确的镜头位置、特定的角色姿势和精准的场景构图难以可靠控制 — 不过分镜功能可能有助于缩小这个差距。
生成时间
AI 视频生成仍然是算力密集型的。虽然预期速度会有提升,但实时视频生成仍需数年时间。
如何为 Veo 4 做准备
在等待官方发布的同时,以下是你可以提前准备的方式:
现在就开始使用 Veo 3.1
为 Veo 4 做准备的最佳方式是积累 Veo 3.1 的使用经验。提示词编写技巧、对 AI 视频优缺点的理解以及工作流集成经验都可以直接迁移。在 LoveGen AI 上试用。
学习有效的提示词技巧
AI 视频提示词受益于具体描述。不要写"一个女人在城市中走路",而要写:"一位身穿深蓝色风衣的女性走在黄昏时分雨后的东京街道上。霓虹灯牌在水洼中映出倒影。镜头以平视角度跟随,浅景深。"
使用模型理解的电影术语:推镜头、跟踪拍摄、摇臂镜头、手持、静态广角、特写变焦。明确定义光线:"黄金时段逆光"、"顶部荧光灯硬光"、"烛光暖色调"。
探索其他 AI 视频工具
市场竞争激烈。尝试不同的模型来了解各自的优势:
- Veo 3.1 — 音频集成的 4K 视频
- Kling 3.0 — 更长片段和高性价比
- Seedance 2 — 创意运动效果
- 图转视频工具 — 将已有图片转化为视频
在我们的 AI 视频模型页面 探索所有可用选项。
视频与 AI 图片配合使用
AI 视频和 AI 图片生成 配合效果很好。先用 Nano Banana Pro 或 Imagen 4 等工具生成角色参考图,然后在 Veo 3.1 的"素材转视频"功能中使用这些图作为输入。这个工作流在 Veo 4 中可能会变得更加强大。
浏览所有 AI 图片模型 找到最适合你参考图需求的工具。
Google I/O 2026 值得关注什么
Google I/O 2026 将于 5 月 19–20 日举行。根据以往模式,预期可以看到:
- Veo 4 官方发布 — 功能演示和定价
- 集成详情 — Gemini、YouTube、Google Ads 和 Flow 的整合方式
- API 可用时间表 — Vertex AI 和 AI Studio 的开发者访问
- 对比演示 — Veo 4 与竞品的定位对比
一旦 Google 发布官方公告,我们将立即更新本文的确认信息。关注 LoveGen AI 博客 获取最新通知。
