
Grok Imagine AI 视频生成器
在 Grok Imagine 中用 xAI 的 Aurora 引擎创作风格化 AI 视频
Grok Imagine 是 xAI 的视频生成模型,由 Aurora 自回归引擎驱动,在 Colossus 超算上用 110,000 张 NVIDIA GB200 GPU 训练而成。可在 480p 或 720p 下生成 6 秒或 10 秒的视频,原生包含音频,支持文本生成视频与图像生成视频,并自带三种风格模式——Fun、Normal、Spicy——一键切换创作语调。
Grok Imagine 1.0 于 2026 年 2 月 2 日正式上线,此前已在 2025 年作为预览版发布。模型基于 xAI 的 Aurora 架构——一种自回归式逐帧预测引擎,从左到右顺序渲染,与扩散式模型路径不同。训练运行使用 Colossus 超级计算机和 110,000 张 NVIDIA GB200 GPU,是迄今为止 AI 视频领域最大规模的训练基础设施之一,公网产品 30 天内已生成超过 12.45 亿条视频。
模型在 LoveGen AI 中提供两种输入模式。文本生成视频接受最多 2,000 字符的提示词,支持 5 种宽高比——16:9、9:16、1:1、3:2、2:3——覆盖横屏、竖屏、方形与经典摄影构图。图像生成视频接受单张参考图(JPG / JPEG / PNG / WebP,最大 20 MB),按你的提示词驱动其动起来。两种模式都以 24 fps 渲染,时长 6 秒或 10 秒,输出最高 720p。
核心特征是风格模式切换。Normal 模式输出平衡、忠实于提示词;Fun 模式偏向俏皮、夸张、有创造力;Spicy 模式则解锁更大胆、更戏剧化的渲染。音频是 Aurora 原生能力——对白(带口型同步)、背景音乐、环境音效在一次前向中联合生成,无需后期合成。2026 年 3 月 2 日,xAI 上线了 Extend from Frame 功能,可用上一段的最后一帧作为下一段的起始帧实现链式扩展;模型平均约 30 秒返回一段 6 或 10 秒的成片。生成在 LoveGen AI 中异步运行——提交后视频会自动出现在你的素材库,可直接预览、下载并与 Sora 2、Veo 3.1、Seedance 2.0、Happy Horse 1.0 在同一工作区里横向对比。
如何使用 Grok Imagine
第一步:选择文本生成视频或图像生成视频
在文本生成视频(仅靠提示词生成)和图像生成视频(动画化你上传的参考图)之间切换。
第二步:设置参数
选择时长(6 秒或 10 秒)、分辨率(480p 或 720p)、宽高比(仅 T2V)和风格模式(Fun 或 Normal)。
第三步:生成并下载
点击生成。Aurora 大约 30 秒返回一段带原生音频的成片——可直接预览、下载,或在素材库与其他模型并排对比。
Grok Imagine 技术规格
| 提供方 | xAI |
| 引擎 | Aurora — 自回归逐帧预测 |
| 最新版本 | Grok Imagine 1.0(2026 年 2 月 2 日正式上线) |
| 训练基础设施 | Colossus 超算,110,000 张 NVIDIA GB200 GPU |
| 输入模式 | 文本生成视频、图像生成视频 |
| 风格模式 | Fun, Normal, Spicy |
| 视频时长 | 6 秒或 10 秒(xAI 还通过 Extend from Frame 提供 15 秒) |
| 分辨率 | 480p, 720p |
| 帧率 | 24 fps |
| 宽高比(T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 |
| 图像输入(I2V) | 1 张图——JPG / JPEG / PNG / WebP,最大 20 MB |
| 音频 | 原生——对白(带口型同步)、背景音乐、音效 |
| 生成速度 | 平均每条约 30 秒 |
| 结果有效期 | 生成视频链接在完成后 24 小时内有效 |
为什么选择 Grok Imagine
Aurora 自回归引擎
Grok Imagine 基于 Aurora——xAI 的逐帧自回归视频模型,用 110,000 张 NVIDIA GB200 GPU 训练而成,与扩散式竞品在底层架构上截然不同,也是其动作质感独特的关键原因。
三种开箱即用的风格模式
Fun、Normal、Spicy 让你无需重写提示词即可调整创意语调。多数视频模型只给一种风格,Grok Imagine 用同一提示词给你三种。
原生音频,单次前向生成
对白(带口型同步)、环境音、背景音乐与画面联合生成——没有独立音频流程,也不会有同步偏移。
Grok Imagine 与其他 AI 视频生成器对比
| Feature | Grok Imagine | Sora 2 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|
| 提供方 | xAI | OpenAI | Google DeepMind | ByteDance |
| 架构 | Aurora(自回归) | 扩散 | 扩散 | 扩散 |
| 最高分辨率 | 720p | 1080p | 1080p | 1080p |
| 时长选项 | 6 秒、10 秒(通过 Extend 达 15 秒) | 4s, 8s, 12s | 4s, 6s, 8s | 4-15s |
| 风格模式 | Fun, Normal, Spicy | 单一模式 | 单一模式 | 单一模式 |
| 图像输入 | 1 张图(I2V) | 1 张图 + Cameos | 最多 3 张 | 1–2 张 |
| 宽高比(T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16 | 16:9、9:16、1:1,另 +4 种 |
| 原生音频 | 是 | 是 | 是 | 是 |
| 平均生成速度 | ~30s | ~60s | ~45s | ~40s |
适合创作者、营销与故事讲述者
社交媒体短片
用 9:16 或 1:1 生成 6 秒或 10 秒短片,适合 TikTok、Reels 和 Shorts。Fun 模式让内容活力满满,原生音频已就绪。
图像动画
上传现有照片或插画,让它动起来——非常适合产品图、角色画稿或幕后剪影。
概念分镜板
用 480p 快速试出多个风格方向,确认后再以 720p 重渲——非常适合创意发散与提案。
广告与推广片
16:9 横屏用于主视觉,9:16 竖屏用于垂直渠道。风格模式让你不重写提示词即可匹配品牌调性——俏皮或克制,任你选。
故事板
把脚本中的关键拍点用 6 秒短片快速可视化,搭配同步对白先迭代构图与运动,再交给长片模型。
教育内容
把图表、照片与概念插画动画化为短片,配上原生旁白音频——比静态幻灯片更能抓住注意力。
探索相关 AI 视频生成器
Grok Imagine 常见问题
什么是 Grok Imagine?
Grok Imagine 是 xAI 的视频生成模型,基于 Aurora 自回归引擎,在 Colossus 超算上用 110,000 张 NVIDIA GB200 GPU 训练。支持文本生成视频与图像生成视频,并提供三种创意风格模式——Fun、Normal、Spicy——可改变同一提示词的创作语调。
Grok Imagine 是什么时候发布的?
Grok Imagine 在 2025 年作为预览版发布,并于 2026 年 2 月 2 日正式发布 1.0 版本。xAI 持续迭代——最近一次是 2026 年 3 月 2 日上线的 Extend from Frame,将多段链式拼接以获得每段最长 15 秒的序列。
支持哪些时长和分辨率?
Grok Imagine 可生成 6 秒或 10 秒的视频,分辨率为 480p 或 720p,帧率 24 fps,平均每条约 30 秒生成完成。
支持哪些宽高比?
文本生成视频支持 16:9、9:16、1:1、3:2、2:3,覆盖横屏、竖屏、方形和经典摄影构图。图像生成视频会保留你上传参考图的宽高比。
Fun、Normal、Spicy 三种模式有什么区别?
Normal 模式输出平衡、忠实;Fun 模式偏向俏皮、夸张、有创意;Spicy 模式解锁更大胆、更戏剧化的内容。同一提示词在不同模式下可呈现明显不同的电影氛围。
Grok Imagine 会生成音频吗?
是的。Aurora 原生在一次前向中生成对白(带口型同步)、背景音乐和环境音效,无需后期分开处理。


