Published Apr 29, 2026Updated Apr 29, 2026

Grok Imagine AI 视频生成器

在 Grok Imagine 中用 xAI 的 Aurora 引擎创作风格化 AI 视频

Grok Imagine 是 xAI 的视频生成模型，由 Aurora 自回归引擎驱动，在 Colossus 超算上用 110,000 张 NVIDIA GB200 GPU 训练而成。可在 480p 或 720p 下生成 6 秒或 10 秒的视频，原生包含音频，支持文本生成视频与图像生成视频，并自带三种风格模式——Fun、Normal、Spicy——一键切换创作语调。

Grok Imagine 1.0 于 2026 年 2 月 2 日正式上线，此前已在 2025 年作为预览版发布。模型基于 xAI 的 Aurora 架构——一种自回归式逐帧预测引擎，从左到右顺序渲染，与扩散式模型路径不同。训练运行使用 Colossus 超级计算机和 110,000 张 NVIDIA GB200 GPU，是迄今为止 AI 视频领域最大规模的训练基础设施之一，公网产品 30 天内已生成超过 12.45 亿条视频。

模型在 LoveGen AI 中提供两种输入模式。文本生成视频接受最多 2,000 字符的提示词，支持 5 种宽高比——16:9、9:16、1:1、3:2、2:3——覆盖横屏、竖屏、方形与经典摄影构图。图像生成视频接受单张参考图（JPG / JPEG / PNG / WebP，最大 20 MB），按你的提示词驱动其动起来。两种模式都以 24 fps 渲染，时长 6 秒或 10 秒，输出最高 720p。

核心特征是风格模式切换。Normal 模式输出平衡、忠实于提示词；Fun 模式偏向俏皮、夸张、有创造力；Spicy 模式则解锁更大胆、更戏剧化的渲染。音频是 Aurora 原生能力——对白（带口型同步）、背景音乐、环境音效在一次前向中联合生成，无需后期合成。2026 年 3 月 2 日，xAI 上线了 Extend from Frame 功能，可用上一段的最后一帧作为下一段的起始帧实现链式扩展；模型平均约 30 秒返回一段 6 或 10 秒的成片。生成在 LoveGen AI 中异步运行——提交后视频会自动出现在你的素材库，可直接预览、下载并与 Sora 2、Veo 3.1、Seedance 2.0、Happy Horse 1.0 在同一工作区里横向对比。

如何使用 Grok Imagine

第一步：选择文本生成视频或图像生成视频

在文本生成视频（仅靠提示词生成）和图像生成视频（动画化你上传的参考图）之间切换。

第二步：设置参数

选择时长（6 秒或 10 秒）、分辨率（480p 或 720p）、宽高比（仅 T2V）和风格模式（Fun 或 Normal）。

第三步：生成并下载

点击生成。Aurora 大约 30 秒返回一段带原生音频的成片——可直接预览、下载，或在素材库与其他模型并排对比。

Grok Imagine 技术规格

提供方	xAI
引擎	Aurora — 自回归逐帧预测
最新版本	Grok Imagine 1.0（2026 年 2 月 2 日正式上线）
训练基础设施	Colossus 超算，110,000 张 NVIDIA GB200 GPU
输入模式	文本生成视频、图像生成视频
风格模式	Fun, Normal, Spicy
视频时长	6 秒或 10 秒（xAI 还通过 Extend from Frame 提供 15 秒）
分辨率	480p, 720p
帧率	24 fps
宽高比（T2V）	16:9, 9:16, 1:1, 3:2, 2:3
图像输入（I2V）	1 张图——JPG / JPEG / PNG / WebP，最大 20 MB
音频	原生——对白（带口型同步）、背景音乐、音效
生成速度	平均每条约 30 秒
结果有效期	生成视频链接在完成后 24 小时内有效

为什么选择 Grok Imagine

Aurora 自回归引擎

Grok Imagine 基于 Aurora——xAI 的逐帧自回归视频模型，用 110,000 张 NVIDIA GB200 GPU 训练而成，与扩散式竞品在底层架构上截然不同，也是其动作质感独特的关键原因。

三种开箱即用的风格模式

Fun、Normal、Spicy 让你无需重写提示词即可调整创意语调。多数视频模型只给一种风格，Grok Imagine 用同一提示词给你三种。

原生音频，单次前向生成

对白（带口型同步）、环境音、背景音乐与画面联合生成——没有独立音频流程，也不会有同步偏移。

Grok Imagine 与其他 AI 视频生成器对比

Feature	Grok Imagine	Sora 2	Veo 3.1	Seedance 2.0
提供方	xAI	OpenAI	Google DeepMind	ByteDance
架构	Aurora（自回归）	扩散	扩散	扩散
最高分辨率	720p	1080p	1080p	1080p
时长选项	6 秒、10 秒（通过 Extend 达 15 秒）	4s, 8s, 12s	4s, 6s, 8s	4-15s
风格模式	Fun, Normal, Spicy	单一模式	单一模式	单一模式
图像输入	1 张图（I2V）	1 张图 + Cameos	最多 3 张	1–2 张
宽高比（T2V）	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16	16:9、9:16、1:1，另 +4 种
原生音频	是	是	是	是
平均生成速度	~30s	~60s	~45s	~40s

适合创作者、营销与故事讲述者

社交媒体短片

用 9:16 或 1:1 生成 6 秒或 10 秒短片，适合 TikTok、Reels 和 Shorts。Fun 模式让内容活力满满，原生音频已就绪。

图像动画

上传现有照片或插画，让它动起来——非常适合产品图、角色画稿或幕后剪影。

概念分镜板

用 480p 快速试出多个风格方向，确认后再以 720p 重渲——非常适合创意发散与提案。

广告与推广片

16:9 横屏用于主视觉，9:16 竖屏用于垂直渠道。风格模式让你不重写提示词即可匹配品牌调性——俏皮或克制，任你选。

故事板

把脚本中的关键拍点用 6 秒短片快速可视化，搭配同步对白先迭代构图与运动，再交给长片模型。

教育内容

把图表、照片与概念插画动画化为短片，配上原生旁白音频——比静态幻灯片更能抓住注意力。

探索相关 AI 视频生成器

Sora 2

OpenAI 的电影级视频生成器，物理感强，时长可达 20 秒。

Veo 3.1

Google DeepMind 的 1080p 视频模型，支持帧到视频与音频生成。

Seedance 2.0

ByteDance 的视频模型，集成网页搜索与同步音频。

Happy Horse 1.0

Alibaba 排名第 1 的视频模型，电影级动作质量、7 种语言口型同步。

Kling 2.5 Turbo

Kuaishou 的高速 1080p 视频生成器，主打速度与性价比。

Veo 4

Google 的下一代视频模型，支持 4K 升级与空间音频。

Grok Imagine 常见问题

什么是 Grok Imagine？

Grok Imagine 是 xAI 的视频生成模型，基于 Aurora 自回归引擎，在 Colossus 超算上用 110,000 张 NVIDIA GB200 GPU 训练。支持文本生成视频与图像生成视频，并提供三种创意风格模式——Fun、Normal、Spicy——可改变同一提示词的创作语调。

Grok Imagine 是什么时候发布的？

Grok Imagine 在 2025 年作为预览版发布，并于 2026 年 2 月 2 日正式发布 1.0 版本。xAI 持续迭代——最近一次是 2026 年 3 月 2 日上线的 Extend from Frame，将多段链式拼接以获得每段最长 15 秒的序列。

支持哪些时长和分辨率？

Grok Imagine 可生成 6 秒或 10 秒的视频，分辨率为 480p 或 720p，帧率 24 fps，平均每条约 30 秒生成完成。

支持哪些宽高比？

文本生成视频支持 16:9、9:16、1:1、3:2、2:3，覆盖横屏、竖屏、方形和经典摄影构图。图像生成视频会保留你上传参考图的宽高比。

Fun、Normal、Spicy 三种模式有什么区别？

Normal 模式输出平衡、忠实；Fun 模式偏向俏皮、夸张、有创意；Spicy 模式解锁更大胆、更戏剧化的内容。同一提示词在不同模式下可呈现明显不同的电影氛围。

Grok Imagine 会生成音频吗？

是的。Aurora 原生在一次前向中生成对白（带口型同步）、背景音乐和环境音效，无需后期分开处理。