Loading

Grok Imagine AI 视频生成器

在 Grok Imagine 中用 xAI 的 Aurora 引擎创作风格化 AI 视频

Grok Imagine 是 xAI 的视频生成模型,由 Aurora 自回归引擎驱动,在 Colossus 超算上用 110,000 张 NVIDIA GB200 GPU 训练而成。可在 480p 或 720p 下生成 6 秒或 10 秒的视频,原生包含音频,支持文本生成视频与图像生成视频,并自带三种风格模式——Fun、Normal、Spicy——一键切换创作语调。

Grok Imagine 1.0 于 2026 年 2 月 2 日正式上线,此前已在 2025 年作为预览版发布。模型基于 xAI 的 Aurora 架构——一种自回归式逐帧预测引擎,从左到右顺序渲染,与扩散式模型路径不同。训练运行使用 Colossus 超级计算机和 110,000 张 NVIDIA GB200 GPU,是迄今为止 AI 视频领域最大规模的训练基础设施之一,公网产品 30 天内已生成超过 12.45 亿条视频。

模型在 LoveGen AI 中提供两种输入模式。文本生成视频接受最多 2,000 字符的提示词,支持 5 种宽高比——16:9、9:16、1:1、3:2、2:3——覆盖横屏、竖屏、方形与经典摄影构图。图像生成视频接受单张参考图(JPG / JPEG / PNG / WebP,最大 20 MB),按你的提示词驱动其动起来。两种模式都以 24 fps 渲染,时长 6 秒或 10 秒,输出最高 720p。

核心特征是风格模式切换。Normal 模式输出平衡、忠实于提示词;Fun 模式偏向俏皮、夸张、有创造力;Spicy 模式则解锁更大胆、更戏剧化的渲染。音频是 Aurora 原生能力——对白(带口型同步)、背景音乐、环境音效在一次前向中联合生成,无需后期合成。2026 年 3 月 2 日,xAI 上线了 Extend from Frame 功能,可用上一段的最后一帧作为下一段的起始帧实现链式扩展;模型平均约 30 秒返回一段 6 或 10 秒的成片。生成在 LoveGen AI 中异步运行——提交后视频会自动出现在你的素材库,可直接预览、下载并与 Sora 2、Veo 3.1、Seedance 2.0、Happy Horse 1.0 在同一工作区里横向对比。

如何使用 Grok Imagine

01

第一步:选择文本生成视频或图像生成视频

在文本生成视频(仅靠提示词生成)和图像生成视频(动画化你上传的参考图)之间切换。

02

第二步:设置参数

选择时长(6 秒或 10 秒)、分辨率(480p 或 720p)、宽高比(仅 T2V)和风格模式(Fun 或 Normal)。

03

第三步:生成并下载

点击生成。Aurora 大约 30 秒返回一段带原生音频的成片——可直接预览、下载,或在素材库与其他模型并排对比。

Grok Imagine 技术规格

提供方xAI
引擎Aurora — 自回归逐帧预测
最新版本Grok Imagine 1.0(2026 年 2 月 2 日正式上线)
训练基础设施Colossus 超算,110,000 张 NVIDIA GB200 GPU
输入模式文本生成视频、图像生成视频
风格模式Fun, Normal, Spicy
视频时长6 秒或 10 秒(xAI 还通过 Extend from Frame 提供 15 秒)
分辨率480p, 720p
帧率24 fps
宽高比(T2V)16:9, 9:16, 1:1, 3:2, 2:3
图像输入(I2V)1 张图——JPG / JPEG / PNG / WebP,最大 20 MB
音频原生——对白(带口型同步)、背景音乐、音效
生成速度平均每条约 30 秒
结果有效期生成视频链接在完成后 24 小时内有效

为什么选择 Grok Imagine

Aurora 自回归引擎

Grok Imagine 基于 Aurora——xAI 的逐帧自回归视频模型,用 110,000 张 NVIDIA GB200 GPU 训练而成,与扩散式竞品在底层架构上截然不同,也是其动作质感独特的关键原因。

三种开箱即用的风格模式

Fun、Normal、Spicy 让你无需重写提示词即可调整创意语调。多数视频模型只给一种风格,Grok Imagine 用同一提示词给你三种。

原生音频,单次前向生成

对白(带口型同步)、环境音、背景音乐与画面联合生成——没有独立音频流程,也不会有同步偏移。

Grok Imagine 与其他 AI 视频生成器对比

FeatureGrok ImagineSora 2Veo 3.1Seedance 2.0
提供方xAIOpenAIGoogle DeepMindByteDance
架构Aurora(自回归)扩散扩散扩散
最高分辨率720p1080p1080p1080p
时长选项6 秒、10 秒(通过 Extend 达 15 秒)4s, 8s, 12s4s, 6s, 8s4-15s
风格模式Fun, Normal, Spicy单一模式单一模式单一模式
图像输入1 张图(I2V)1 张图 + Cameos最多 3 张1–2 张
宽高比(T2V)16:9, 9:16, 1:1, 3:2, 2:316:9, 9:16, 1:1, 3:2, 2:316:9, 9:1616:9、9:16、1:1,另 +4 种
原生音频
平均生成速度~30s~60s~45s~40s

适合创作者、营销与故事讲述者

01

社交媒体短片

用 9:16 或 1:1 生成 6 秒或 10 秒短片,适合 TikTok、Reels 和 Shorts。Fun 模式让内容活力满满,原生音频已就绪。

02

图像动画

上传现有照片或插画,让它动起来——非常适合产品图、角色画稿或幕后剪影。

03

概念分镜板

用 480p 快速试出多个风格方向,确认后再以 720p 重渲——非常适合创意发散与提案。

04

广告与推广片

16:9 横屏用于主视觉,9:16 竖屏用于垂直渠道。风格模式让你不重写提示词即可匹配品牌调性——俏皮或克制,任你选。

05

故事板

把脚本中的关键拍点用 6 秒短片快速可视化,搭配同步对白先迭代构图与运动,再交给长片模型。

06

教育内容

把图表、照片与概念插画动画化为短片,配上原生旁白音频——比静态幻灯片更能抓住注意力。

探索相关 AI 视频生成器

Grok Imagine 常见问题

什么是 Grok Imagine?

Grok Imagine 是 xAI 的视频生成模型,基于 Aurora 自回归引擎,在 Colossus 超算上用 110,000 张 NVIDIA GB200 GPU 训练。支持文本生成视频与图像生成视频,并提供三种创意风格模式——Fun、Normal、Spicy——可改变同一提示词的创作语调。

Grok Imagine 是什么时候发布的?

Grok Imagine 在 2025 年作为预览版发布,并于 2026 年 2 月 2 日正式发布 1.0 版本。xAI 持续迭代——最近一次是 2026 年 3 月 2 日上线的 Extend from Frame,将多段链式拼接以获得每段最长 15 秒的序列。

支持哪些时长和分辨率?

Grok Imagine 可生成 6 秒或 10 秒的视频,分辨率为 480p 或 720p,帧率 24 fps,平均每条约 30 秒生成完成。

支持哪些宽高比?

文本生成视频支持 16:9、9:16、1:1、3:2、2:3,覆盖横屏、竖屏、方形和经典摄影构图。图像生成视频会保留你上传参考图的宽高比。

Fun、Normal、Spicy 三种模式有什么区别?

Normal 模式输出平衡、忠实;Fun 模式偏向俏皮、夸张、有创意;Spicy 模式解锁更大胆、更戏剧化的内容。同一提示词在不同模式下可呈现明显不同的电影氛围。

Grok Imagine 会生成音频吗?

是的。Aurora 原生在一次前向中生成对白(带口型同步)、背景音乐和环境音效,无需后期分开处理。