Loading

Grok Imagine AI 動画ジェネレーター

Grok Imagine と xAI の Aurora エンジンでスタイル豊かな AI 動画を作成

Grok Imagine は xAI の動画生成モデルで、Aurora 自己回帰エンジンを基盤とし、Colossus スーパーコンピュータ上で 110,000 基の NVIDIA GB200 GPU を用いて学習されました。480p または 720p で 6 秒または 10 秒のクリップを生成し、音声をネイティブに含み、テキストから動画と画像から動画の両方に対応。3 つの個性的なスタイルモード——Fun、Normal、Spicy——を備え、ワンクリックでプロンプトのトーンを切り替えられます。

Grok Imagine 1.0 は 2026 年 2 月 2 日に一般提供を開始しました(2025 年にプレビュー版がリリース済み)。本モデルは xAI の Aurora アーキテクチャ——拡散型ではなく、左から右へフレームを逐次予測する自己回帰型エンジンに基づきます。学習は Colossus スーパーコンピュータと 110,000 基の NVIDIA GB200 GPU を使い、これは AI 動画分野で最大級の学習インフラのひとつです。公開サービスでは 30 日間で 12.45 億本以上の動画が生成されています。

LoveGen AI では 2 種類の入力モードを提供します。テキストから動画は最大 2,000 文字のプロンプトを受け、5 つのアスペクト比——16:9、9:16、1:1、3:2、2:3——で横長・縦長・正方形・クラシックな写真構図のすべてをカバーします。画像から動画は参照画像 1 枚(JPG / JPEG / PNG / WebP、最大 20 MB)を受け取り、プロンプトに沿ってアニメーションさせます。いずれも 24 fps、6 秒または 10 秒、最大 720p で出力されます。

最大の特徴はスタイルモードのトグルです。Normal はバランスが取れ、プロンプトに忠実な出力を返します。Fun は遊び心と誇張を加えた創造的な解釈に振り、Spicy はよりエッジの効いたドラマチックな表現を解放します。音声は Aurora にネイティブに組み込まれており、リップシンクのある対話、背景音楽、環境音が単一のフォワードパスで一緒に生成され、後段での同期処理は不要です。2026 年 3 月 2 日、xAI は Extend from Frame をリリースしました——前のクリップの最終フレームを次のクリップの開始フレームとしてつなぎ、より長いシーケンスを構築できます。本モデルは平均 30 秒程度で 6 秒または 10 秒のクリップを返します。LoveGen AI 内では非同期で実行され、生成が完了すると動画はギャラリーに追加され、Sora 2、Veo 3.1、Seedance 2.0、Happy Horse 1.0 と同じワークスペース内で直接プレビュー、ダウンロード、比較ができます。

Grok Imagine の使い方

01

ステップ 1:テキストから動画 / 画像から動画 を選ぶ

プロンプトのみで生成するテキストから動画と、参照画像をアニメーションさせる画像から動画を切り替えます。

02

ステップ 2:設定を選ぶ

長さ(6 秒または 10 秒)、解像度(480p または 720p)、アスペクト比(T2V のみ)、スタイルモード(Fun または Normal)を選択します。

03

ステップ 3:生成してダウンロード

「生成」をクリック。Aurora は約 30 秒でネイティブ音声付きのクリップを返します——プレビュー、ダウンロード、または他のモデルとギャラリー上で並べて比較できます。

Grok Imagine 技術仕様

提供元xAI
エンジンAurora — 自己回帰によるフレーム予測
最新バージョンGrok Imagine 1.0(2026 年 2 月 2 日 一般提供開始)
学習インフラColossus スーパーコンピュータ、110,000 基の NVIDIA GB200 GPU
入力モードテキストから動画、画像から動画
スタイルモードFun, Normal, Spicy
動画の長さ6 秒または 10 秒(xAI は Extend from Frame で 15 秒も提供)
解像度480p, 720p
フレームレート24 fps
アスペクト比(T2V)16:9, 9:16, 1:1, 3:2, 2:3
画像入力(I2V)画像 1 枚 — JPG / JPEG / PNG / WebP、最大 20 MB
音声ネイティブ — 対話(リップシンクあり)、背景音楽、効果音
生成速度1 本あたり平均約 30 秒
結果の有効期間生成された動画リンクは完了後 24 時間有効

Grok Imagine を選ぶ理由

Aurora 自己回帰エンジン

Grok Imagine は Aurora を基盤とする xAI のフレーム単位の自己回帰動画モデルで、110,000 基の NVIDIA GB200 GPU で学習されています。拡散ベースの競合と根本的に異なるアプローチであり、独特の動きの質感の理由でもあります。

最初から備わる 3 つのスタイルモード

Fun、Normal、Spicy はプロンプトを書き直さずに創作トーンを切り替えられます。多くの動画モデルは 1 種類のルックしか提供しませんが、Grok Imagine は同じ入力から 3 つのバリエーションを返します。

シングルパスでネイティブ音声

リップシンク付きの対話、環境音、背景音楽が動画と同時に生成されます——独立した音声段階も同期ずれもありません。

Grok Imagine と他の AI 動画ジェネレーターの比較

FeatureGrok ImagineSora 2Veo 3.1Seedance 2.0
提供元xAIOpenAIGoogle DeepMindByteDance
アーキテクチャAurora(自己回帰)拡散拡散拡散
最大解像度720p1080p1080p1080p
長さの選択肢6 秒、10 秒(Extend で 15 秒)4s, 8s, 12s4s, 6s, 8s4-15s
スタイルモードFun, Normal, Spicy単一モード単一モード単一モード
画像入力画像 1 枚(I2V)画像 1 枚 + Cameos最大 3 枚1–2 枚
アスペクト比(T2V)16:9, 9:16, 1:1, 3:2, 2:316:9, 9:16, 1:1, 3:2, 2:316:9, 9:1616:9、9:16、1:1、ほか 4 種類
ネイティブ音声ありありありあり
平均生成速度~30s~60s~45s~40s

クリエイター・マーケター・ストーリーテラーに最適

01

ソーシャルメディア向けクリップ

9:16 や 1:1 のアスペクトで 6 秒または 10 秒の動画を生成。TikTok、Reels、Shorts に最適。Fun モードでネイティブ音声付きのスクロール離れない元気なコンテンツを実現。

02

画像のアニメーション化

既存の写真やイラストをアップロードして動かす——プロダクト写真、キャラクターアート、舞台裏ショットなどに最適。

03

コンセプトボード

480p で同じシーンを複数のスタイルで素早く生成し、方向性が決まったら 720p で再レンダリング——アイデア出しやピッチに最適。

04

広告とプロモーション

16:9 でメインビジュアル、9:16 で縦型チャンネルに対応。スタイルモードでプロンプトを書き直さずにブランドトーンを調整できます——遊び心も落ち着きも自在に。

05

ストーリーボード

脚本のビートを 6 秒のクリップで素早く可視化。同期対話付きでフレーミングと動きを反復し、長尺モデルへ進む前に方向性を確定できます。

06

教育コンテンツ

図解・写真・コンセプトイラストを短い魅力的なクリップにアニメーション化し、ネイティブのナレーション音声で静的なスライドより集中力を維持できます。

関連する AI 動画ジェネレーターを探す

Grok Imagine に関するよくある質問

Grok Imagine とは?

Grok Imagine は xAI の動画生成モデルで、Aurora 自己回帰エンジンを基盤に、Colossus スーパーコンピュータと 110,000 基の NVIDIA GB200 GPU で学習されています。テキストから動画と画像から動画に対応し、Fun・Normal・Spicy という 3 つのクリエイティブなスタイルモードでプロンプトのトーンを変えられます。

Grok Imagine はいつリリースされましたか?

2025 年にプレビュー版が公開され、2026 年 2 月 2 日にバージョン 1.0 として一般提供が始まりました。xAI はその後もアップデートを続けており、直近では 2026 年 3 月 2 日の Extend from Frame により、クリップを連結して最大 15 秒のシーケンスを作成できるようになりました。

対応する長さと解像度は?

Grok Imagine は 6 秒または 10 秒のクリップを 480p または 720p で生成し、24 fps で出力します。1 本あたりの平均生成時間は約 30 秒です。

対応するアスペクト比は?

テキストから動画は 16:9、9:16、1:1、3:2、2:3 をサポートし、横長・縦長・正方形・クラシックな写真構図を網羅します。画像から動画はアップロードした参照画像のアスペクト比をそのまま保持します。

Fun、Normal、Spicy のモードはどう違いますか?

Normal はバランスの取れた忠実な出力。Fun は遊び心のある誇張的でクリエイティブな解釈。Spicy はよりエッジの効いたドラマチックな表現を解放します。同じプロンプトでもモードによって雰囲気が大きく変わります。

Grok Imagine は音声も生成しますか?

はい。Aurora は単一のフォワードパスでリップシンク付きの対話、背景音楽、環境音をネイティブに同期生成します——後処理は不要です。