
Grok Imagine AI 動画ジェネレーター
Grok Imagine と xAI の Aurora エンジンでスタイル豊かな AI 動画を作成
Grok Imagine は xAI の動画生成モデルで、Aurora 自己回帰エンジンを基盤とし、Colossus スーパーコンピュータ上で 110,000 基の NVIDIA GB200 GPU を用いて学習されました。480p または 720p で 6 秒または 10 秒のクリップを生成し、音声をネイティブに含み、テキストから動画と画像から動画の両方に対応。3 つの個性的なスタイルモード——Fun、Normal、Spicy——を備え、ワンクリックでプロンプトのトーンを切り替えられます。
Grok Imagine 1.0 は 2026 年 2 月 2 日に一般提供を開始しました(2025 年にプレビュー版がリリース済み)。本モデルは xAI の Aurora アーキテクチャ——拡散型ではなく、左から右へフレームを逐次予測する自己回帰型エンジンに基づきます。学習は Colossus スーパーコンピュータと 110,000 基の NVIDIA GB200 GPU を使い、これは AI 動画分野で最大級の学習インフラのひとつです。公開サービスでは 30 日間で 12.45 億本以上の動画が生成されています。
LoveGen AI では 2 種類の入力モードを提供します。テキストから動画は最大 2,000 文字のプロンプトを受け、5 つのアスペクト比——16:9、9:16、1:1、3:2、2:3——で横長・縦長・正方形・クラシックな写真構図のすべてをカバーします。画像から動画は参照画像 1 枚(JPG / JPEG / PNG / WebP、最大 20 MB)を受け取り、プロンプトに沿ってアニメーションさせます。いずれも 24 fps、6 秒または 10 秒、最大 720p で出力されます。
最大の特徴はスタイルモードのトグルです。Normal はバランスが取れ、プロンプトに忠実な出力を返します。Fun は遊び心と誇張を加えた創造的な解釈に振り、Spicy はよりエッジの効いたドラマチックな表現を解放します。音声は Aurora にネイティブに組み込まれており、リップシンクのある対話、背景音楽、環境音が単一のフォワードパスで一緒に生成され、後段での同期処理は不要です。2026 年 3 月 2 日、xAI は Extend from Frame をリリースしました——前のクリップの最終フレームを次のクリップの開始フレームとしてつなぎ、より長いシーケンスを構築できます。本モデルは平均 30 秒程度で 6 秒または 10 秒のクリップを返します。LoveGen AI 内では非同期で実行され、生成が完了すると動画はギャラリーに追加され、Sora 2、Veo 3.1、Seedance 2.0、Happy Horse 1.0 と同じワークスペース内で直接プレビュー、ダウンロード、比較ができます。
Grok Imagine の使い方
ステップ 1:テキストから動画 / 画像から動画 を選ぶ
プロンプトのみで生成するテキストから動画と、参照画像をアニメーションさせる画像から動画を切り替えます。
ステップ 2:設定を選ぶ
長さ(6 秒または 10 秒)、解像度(480p または 720p)、アスペクト比(T2V のみ)、スタイルモード(Fun または Normal)を選択します。
ステップ 3:生成してダウンロード
「生成」をクリック。Aurora は約 30 秒でネイティブ音声付きのクリップを返します——プレビュー、ダウンロード、または他のモデルとギャラリー上で並べて比較できます。
Grok Imagine 技術仕様
| 提供元 | xAI |
| エンジン | Aurora — 自己回帰によるフレーム予測 |
| 最新バージョン | Grok Imagine 1.0(2026 年 2 月 2 日 一般提供開始) |
| 学習インフラ | Colossus スーパーコンピュータ、110,000 基の NVIDIA GB200 GPU |
| 入力モード | テキストから動画、画像から動画 |
| スタイルモード | Fun, Normal, Spicy |
| 動画の長さ | 6 秒または 10 秒(xAI は Extend from Frame で 15 秒も提供) |
| 解像度 | 480p, 720p |
| フレームレート | 24 fps |
| アスペクト比(T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 |
| 画像入力(I2V) | 画像 1 枚 — JPG / JPEG / PNG / WebP、最大 20 MB |
| 音声 | ネイティブ — 対話(リップシンクあり)、背景音楽、効果音 |
| 生成速度 | 1 本あたり平均約 30 秒 |
| 結果の有効期間 | 生成された動画リンクは完了後 24 時間有効 |
Grok Imagine を選ぶ理由
Aurora 自己回帰エンジン
Grok Imagine は Aurora を基盤とする xAI のフレーム単位の自己回帰動画モデルで、110,000 基の NVIDIA GB200 GPU で学習されています。拡散ベースの競合と根本的に異なるアプローチであり、独特の動きの質感の理由でもあります。
最初から備わる 3 つのスタイルモード
Fun、Normal、Spicy はプロンプトを書き直さずに創作トーンを切り替えられます。多くの動画モデルは 1 種類のルックしか提供しませんが、Grok Imagine は同じ入力から 3 つのバリエーションを返します。
シングルパスでネイティブ音声
リップシンク付きの対話、環境音、背景音楽が動画と同時に生成されます——独立した音声段階も同期ずれもありません。
Grok Imagine と他の AI 動画ジェネレーターの比較
| Feature | Grok Imagine | Sora 2 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|
| 提供元 | xAI | OpenAI | Google DeepMind | ByteDance |
| アーキテクチャ | Aurora(自己回帰) | 拡散 | 拡散 | 拡散 |
| 最大解像度 | 720p | 1080p | 1080p | 1080p |
| 長さの選択肢 | 6 秒、10 秒(Extend で 15 秒) | 4s, 8s, 12s | 4s, 6s, 8s | 4-15s |
| スタイルモード | Fun, Normal, Spicy | 単一モード | 単一モード | 単一モード |
| 画像入力 | 画像 1 枚(I2V) | 画像 1 枚 + Cameos | 最大 3 枚 | 1–2 枚 |
| アスペクト比(T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16 | 16:9、9:16、1:1、ほか 4 種類 |
| ネイティブ音声 | あり | あり | あり | あり |
| 平均生成速度 | ~30s | ~60s | ~45s | ~40s |
クリエイター・マーケター・ストーリーテラーに最適
ソーシャルメディア向けクリップ
9:16 や 1:1 のアスペクトで 6 秒または 10 秒の動画を生成。TikTok、Reels、Shorts に最適。Fun モードでネイティブ音声付きのスクロール離れない元気なコンテンツを実現。
画像のアニメーション化
既存の写真やイラストをアップロードして動かす——プロダクト写真、キャラクターアート、舞台裏ショットなどに最適。
コンセプトボード
480p で同じシーンを複数のスタイルで素早く生成し、方向性が決まったら 720p で再レンダリング——アイデア出しやピッチに最適。
広告とプロモーション
16:9 でメインビジュアル、9:16 で縦型チャンネルに対応。スタイルモードでプロンプトを書き直さずにブランドトーンを調整できます——遊び心も落ち着きも自在に。
ストーリーボード
脚本のビートを 6 秒のクリップで素早く可視化。同期対話付きでフレーミングと動きを反復し、長尺モデルへ進む前に方向性を確定できます。
教育コンテンツ
図解・写真・コンセプトイラストを短い魅力的なクリップにアニメーション化し、ネイティブのナレーション音声で静的なスライドより集中力を維持できます。
関連する AI 動画ジェネレーターを探す

Sora 2
OpenAI のシネマティック動画ジェネレーター。物理的に正確な動きと最大 20 秒の長さを実現。

Veo 3.1
Google DeepMind の 1080p 動画モデル。フレームから動画への変換と音声生成に対応。

Seedance 2.0
ByteDance の動画モデル。Web 検索の統合と同期音声をサポート。
Happy Horse 1.0
Alibaba の世界 1 位の動画モデル。シネマティックな動作品質と 7 言語のリップシンクを実現。
Kling 2.5 Turbo
Kuaishou の高速 1080p 動画ジェネレーター。スピードとコスト効率を重視。

Veo 4
Google の次世代動画モデル。4K アップスケールと空間音声に対応。
Grok Imagine に関するよくある質問
Grok Imagine とは?
Grok Imagine は xAI の動画生成モデルで、Aurora 自己回帰エンジンを基盤に、Colossus スーパーコンピュータと 110,000 基の NVIDIA GB200 GPU で学習されています。テキストから動画と画像から動画に対応し、Fun・Normal・Spicy という 3 つのクリエイティブなスタイルモードでプロンプトのトーンを変えられます。
Grok Imagine はいつリリースされましたか?
2025 年にプレビュー版が公開され、2026 年 2 月 2 日にバージョン 1.0 として一般提供が始まりました。xAI はその後もアップデートを続けており、直近では 2026 年 3 月 2 日の Extend from Frame により、クリップを連結して最大 15 秒のシーケンスを作成できるようになりました。
対応する長さと解像度は?
Grok Imagine は 6 秒または 10 秒のクリップを 480p または 720p で生成し、24 fps で出力します。1 本あたりの平均生成時間は約 30 秒です。
対応するアスペクト比は?
テキストから動画は 16:9、9:16、1:1、3:2、2:3 をサポートし、横長・縦長・正方形・クラシックな写真構図を網羅します。画像から動画はアップロードした参照画像のアスペクト比をそのまま保持します。
Fun、Normal、Spicy のモードはどう違いますか?
Normal はバランスの取れた忠実な出力。Fun は遊び心のある誇張的でクリエイティブな解釈。Spicy はよりエッジの効いたドラマチックな表現を解放します。同じプロンプトでもモードによって雰囲気が大きく変わります。
Grok Imagine は音声も生成しますか?
はい。Aurora は単一のフォワードパスでリップシンク付きの対話、背景音楽、環境音をネイティブに同期生成します——後処理は不要です。