Published Apr 29, 2026Updated Apr 29, 2026

Grok Imagine AI 動画ジェネレーター

Grok Imagine と xAI の Aurora エンジンでスタイル豊かな AI 動画を作成

Grok Imagine は xAI の動画生成モデルで、Aurora 自己回帰エンジンを基盤とし、Colossus スーパーコンピュータ上で 110,000 基の NVIDIA GB200 GPU を用いて学習されました。480p または 720p で 6 秒または 10 秒のクリップを生成し、音声をネイティブに含み、テキストから動画と画像から動画の両方に対応。3 つの個性的なスタイルモード——Fun、Normal、Spicy——を備え、ワンクリックでプロンプトのトーンを切り替えられます。

Grok Imagine 1.0 は 2026 年 2 月 2 日に一般提供を開始しました（2025 年にプレビュー版がリリース済み）。本モデルは xAI の Aurora アーキテクチャ——拡散型ではなく、左から右へフレームを逐次予測する自己回帰型エンジンに基づきます。学習は Colossus スーパーコンピュータと 110,000 基の NVIDIA GB200 GPU を使い、これは AI 動画分野で最大級の学習インフラのひとつです。公開サービスでは 30 日間で 12.45 億本以上の動画が生成されています。

LoveGen AI では 2 種類の入力モードを提供します。テキストから動画は最大 2,000 文字のプロンプトを受け、5 つのアスペクト比——16:9、9:16、1:1、3:2、2:3——で横長・縦長・正方形・クラシックな写真構図のすべてをカバーします。画像から動画は参照画像 1 枚（JPG / JPEG / PNG / WebP、最大 20 MB）を受け取り、プロンプトに沿ってアニメーションさせます。いずれも 24 fps、6 秒または 10 秒、最大 720p で出力されます。

最大の特徴はスタイルモードのトグルです。Normal はバランスが取れ、プロンプトに忠実な出力を返します。Fun は遊び心と誇張を加えた創造的な解釈に振り、Spicy はよりエッジの効いたドラマチックな表現を解放します。音声は Aurora にネイティブに組み込まれており、リップシンクのある対話、背景音楽、環境音が単一のフォワードパスで一緒に生成され、後段での同期処理は不要です。2026 年 3 月 2 日、xAI は Extend from Frame をリリースしました——前のクリップの最終フレームを次のクリップの開始フレームとしてつなぎ、より長いシーケンスを構築できます。本モデルは平均 30 秒程度で 6 秒または 10 秒のクリップを返します。LoveGen AI 内では非同期で実行され、生成が完了すると動画はギャラリーに追加され、Sora 2、Veo 3.1、Seedance 2.0、Happy Horse 1.0 と同じワークスペース内で直接プレビュー、ダウンロード、比較ができます。

Grok Imagine の使い方

ステップ 1：テキストから動画 / 画像から動画を選ぶ

プロンプトのみで生成するテキストから動画と、参照画像をアニメーションさせる画像から動画を切り替えます。

ステップ 2：設定を選ぶ

長さ（6 秒または 10 秒）、解像度（480p または 720p）、アスペクト比（T2V のみ）、スタイルモード（Fun または Normal）を選択します。

ステップ 3：生成してダウンロード

「生成」をクリック。Aurora は約 30 秒でネイティブ音声付きのクリップを返します——プレビュー、ダウンロード、または他のモデルとギャラリー上で並べて比較できます。

Grok Imagine 技術仕様

提供元	xAI
エンジン	Aurora — 自己回帰によるフレーム予測
最新バージョン	Grok Imagine 1.0（2026 年 2 月 2 日一般提供開始）
学習インフラ	Colossus スーパーコンピュータ、110,000 基の NVIDIA GB200 GPU
入力モード	テキストから動画、画像から動画
スタイルモード	Fun, Normal, Spicy
動画の長さ	6 秒または 10 秒（xAI は Extend from Frame で 15 秒も提供）
解像度	480p, 720p
フレームレート	24 fps
アスペクト比（T2V）	16:9, 9:16, 1:1, 3:2, 2:3
画像入力（I2V）	画像 1 枚 — JPG / JPEG / PNG / WebP、最大 20 MB
音声	ネイティブ — 対話（リップシンクあり）、背景音楽、効果音
生成速度	1 本あたり平均約 30 秒
結果の有効期間	生成された動画リンクは完了後 24 時間有効

Grok Imagine を選ぶ理由

Aurora 自己回帰エンジン

Grok Imagine は Aurora を基盤とする xAI のフレーム単位の自己回帰動画モデルで、110,000 基の NVIDIA GB200 GPU で学習されています。拡散ベースの競合と根本的に異なるアプローチであり、独特の動きの質感の理由でもあります。

最初から備わる 3 つのスタイルモード

Fun、Normal、Spicy はプロンプトを書き直さずに創作トーンを切り替えられます。多くの動画モデルは 1 種類のルックしか提供しませんが、Grok Imagine は同じ入力から 3 つのバリエーションを返します。

シングルパスでネイティブ音声

リップシンク付きの対話、環境音、背景音楽が動画と同時に生成されます——独立した音声段階も同期ずれもありません。

Grok Imagine と他の AI 動画ジェネレーターの比較

Feature	Grok Imagine	Sora 2	Veo 3.1	Seedance 2.0
提供元	xAI	OpenAI	Google DeepMind	ByteDance
アーキテクチャ	Aurora（自己回帰）	拡散	拡散	拡散
最大解像度	720p	1080p	1080p	1080p
長さの選択肢	6 秒、10 秒（Extend で 15 秒）	4s, 8s, 12s	4s, 6s, 8s	4-15s
スタイルモード	Fun, Normal, Spicy	単一モード	単一モード	単一モード
画像入力	画像 1 枚（I2V）	画像 1 枚 + Cameos	最大 3 枚	1–2 枚
アスペクト比（T2V）	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16	16:9、9:16、1:1、ほか 4 種類
ネイティブ音声	あり	あり	あり	あり
平均生成速度	~30s	~60s	~45s	~40s

クリエイター・マーケター・ストーリーテラーに最適

ソーシャルメディア向けクリップ

9:16 や 1:1 のアスペクトで 6 秒または 10 秒の動画を生成。TikTok、Reels、Shorts に最適。Fun モードでネイティブ音声付きのスクロール離れない元気なコンテンツを実現。

画像のアニメーション化

既存の写真やイラストをアップロードして動かす——プロダクト写真、キャラクターアート、舞台裏ショットなどに最適。

コンセプトボード

480p で同じシーンを複数のスタイルで素早く生成し、方向性が決まったら 720p で再レンダリング——アイデア出しやピッチに最適。

広告とプロモーション

16:9 でメインビジュアル、9:16 で縦型チャンネルに対応。スタイルモードでプロンプトを書き直さずにブランドトーンを調整できます——遊び心も落ち着きも自在に。

ストーリーボード

脚本のビートを 6 秒のクリップで素早く可視化。同期対話付きでフレーミングと動きを反復し、長尺モデルへ進む前に方向性を確定できます。

教育コンテンツ

図解・写真・コンセプトイラストを短い魅力的なクリップにアニメーション化し、ネイティブのナレーション音声で静的なスライドより集中力を維持できます。

Grok Imagine に関するよくある質問

Grok Imagine とは？

Grok Imagine は xAI の動画生成モデルで、Aurora 自己回帰エンジンを基盤に、Colossus スーパーコンピュータと 110,000 基の NVIDIA GB200 GPU で学習されています。テキストから動画と画像から動画に対応し、Fun・Normal・Spicy という 3 つのクリエイティブなスタイルモードでプロンプトのトーンを変えられます。

Grok Imagine はいつリリースされましたか？

2025 年にプレビュー版が公開され、2026 年 2 月 2 日にバージョン 1.0 として一般提供が始まりました。xAI はその後もアップデートを続けており、直近では 2026 年 3 月 2 日の Extend from Frame により、クリップを連結して最大 15 秒のシーケンスを作成できるようになりました。

対応する長さと解像度は？

Grok Imagine は 6 秒または 10 秒のクリップを 480p または 720p で生成し、24 fps で出力します。1 本あたりの平均生成時間は約 30 秒です。

対応するアスペクト比は？

テキストから動画は 16:9、9:16、1:1、3:2、2:3 をサポートし、横長・縦長・正方形・クラシックな写真構図を網羅します。画像から動画はアップロードした参照画像のアスペクト比をそのまま保持します。

Fun、Normal、Spicy のモードはどう違いますか？

Normal はバランスの取れた忠実な出力。Fun は遊び心のある誇張的でクリエイティブな解釈。Spicy はよりエッジの効いたドラマチックな表現を解放します。同じプロンプトでもモードによって雰囲気が大きく変わります。

Grok Imagine は音声も生成しますか？

はい。Aurora は単一のフォワードパスでリップシンク付きの対話、背景音楽、環境音をネイティブに同期生成します——後処理は不要です。

Grok Imagine AI 動画ジェネレーター

Grok Imagine と xAI の Aurora エンジンでスタイル豊かな AI 動画を作成