Published Apr 29, 2026Updated Apr 29, 2026

Pembuat Video AI Grok Imagine

Buat Video AI Bergaya dengan Mesin Aurora xAI di Grok Imagine

Grok Imagine adalah model pembuatan video xAI, ditenagai oleh mesin autoregresif Aurora dan dilatih pada superkomputer Colossus dengan 110.000 GPU NVIDIA GB200. Model ini menghasilkan klip 6 atau 10 detik pada resolusi 480p atau 720p dengan audio bawaan (native), mendukung teks-ke-video dan gambar-ke-video, dan hadir dengan tiga mode gaya berbeda — Fun, Normal, dan Spicy — yang memungkinkan Anda mengubah nada kreatif dari perintah (prompt) apa pun hanya dengan satu klik.

Grok Imagine 1.0 mencapai ketersediaan umum pada 2 Februari 2026, setelah diluncurkan sebagai pratinjau pada tahun 2025. Model ini dibangun di atas Aurora, arsitektur prediksi bingkai autoregresif dari xAI, yang merender secara berurutan dari kiri ke kanan alih-alih melalui metode difusi. Proses pelatihannya menggunakan superkomputer Colossus dengan 110.000 GPU NVIDIA GB200 — salah satu infrastruktur pelatihan terbesar dalam video AI hingga saat ini — dan versi publiknya telah menghasilkan lebih dari 1,245 miliar video hanya dalam rentang waktu 30 hari.

Model ini menawarkan dua mode input di dalam LoveGen AI. Teks-ke-video menerima perintah hingga 2.000 karakter dan merender gerakan di lima rasio aspek — 16:9, 9:16, 1:1, 3:2, dan 2:3 — yang mencakup pembingkaian lanskap, potret, persegi, dan fotografi klasik. Gambar-ke-video menerima satu gambar referensi (JPG, JPEG, PNG, atau WebP, hingga 20 MB) dan menganimasikannya sesuai dengan perintah Anda. Kedua mode tersebut menghasilkan video pada 24 fps dalam durasi 6 atau 10 detik, dengan batas output maksimal 720p.

Fitur yang paling menonjol adalah tombol beralih mode gaya. Mode Normal menjaga output tetap seimbang dan setia pada perintah Anda. Mode Fun (Menyenangkan) mendorong ke arah interpretasi kreatif yang ceria dan berlebihan. Mode Spicy (Berani) membuka hasil render yang lebih tajam dan dramatis. Audio merupakan bawaan dari Aurora — dialog dengan sinkronisasi bibir, musik latar, dan efek suara ambien dihasilkan dari satu proses tanpa pengeditan pascaproduksi tahap kedua. Pada 2 Maret 2026, xAI merilis fitur Extend from Frame (Perpanjang dari Bingkai), yang menyambungkan klip-klip menggunakan bingkai akhir dari satu klip sebagai awal dari klip berikutnya, dan model ini mengembalikan klip 6 atau 10 detik yang sudah jadi dalam waktu rata-rata sekitar 30 detik. Pembuatan berjalan secara asinkron di dalam LoveGen AI — kirimkan tugasnya dan video yang sudah selesai akan masuk ke galeri Anda sehingga Anda dapat mempratinjau, mengunduh, dan membandingkannya secara langsung dengan Sora 2, Veo 3.1, Seedance 2.0, dan Happy Horse 1.0 di ruang kerja yang sama.

Cara Menggunakan Grok Imagine

Langkah 1: Pilih Teks-ke-Video atau Gambar-ke-Video

Beralihlah antara teks-ke-video untuk pembuatan hanya melalui perintah (prompt), atau gambar-ke-video untuk menganimasikan gambar referensi yang Anda unggah.

Langkah 2: Pilih Pengaturan Anda

Pilih durasi (6 dtk atau 10 dtk), resolusi (480p atau 720p), rasio aspek (hanya untuk T2V), dan mode gaya (Fun atau Normal).

Langkah 3: Hasilkan dan Unduh

Klik Hasilkan. Aurora akan memberikan klip yang sudah jadi dengan audio bawaan dalam waktu sekitar 30 detik — pratinjau, unduh, atau bandingkan secara berdampingan dengan model lain di galeri Anda.

Spesifikasi Teknis Grok Imagine

Penyedia	xAI
Mesin	Aurora — prediksi bingkai autoregresif
Versi Terbaru	Grok Imagine 1.0 (ketersediaan umum 2 Feb 2026)
Infrastruktur Pelatihan	Superkomputer Colossus, 110.000 GPU NVIDIA GB200
Mode Input	Teks-ke-video, Gambar-ke-video
Mode Gaya	Fun, Normal, Spicy
Durasi Video	6 atau 10 detik (xAI juga menyediakan 15 detik melalui Extend from Frame)
Resolusi	480p, 720p
Kecepatan Bingkai (Frame Rate)	24 fps
Rasio Aspek (T2V)	16:9, 9:16, 1:1, 3:2, 2:3
Input Gambar (I2V)	1 gambar — JPG / JPEG / PNG / WebP, hingga 20 MB
Audio	Bawaan (Native) — dialog (dengan sinkronisasi bibir), musik latar, efek suara
Kecepatan Pembuatan	Rata-rata ~30 detik per klip
Masa Berlaku Hasil	Tautan video yang dihasilkan tetap valid selama 24 jam setelah selesai

Mengapa Memilih Grok Imagine

Mesin Autoregresif Aurora

Grok Imagine dibangun di atas Aurora, model video autoregresif bingkai-demi-bingkai milik xAI yang dilatih dengan 110.000 GPU NVIDIA GB200 — sebuah pendekatan yang secara mendasar berbeda dari pesaing berbasis difusi dan merupakan alasan utama mengapa gerakannya terasa berbeda.

Tiga Mode Gaya Langsung Siap Pakai

Fun, Normal, dan Spicy memungkinkan Anda mengatur nada kreatif tanpa harus menulis ulang perintah Anda. Sebagian besar model video memberi Anda satu tampilan; Grok Imagine memberi Anda tiga dari input yang sama.

Audio Bawaan dalam Satu Proses

Dialog dengan sinkronisasi bibir, suara ambien, dan musik latar diproduksi secara bersamaan dengan video — tanpa tahapan audio terpisah, tanpa penyimpangan sinkronisasi.

Grok Imagine vs Pembuat Video AI Lainnya

Feature	Grok Imagine	Sora 2	Veo 3.1	Seedance 2.0
Penyedia	xAI	OpenAI	Google DeepMind	ByteDance
Arsitektur	Aurora (autoregresif)	Difusi	Difusi	Difusi
Resolusi Maks	720p	1080p	1080p	1080p
Pilihan Durasi	6 dtk, 10 dtk (15 dtk via Extend)	4 dtk, 8 dtk, 12 dtk	4 dtk, 6 dtk, 8 dtk	4–15 dtk
Mode Gaya	Fun, Normal, Spicy	Mode tunggal	Mode tunggal	Mode tunggal
Input Gambar	1 gambar (I2V)	1 gambar + Cameos	Hingga 3 gambar	1–2 gambar
Rasio Aspek (T2V)	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16	16:9, 9:16, 1:1, +4 lagi
Audio Bawaan	Ya	Ya	Ya	Ya
Rata-rata Kecepatan Pembuatan	~30 dtk	~60 dtk	~45 dtk	~40 dtk

Sempurna untuk Kreator, Pemasar, dan Pencerita

Klip Media Sosial

Hasilkan video pendek 6 atau 10 detik dalam format 9:16 atau 1:1 untuk TikTok, Reels, dan Shorts. Pilih mode Fun untuk konten energetik yang menghentikan guliran (scroll) layar dengan audio bawaan.

Animasi Gambar

Unggah foto atau ilustrasi yang ada dan ubah menjadi urutan bergerak — sempurna untuk foto produk, seni karakter, atau cuplikan di balik layar.

Papan Konsep (Concept Boards)

Buat berbagai macam versi gaya dari adegan yang sama pada 480p dengan cepat, tentukan arah yang Anda sukai, lalu render ulang pada 720p — ideal untuk mencari ide dan penawaran proyek (pitching).

Iklan dan Promo

Gunakan lanskap 16:9 untuk penempatan utama dan potret 9:16 untuk saluran vertikal. Tombol mode gaya memungkinkan Anda mencocokkan nada merek — ceria atau seimbang — tanpa harus menulis ulang perintah.

Papan Cerita (Storyboarding)

Visualisasikan ketukan adegan (beats) dari naskah dengan cepat sebagai klip 6 detik dengan dialog yang disinkronkan. Iterasi pada pembingkaian dan gerakan sebelum berkomitmen pada model berdurasi lebih panjang.

Konten Edukasi

Animasikan diagram, foto, dan ilustrasi konsep menjadi klip pendek yang menarik dengan audio sulih suara bawaan yang dapat mempertahankan perhatian lebih baik daripada slide statis.

Jelajahi Pembuat Video AI Terkait

Sora 2

Pembuat video sinematik OpenAI dengan gerakan yang akurat secara fisika dan durasi 20 detik.

Veo 3.1

Model video 1080p Google DeepMind dengan pembuatan bingkai-ke-video dan audio.

Seedance 2.0

Model video ByteDance dengan integrasi pencarian web dan audio tersinkronisasi.

Happy Horse 1.0

Model video peringkat #1 Alibaba dengan kualitas gerakan sinematik dan sinkronisasi bibir 7 bahasa.

Kling 2.5 Turbo

Pembuat video 1080p cepat Kuaishou yang dioptimalkan untuk efisiensi kecepatan dan biaya.

Veo 4

Model video generasi berikutnya dari Google dengan upscaling 4K dan audio spasial.

Pertanyaan yang Sering Diajukan Tentang Grok Imagine

Apa itu Grok Imagine?

Grok Imagine adalah model pembuatan video xAI, dibangun di atas mesin autoregresif Aurora dan dilatih di superkomputer Colossus dengan 110.000 GPU NVIDIA GB200. Model ini mendukung teks-ke-video dan gambar-ke-video, dengan tiga mode gaya kreatif — Fun, Normal, dan Spicy — yang mengubah nada dari perintah apa pun.

Kapan Grok Imagine dirilis?

Grok Imagine diluncurkan sebagai pratinjau pada tahun 2025 dan mencapai ketersediaan umum versi 1.0 pada 2 Februari 2026. xAI terus mengirimkan pembaruan — yang terbaru adalah Extend from Frame pada 2 Maret 2026, yang menyambungkan klip-klip untuk membuat urutan hingga 15 detik per klip yang disambungkan.

Durasi dan resolusi apa saja yang didukung?

Grok Imagine menghasilkan klip 6 atau 10 detik pada resolusi 480p atau 720p, yang dirender pada 24 fps. Rata-rata waktu pembuatan adalah sekitar 30 detik per klip.

Rasio aspek apa saja yang tersedia?

Teks-ke-video mendukung 16:9, 9:16, 1:1, 3:2, dan 2:3 — mencakup pembingkaian lanskap, potret, persegi, dan foto klasik. Gambar-ke-video mempertahankan rasio aspek dari gambar referensi yang Anda unggah.

Apa perbedaan antara mode Fun, Normal, dan Spicy?

Mode Normal menghasilkan render yang seimbang dan setia pada perintah. Mode Fun mendorong ke arah interpretasi kreatif yang ceria dan berlebihan. Mode Spicy membuka output yang lebih tajam dan dramatis. Perintah yang sama yang dijalankan dalam mode berbeda dapat menghasilkan nuansa sinematik yang sangat berbeda.

Apakah Grok Imagine menghasilkan audio?

Ya. Aurora menghasilkan dialog tersinkronisasi dengan sinkronisasi bibir, musik latar, dan efek suara ambien secara bawaan (native) dalam satu proses — tidak diperlukan langkah pascapemrosesan yang terpisah.