Loading

Generador de Video IA Grok Imagine

Crea videos IA con estilo usando el motor Aurora de xAI en Grok Imagine

Grok Imagine es el modelo de generación de video de xAI, impulsado por el motor autorregresivo Aurora y entrenado en la supercomputadora Colossus con 110.000 GPU NVIDIA GB200. Genera clips de 6 o 10 segundos a 480p o 720p con audio nativo, soporta texto a video e imagen a video, e incluye tres modos de estilo distintos —Fun, Normal y Spicy— que cambian el tono creativo de cualquier prompt con un clic.

Grok Imagine 1.0 alcanzó disponibilidad general el 2 de febrero de 2026, tras un lanzamiento como vista previa en 2025. El modelo se basa en Aurora, la arquitectura autorregresiva de predicción de fotogramas de xAI, que renderiza secuencialmente de izquierda a derecha en lugar de mediante difusión. El entrenamiento utilizó la supercomputadora Colossus con 110.000 GPU NVIDIA GB200 —una de las infraestructuras de entrenamiento más grandes en video IA hasta la fecha— y la plataforma pública ya ha producido más de 1.245 millones de videos en una sola ventana de 30 días.

El modelo ofrece dos modos de entrada dentro de LoveGen AI. Texto a video acepta un prompt de hasta 2.000 caracteres y renderiza movimiento en cinco relaciones de aspecto —16:9, 9:16, 1:1, 3:2 y 2:3— cubriendo formatos horizontal, vertical, cuadrado y fotográficos clásicos. Imagen a video acepta una sola imagen de referencia (JPG, JPEG, PNG o WebP, hasta 20 MB) y la anima según tu prompt. Ambos modos generan a 24 fps en duraciones de 6 o 10 segundos, con salida hasta 720p.

La característica que lo distingue es el conmutador de modos de estilo. El modo Normal mantiene el resultado equilibrado y fiel a tu prompt. Fun lo lleva hacia interpretaciones juguetonas, exageradas y creativas. Spicy desbloquea renders más atrevidos y dramáticos. El audio es nativo de Aurora —diálogo con sincronía labial, música de fondo y efectos ambientales se generan en una sola pasada hacia adelante, sin postprocesamiento adicional. El 2 de marzo de 2026, xAI lanzó Extend from Frame, que encadena clips usando el último fotograma de uno como inicio del siguiente; el modelo entrega un clip de 6 o 10 segundos en aproximadamente 30 segundos de promedio. La generación corre de forma asíncrona dentro de LoveGen AI: envía el trabajo y el video terminado aparece en tu galería para previsualizar, descargar y comparar directamente con Sora 2, Veo 3.1, Seedance 2.0 y Happy Horse 1.0 en el mismo espacio de trabajo.

Cómo usar Grok Imagine

01

Paso 1: Elige Texto a video o Imagen a video

Cambia entre texto a video para generación basada solo en prompt, o imagen a video para animar una imagen de referencia que subas.

02

Paso 2: Elige tu configuración

Selecciona duración (6s o 10s), resolución (480p o 720p), relación de aspecto (solo T2V) y modo de estilo (Fun o Normal).

03

Paso 3: Generar y descargar

Haz clic en Generar. Aurora devuelve un clip terminado con audio nativo en unos 30 segundos —previsualiza, descarga o compáralo lado a lado con otros modelos en tu galería.

Especificaciones técnicas de Grok Imagine

ProveedorxAI
MotorAurora — predicción autorregresiva de fotogramas
Última versiónGrok Imagine 1.0 (disponibilidad general el 2 de febrero de 2026)
Infraestructura de entrenamientoSupercomputadora Colossus, 110.000 GPU NVIDIA GB200
Modos de entradaTexto a video, Imagen a video
Modos de estiloFun, Normal, Spicy
Duración del video6 o 10 segundos (xAI también ofrece 15s vía Extend from Frame)
Resoluciones480p, 720p
Frames por segundo24 fps
Relaciones de aspecto (T2V)16:9, 9:16, 1:1, 3:2, 2:3
Entrada de imagen (I2V)1 imagen — JPG / JPEG / PNG / WebP, hasta 20 MB
AudioNativo — diálogo (con sincronía labial), música de fondo, efectos de sonido
Velocidad de generación~30 segundos en promedio por clip
Validez del resultadoLos enlaces del video generado siguen siendo válidos durante 24 horas tras finalizar

Por qué elegir Grok Imagine

Motor autorregresivo Aurora

Grok Imagine se basa en Aurora, el modelo de video autorregresivo cuadro a cuadro de xAI entrenado con 110.000 GPU NVIDIA GB200 —un enfoque fundamentalmente distinto a los competidores basados en difusión y una razón clave de que su movimiento se sienta diferente.

Tres modos de estilo de fábrica

Fun, Normal y Spicy te permiten ajustar el tono creativo sin reescribir el prompt. La mayoría de los modelos te dan un solo look; Grok Imagine te entrega tres a partir de la misma entrada.

Audio nativo en una sola pasada

Diálogo con sincronía labial, sonido ambiental y música de fondo se producen junto al video —sin etapa de audio aparte, sin desincronización.

Grok Imagine vs otros generadores de video IA

FeatureGrok ImagineSora 2Veo 3.1Seedance 2.0
ProveedorxAIOpenAIGoogle DeepMindByteDance
ArquitecturaAurora (autorregresivo)DifusiónDifusiónDifusión
Resolución máxima720p1080p1080p1080p
Opciones de duración6s, 10s (15s vía Extend)4s, 8s, 12s4s, 6s, 8s4-15s
Modos de estiloFun, Normal, SpicyUn solo modoUn solo modoUn solo modo
Entrada de imagen1 imagen (I2V)1 imagen + CameosHasta 3 imágenes1–2 imágenes
Relaciones de aspecto (T2V)16:9, 9:16, 1:1, 3:2, 2:316:9, 9:16, 1:1, 3:2, 2:316:9, 9:1616:9, 9:16, 1:1, +4 más
Audio nativo
Velocidad media de generación~30s~60s~45s~40s

Perfecto para creadores, marketers y narradores

01

Clips para redes sociales

Genera videos cortos de 6 o 10 segundos en 9:16 o 1:1 para TikTok, Reels y Shorts. Elige el modo Fun para contenido enérgico que detiene el scroll, con audio nativo incluido.

02

Animaciones de imágenes

Sube una fotografía o ilustración existente y conviértela en una secuencia en movimiento —perfecto para fotos de producto, arte de personajes o tomas detrás de cámaras.

03

Tableros de concepto

Genera varias versiones estilísticas de la misma escena a 480p rápidamente, fija la dirección que prefieras y vuelve a renderizar a 720p —ideal para ideación y propuestas.

04

Anuncios y promos

Usa 16:9 horizontal para emplazamientos hero y 9:16 vertical para canales verticales. El conmutador de estilo te permite igualar el tono de marca —juguetón o equilibrado— sin reescribir el prompt.

05

Storyboarding

Visualiza rápidamente los compases de un guion como clips de 6 segundos con diálogo sincronizado. Itera sobre encuadre y movimiento antes de comprometerte con un modelo de mayor duración.

06

Contenido educativo

Anima diagramas, fotos e ilustraciones de concepto en clips cortos y atractivos con narración nativa que mantiene la atención mejor que las diapositivas estáticas.

Explora generadores de video IA relacionados

Preguntas frecuentes sobre Grok Imagine

¿Qué es Grok Imagine?

Grok Imagine es el modelo de generación de video de xAI, basado en el motor autorregresivo Aurora y entrenado en la supercomputadora Colossus con 110.000 GPU NVIDIA GB200. Soporta texto a video e imagen a video, con tres modos de estilo creativos —Fun, Normal y Spicy— que cambian el tono de cualquier prompt.

¿Cuándo se lanzó Grok Imagine?

Grok Imagine se lanzó como vista previa en 2025 y alcanzó la versión 1.0 con disponibilidad general el 2 de febrero de 2026. xAI sigue lanzando actualizaciones; la más reciente es Extend from Frame del 2 de marzo de 2026, que encadena clips para secuencias de hasta 15 segundos por clip encadenado.

¿Qué duraciones y resoluciones admite?

Grok Imagine genera clips de 6 o 10 segundos a 480p o 720p, renderizados a 24 fps. El tiempo medio de generación es de unos 30 segundos por clip.

¿Qué relaciones de aspecto están disponibles?

Texto a video soporta 16:9, 9:16, 1:1, 3:2 y 2:3, cubriendo encuadres horizontales, verticales, cuadrados y fotográficos clásicos. Imagen a video conserva la relación de aspecto de la imagen de referencia que subes.

¿Cuál es la diferencia entre los modos Fun, Normal y Spicy?

Normal produce resultados equilibrados y fieles. Fun se inclina hacia interpretaciones juguetonas, exageradas y creativas. Spicy desbloquea contenido más atrevido y dramático. El mismo prompt en distintos modos puede dar atmósferas cinematográficas notablemente diferentes.

¿Grok Imagine genera audio?

Sí. Aurora produce diálogo sincronizado con sincronía labial, música de fondo y efectos ambientales de forma nativa en una sola pasada hacia adelante; no se necesita postprocesamiento aparte.