Published Apr 29, 2026Updated Apr 29, 2026

Générateur Vidéo IA Grok Imagine

Créez des vidéos IA stylisées avec le moteur Aurora de xAI dans Grok Imagine

Grok Imagine est le modèle de génération vidéo de xAI, propulsé par le moteur autorégressif Aurora et entraîné sur le supercalculateur Colossus avec 110 000 GPU NVIDIA GB200. Il génère des clips de 6 ou 10 secondes en 480p ou 720p avec audio natif, prend en charge le texte vers vidéo et l'image vers vidéo, et propose trois modes de style distincts — Fun, Normal et Spicy — pour changer la tonalité créative d'un prompt en un clic.

Grok Imagine 1.0 a atteint la disponibilité générale le 2 février 2026, après un lancement en avant-première en 2025. Le modèle s'appuie sur Aurora, l'architecture autorégressive de prédiction d'images de xAI, qui rend séquentiellement de gauche à droite plutôt que par diffusion. L'entraînement a utilisé le supercalculateur Colossus avec 110 000 GPU NVIDIA GB200 — l'une des plus grandes infrastructures d'entraînement en vidéo IA à ce jour — et la plateforme publique a déjà produit plus de 1,245 milliard de vidéos en une seule fenêtre de 30 jours.

Le modèle propose deux modes d'entrée dans LoveGen AI. Le texte vers vidéo accepte un prompt jusqu'à 2 000 caractères et restitue le mouvement dans cinq formats — 16:9, 9:16, 1:1, 3:2 et 2:3 — couvrant paysage, portrait, carré et cadrages photographiques classiques. L'image vers vidéo accepte une seule image de référence (JPG, JPEG, PNG ou WebP, jusqu'à 20 Mo) et l'anime selon votre prompt. Les deux modes génèrent à 24 fps en 6 ou 10 secondes, avec une sortie maximale de 720p.

La fonctionnalité qui le distingue est le sélecteur de modes de style. Le mode Normal donne un résultat équilibré et fidèle au prompt. Fun pousse vers des interprétations ludiques, exagérées et créatives. Spicy débloque des rendus plus audacieux et dramatiques. L'audio est natif à Aurora — dialogue avec synchronisation labiale, musique de fond et sons d'ambiance sont générés ensemble en une seule passe avant, sans post-traitement séparé. Le 2 mars 2026, xAI a lancé Extend from Frame, qui enchaîne les clips en utilisant la dernière image de l'un comme première image du suivant ; le modèle renvoie un clip de 6 ou 10 secondes en environ 30 secondes en moyenne. La génération s'exécute de façon asynchrone dans LoveGen AI — soumettez la tâche et la vidéo terminée arrive dans votre galerie pour la prévisualiser, la télécharger et la comparer directement à Sora 2, Veo 3.1, Seedance 2.0 et Happy Horse 1.0 dans le même espace de travail.

Comment utiliser Grok Imagine

Étape 1 : Choisissez Texte vers vidéo ou Image vers vidéo

Basculez entre le texte vers vidéo pour une génération uniquement à partir d'un prompt, ou l'image vers vidéo pour animer une image de référence que vous téléversez.

Étape 2 : Choisissez vos paramètres

Sélectionnez la durée (6s ou 10s), la résolution (480p ou 720p), le format (T2V uniquement) et le mode de style (Fun ou Normal).

Étape 3 : Générer et télécharger

Cliquez sur Générer. Aurora retourne un clip fini avec audio natif en environ 30 secondes — prévisualisez, téléchargez ou comparez côte à côte avec d'autres modèles dans votre galerie.

Spécifications techniques de Grok Imagine

Fournisseur	xAI
Moteur	Aurora — prédiction autorégressive d'images
Dernière version	Grok Imagine 1.0 (disponibilité générale le 2 février 2026)
Infrastructure d'entraînement	Supercalculateur Colossus, 110 000 GPU NVIDIA GB200
Modes d'entrée	Texte vers vidéo, Image vers vidéo
Modes de style	Fun, Normal, Spicy
Durée vidéo	6 ou 10 secondes (xAI propose aussi 15s via Extend from Frame)
Résolutions	480p, 720p
Images par seconde	24 fps
Formats (T2V)	16:9, 9:16, 1:1, 3:2, 2:3
Entrée image (I2V)	1 image — JPG / JPEG / PNG / WebP, jusqu'à 20 Mo
Audio	Natif — dialogue (avec synchronisation labiale), musique de fond, effets sonores
Vitesse de génération	~30 secondes en moyenne par clip
Validité du résultat	Les liens de la vidéo générée restent valides 24 heures après la génération

Pourquoi choisir Grok Imagine

Moteur autorégressif Aurora

Grok Imagine repose sur Aurora, le modèle vidéo autorégressif image par image de xAI entraîné sur 110 000 GPU NVIDIA GB200 — une approche fondamentalement différente des concurrents basés sur la diffusion et une raison clé de la singularité de son mouvement.

Trois modes de style prêts à l'emploi

Fun, Normal et Spicy permettent d'ajuster le ton créatif sans réécrire le prompt. La plupart des modèles vidéo offrent un seul rendu ; Grok Imagine en propose trois à partir de la même entrée.

Audio natif en une seule passe

Dialogue avec synchronisation labiale, ambiance et musique de fond sont produits en même temps que la vidéo — pas d'étape audio séparée, pas de décalage de synchronisation.

Grok Imagine vs autres générateurs vidéo IA

Feature	Grok Imagine	Sora 2	Veo 3.1	Seedance 2.0
Fournisseur	xAI	OpenAI	Google DeepMind	ByteDance
Architecture	Aurora (autorégressif)	Diffusion	Diffusion	Diffusion
Résolution max	720p	1080p	1080p	1080p
Options de durée	6s, 10s (15s via Extend)	4s, 8s, 12s	4s, 6s, 8s	4-15s
Modes de style	Fun, Normal, Spicy	Mode unique	Mode unique	Mode unique
Entrée image	1 image (I2V)	1 image + Cameos	Jusqu'à 3 images	1–2 images
Formats (T2V)	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16	16:9, 9:16, 1:1, +4 autres
Audio natif	Oui	Oui	Oui	Oui
Vitesse moyenne de génération	~30s	~60s	~45s	~40s

Parfait pour créateurs, marketeurs et conteurs

Clips pour réseaux sociaux

Générez de courtes vidéos de 6 ou 10 secondes en 9:16 ou 1:1 pour TikTok, Reels et Shorts. Choisissez le mode Fun pour un contenu énergique qui arrête le scroll, avec audio natif intégré.

Animations d'images

Téléversez une photographie ou une illustration existante et transformez-la en séquence animée — parfait pour les photos produits, l'art de personnage ou les coulisses.

Planches de concept

Lancez plusieurs versions stylistiques de la même scène en 480p rapidement, verrouillez la direction qui vous plaît, puis re-rendez en 720p — idéal pour idéation et présentations.

Publicités et promos

Utilisez 16:9 horizontal pour les placements hero et 9:16 vertical pour les canaux verticaux. Le sélecteur de mode permet d'aligner le ton de marque — ludique ou équilibré — sans réécrire le prompt.

Storyboard

Visualisez rapidement les temps forts d'un script en clips de 6 secondes avec dialogue synchronisé. Itérez sur le cadrage et le mouvement avant d'engager un modèle plus long.

Contenu éducatif

Animez schémas, photos et illustrations conceptuelles en courts clips engageants avec voix-off native qui retient l'attention mieux que des diapositives statiques.

Découvrez des générateurs vidéo IA associés

Sora 2

Le générateur vidéo cinématographique d'OpenAI avec mouvement réaliste et durée de 20s.

Veo 3.1

Modèle vidéo 1080p de Google DeepMind avec frames-to-video et génération audio.

Seedance 2.0

Modèle vidéo de ByteDance avec recherche web intégrée et audio synchronisé.

Happy Horse 1.0

Modèle n°1 d'Alibaba avec qualité de mouvement cinématographique et synchronisation labiale en 7 langues.

Kling 2.5 Turbo

Générateur vidéo 1080p rapide de Kuaishou, optimisé pour la vitesse et l'efficacité.

Veo 4

Modèle vidéo nouvelle génération de Google avec mise à l'échelle 4K et audio spatial.

Foire aux questions sur Grok Imagine

Qu'est-ce que Grok Imagine ?

Grok Imagine est le modèle de génération vidéo de xAI, construit sur le moteur autorégressif Aurora et entraîné sur le supercalculateur Colossus avec 110 000 GPU NVIDIA GB200. Il prend en charge le texte vers vidéo et l'image vers vidéo, avec trois modes de style — Fun, Normal et Spicy — qui modifient le ton de tout prompt.

Quand Grok Imagine a-t-il été lancé ?

Grok Imagine est sorti en avant-première en 2025 et a atteint la version 1.0 avec disponibilité générale le 2 février 2026. xAI continue de publier des mises à jour — la plus récente étant Extend from Frame le 2 mars 2026, qui enchaîne les clips pour des séquences allant jusqu'à 15 secondes par clip enchaîné.

Quelles durées et résolutions sont prises en charge ?

Grok Imagine génère des clips de 6 ou 10 secondes en 480p ou 720p, rendus à 24 fps. Le temps moyen de génération est d'environ 30 secondes par clip.

Quels formats sont disponibles ?

Le texte vers vidéo prend en charge 16:9, 9:16, 1:1, 3:2 et 2:3 — couvrant paysage, portrait, carré et cadrages photographiques classiques. L'image vers vidéo conserve le format de l'image de référence que vous téléversez.

Quelle est la différence entre Fun, Normal et Spicy ?

Normal produit des rendus équilibrés et fidèles. Fun s'oriente vers des interprétations ludiques, exagérées et créatives. Spicy débloque des sorties plus audacieuses et dramatiques. Le même prompt dans différents modes peut produire des ambiances cinématographiques sensiblement différentes.

Grok Imagine génère-t-il de l'audio ?

Oui. Aurora produit nativement dialogue synchronisé labialement, musique de fond et effets sonores ambiants en une seule passe avant — aucune étape de post-traitement séparée n'est requise.