
Générateur Vidéo IA Grok Imagine
Créez des vidéos IA stylisées avec le moteur Aurora de xAI dans Grok Imagine
Grok Imagine est le modèle de génération vidéo de xAI, propulsé par le moteur autorégressif Aurora et entraîné sur le supercalculateur Colossus avec 110 000 GPU NVIDIA GB200. Il génère des clips de 6 ou 10 secondes en 480p ou 720p avec audio natif, prend en charge le texte vers vidéo et l'image vers vidéo, et propose trois modes de style distincts — Fun, Normal et Spicy — pour changer la tonalité créative d'un prompt en un clic.
Grok Imagine 1.0 a atteint la disponibilité générale le 2 février 2026, après un lancement en avant-première en 2025. Le modèle s'appuie sur Aurora, l'architecture autorégressive de prédiction d'images de xAI, qui rend séquentiellement de gauche à droite plutôt que par diffusion. L'entraînement a utilisé le supercalculateur Colossus avec 110 000 GPU NVIDIA GB200 — l'une des plus grandes infrastructures d'entraînement en vidéo IA à ce jour — et la plateforme publique a déjà produit plus de 1,245 milliard de vidéos en une seule fenêtre de 30 jours.
Le modèle propose deux modes d'entrée dans LoveGen AI. Le texte vers vidéo accepte un prompt jusqu'à 2 000 caractères et restitue le mouvement dans cinq formats — 16:9, 9:16, 1:1, 3:2 et 2:3 — couvrant paysage, portrait, carré et cadrages photographiques classiques. L'image vers vidéo accepte une seule image de référence (JPG, JPEG, PNG ou WebP, jusqu'à 20 Mo) et l'anime selon votre prompt. Les deux modes génèrent à 24 fps en 6 ou 10 secondes, avec une sortie maximale de 720p.
La fonctionnalité qui le distingue est le sélecteur de modes de style. Le mode Normal donne un résultat équilibré et fidèle au prompt. Fun pousse vers des interprétations ludiques, exagérées et créatives. Spicy débloque des rendus plus audacieux et dramatiques. L'audio est natif à Aurora — dialogue avec synchronisation labiale, musique de fond et sons d'ambiance sont générés ensemble en une seule passe avant, sans post-traitement séparé. Le 2 mars 2026, xAI a lancé Extend from Frame, qui enchaîne les clips en utilisant la dernière image de l'un comme première image du suivant ; le modèle renvoie un clip de 6 ou 10 secondes en environ 30 secondes en moyenne. La génération s'exécute de façon asynchrone dans LoveGen AI — soumettez la tâche et la vidéo terminée arrive dans votre galerie pour la prévisualiser, la télécharger et la comparer directement à Sora 2, Veo 3.1, Seedance 2.0 et Happy Horse 1.0 dans le même espace de travail.
Comment utiliser Grok Imagine
Étape 1 : Choisissez Texte vers vidéo ou Image vers vidéo
Basculez entre le texte vers vidéo pour une génération uniquement à partir d'un prompt, ou l'image vers vidéo pour animer une image de référence que vous téléversez.
Étape 2 : Choisissez vos paramètres
Sélectionnez la durée (6s ou 10s), la résolution (480p ou 720p), le format (T2V uniquement) et le mode de style (Fun ou Normal).
Étape 3 : Générer et télécharger
Cliquez sur Générer. Aurora retourne un clip fini avec audio natif en environ 30 secondes — prévisualisez, téléchargez ou comparez côte à côte avec d'autres modèles dans votre galerie.
Spécifications techniques de Grok Imagine
| Fournisseur | xAI |
| Moteur | Aurora — prédiction autorégressive d'images |
| Dernière version | Grok Imagine 1.0 (disponibilité générale le 2 février 2026) |
| Infrastructure d'entraînement | Supercalculateur Colossus, 110 000 GPU NVIDIA GB200 |
| Modes d'entrée | Texte vers vidéo, Image vers vidéo |
| Modes de style | Fun, Normal, Spicy |
| Durée vidéo | 6 ou 10 secondes (xAI propose aussi 15s via Extend from Frame) |
| Résolutions | 480p, 720p |
| Images par seconde | 24 fps |
| Formats (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 |
| Entrée image (I2V) | 1 image — JPG / JPEG / PNG / WebP, jusqu'à 20 Mo |
| Audio | Natif — dialogue (avec synchronisation labiale), musique de fond, effets sonores |
| Vitesse de génération | ~30 secondes en moyenne par clip |
| Validité du résultat | Les liens de la vidéo générée restent valides 24 heures après la génération |
Pourquoi choisir Grok Imagine
Moteur autorégressif Aurora
Grok Imagine repose sur Aurora, le modèle vidéo autorégressif image par image de xAI entraîné sur 110 000 GPU NVIDIA GB200 — une approche fondamentalement différente des concurrents basés sur la diffusion et une raison clé de la singularité de son mouvement.
Trois modes de style prêts à l'emploi
Fun, Normal et Spicy permettent d'ajuster le ton créatif sans réécrire le prompt. La plupart des modèles vidéo offrent un seul rendu ; Grok Imagine en propose trois à partir de la même entrée.
Audio natif en une seule passe
Dialogue avec synchronisation labiale, ambiance et musique de fond sont produits en même temps que la vidéo — pas d'étape audio séparée, pas de décalage de synchronisation.
Grok Imagine vs autres générateurs vidéo IA
| Feature | Grok Imagine | Sora 2 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|
| Fournisseur | xAI | OpenAI | Google DeepMind | ByteDance |
| Architecture | Aurora (autorégressif) | Diffusion | Diffusion | Diffusion |
| Résolution max | 720p | 1080p | 1080p | 1080p |
| Options de durée | 6s, 10s (15s via Extend) | 4s, 8s, 12s | 4s, 6s, 8s | 4-15s |
| Modes de style | Fun, Normal, Spicy | Mode unique | Mode unique | Mode unique |
| Entrée image | 1 image (I2V) | 1 image + Cameos | Jusqu'à 3 images | 1–2 images |
| Formats (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16 | 16:9, 9:16, 1:1, +4 autres |
| Audio natif | Oui | Oui | Oui | Oui |
| Vitesse moyenne de génération | ~30s | ~60s | ~45s | ~40s |
Parfait pour créateurs, marketeurs et conteurs
Clips pour réseaux sociaux
Générez de courtes vidéos de 6 ou 10 secondes en 9:16 ou 1:1 pour TikTok, Reels et Shorts. Choisissez le mode Fun pour un contenu énergique qui arrête le scroll, avec audio natif intégré.
Animations d'images
Téléversez une photographie ou une illustration existante et transformez-la en séquence animée — parfait pour les photos produits, l'art de personnage ou les coulisses.
Planches de concept
Lancez plusieurs versions stylistiques de la même scène en 480p rapidement, verrouillez la direction qui vous plaît, puis re-rendez en 720p — idéal pour idéation et présentations.
Publicités et promos
Utilisez 16:9 horizontal pour les placements hero et 9:16 vertical pour les canaux verticaux. Le sélecteur de mode permet d'aligner le ton de marque — ludique ou équilibré — sans réécrire le prompt.
Storyboard
Visualisez rapidement les temps forts d'un script en clips de 6 secondes avec dialogue synchronisé. Itérez sur le cadrage et le mouvement avant d'engager un modèle plus long.
Contenu éducatif
Animez schémas, photos et illustrations conceptuelles en courts clips engageants avec voix-off native qui retient l'attention mieux que des diapositives statiques.
Découvrez des générateurs vidéo IA associés

Sora 2
Le générateur vidéo cinématographique d'OpenAI avec mouvement réaliste et durée de 20s.

Veo 3.1
Modèle vidéo 1080p de Google DeepMind avec frames-to-video et génération audio.

Seedance 2.0
Modèle vidéo de ByteDance avec recherche web intégrée et audio synchronisé.
Happy Horse 1.0
Modèle n°1 d'Alibaba avec qualité de mouvement cinématographique et synchronisation labiale en 7 langues.
Kling 2.5 Turbo
Générateur vidéo 1080p rapide de Kuaishou, optimisé pour la vitesse et l'efficacité.

Veo 4
Modèle vidéo nouvelle génération de Google avec mise à l'échelle 4K et audio spatial.
Foire aux questions sur Grok Imagine
Qu'est-ce que Grok Imagine ?
Grok Imagine est le modèle de génération vidéo de xAI, construit sur le moteur autorégressif Aurora et entraîné sur le supercalculateur Colossus avec 110 000 GPU NVIDIA GB200. Il prend en charge le texte vers vidéo et l'image vers vidéo, avec trois modes de style — Fun, Normal et Spicy — qui modifient le ton de tout prompt.
Quand Grok Imagine a-t-il été lancé ?
Grok Imagine est sorti en avant-première en 2025 et a atteint la version 1.0 avec disponibilité générale le 2 février 2026. xAI continue de publier des mises à jour — la plus récente étant Extend from Frame le 2 mars 2026, qui enchaîne les clips pour des séquences allant jusqu'à 15 secondes par clip enchaîné.
Quelles durées et résolutions sont prises en charge ?
Grok Imagine génère des clips de 6 ou 10 secondes en 480p ou 720p, rendus à 24 fps. Le temps moyen de génération est d'environ 30 secondes par clip.
Quels formats sont disponibles ?
Le texte vers vidéo prend en charge 16:9, 9:16, 1:1, 3:2 et 2:3 — couvrant paysage, portrait, carré et cadrages photographiques classiques. L'image vers vidéo conserve le format de l'image de référence que vous téléversez.
Quelle est la différence entre Fun, Normal et Spicy ?
Normal produit des rendus équilibrés et fidèles. Fun s'oriente vers des interprétations ludiques, exagérées et créatives. Spicy débloque des sorties plus audacieuses et dramatiques. Le même prompt dans différents modes peut produire des ambiances cinématographiques sensiblement différentes.
Grok Imagine génère-t-il de l'audio ?
Oui. Aurora produit nativement dialogue synchronisé labialement, musique de fond et effets sonores ambiants en une seule passe avant — aucune étape de post-traitement séparée n'est requise.