
Grok Imagine KI-Videogenerator
Stilisierte KI-Videos mit der Aurora-Engine von xAI in Grok Imagine erstellen
Grok Imagine ist das Videogenerierungsmodell von xAI, angetrieben von der autoregressiven Aurora-Engine und auf dem Colossus-Supercomputer mit 110.000 NVIDIA GB200 GPUs trainiert. Es generiert 6 oder 10 Sekunden lange Clips in 480p oder 720p mit nativem Audio, unterstützt Text-zu-Video und Bild-zu-Video und liefert drei eigenständige Stilmodi — Fun, Normal und Spicy — mit denen du den kreativen Ton eines Prompts per Klick wechselst.
Grok Imagine 1.0 erreichte am 2. Februar 2026 die allgemeine Verfügbarkeit, nachdem es 2025 als Vorschau gestartet war. Das Modell basiert auf Aurora, der autoregressiven Frame-Vorhersage-Architektur von xAI, die sequenziell von links nach rechts rendert statt per Diffusion. Das Training nutzte den Colossus-Supercomputer mit 110.000 NVIDIA GB200 GPUs — eine der größten Trainingsinfrastrukturen im KI-Video-Bereich bisher — und die öffentliche Plattform hat in einem einzigen 30-Tage-Fenster bereits über 1,245 Milliarden Videos produziert.
Das Modell bietet in LoveGen AI zwei Eingabemodi. Text-zu-Video nimmt einen Prompt von bis zu 2.000 Zeichen entgegen und rendert Bewegung in fünf Seitenverhältnissen — 16:9, 9:16, 1:1, 3:2 und 2:3 — und deckt Querformat, Hochformat, Quadrat und klassische Fotoformate ab. Bild-zu-Video akzeptiert ein einzelnes Referenzbild (JPG, JPEG, PNG oder WebP, bis zu 20 MB) und animiert es gemäß deinem Prompt. Beide Modi rendern mit 24 fps in 6 oder 10 Sekunden Länge, mit Ausgabe bis 720p.
Das prägende Merkmal ist der Stilmodus-Schalter. Normal liefert ausgewogene, prompt-treue Ergebnisse. Fun geht in Richtung verspielter, übertriebener, kreativer Interpretationen. Spicy schaltet kantigere, dramatischere Renderings frei. Audio ist nativ in Aurora integriert — Dialog mit Lippensynchronität, Hintergrundmusik und Umgebungsgeräusche entstehen gemeinsam in einem einzigen Forward-Pass, ohne separates Postprocessing. Am 2. März 2026 brachte xAI Extend from Frame heraus, das Clips verkettet, indem das letzte Bild eines Clips als Anfang des nächsten dient; das Modell liefert einen 6 oder 10 Sekunden Clip in durchschnittlich rund 30 Sekunden. Die Generierung läuft in LoveGen AI asynchron — sende den Auftrag und das fertige Video landet in deiner Galerie, wo du es direkt vorschauen, herunterladen und mit Sora 2, Veo 3.1, Seedance 2.0 und Happy Horse 1.0 im selben Workspace vergleichen kannst.
So benutzt du Grok Imagine
Schritt 1: Text-zu-Video oder Bild-zu-Video wählen
Wechsle zwischen Text-zu-Video für Prompt-only-Generierung und Bild-zu-Video, um ein hochgeladenes Referenzbild zu animieren.
Schritt 2: Einstellungen wählen
Wähle Länge (6s oder 10s), Auflösung (480p oder 720p), Seitenverhältnis (nur T2V) und Stilmodus (Fun oder Normal).
Schritt 3: Generieren und herunterladen
Auf Generieren klicken. Aurora liefert in rund 30 Sekunden einen fertigen Clip mit nativem Audio — vorschauen, herunterladen oder direkt mit anderen Modellen in deiner Galerie vergleichen.
Grok Imagine technische Daten
| Anbieter | xAI |
| Engine | Aurora — autoregressive Frame-Vorhersage |
| Aktuelle Version | Grok Imagine 1.0 (allgemeine Verfügbarkeit am 2. Februar 2026) |
| Trainingsinfrastruktur | Colossus-Supercomputer, 110.000 NVIDIA GB200 GPUs |
| Eingabemodi | Text-zu-Video, Bild-zu-Video |
| Stilmodi | Fun, Normal, Spicy |
| Videolänge | 6 oder 10 Sekunden (xAI bietet via Extend from Frame auch 15s) |
| Auflösungen | 480p, 720p |
| Bildrate | 24 fps |
| Seitenverhältnisse (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 |
| Bildeingabe (I2V) | 1 Bild — JPG / JPEG / PNG / WebP, bis 20 MB |
| Audio | Nativ — Dialog (mit Lippensynchronität), Hintergrundmusik, Soundeffekte |
| Generierungsgeschwindigkeit | ~30 Sekunden im Schnitt pro Clip |
| Gültigkeit des Ergebnisses | Generierte Video-Links bleiben nach Fertigstellung 24 Stunden gültig |
Warum Grok Imagine wählen
Aurora autoregressive Engine
Grok Imagine basiert auf Aurora, dem frame-für-frame-autoregressiven Videomodell von xAI, trainiert auf 110.000 NVIDIA GB200 GPUs — ein grundlegend anderer Ansatz als bei diffusionsbasierten Konkurrenten und ein Hauptgrund, warum sich seine Bewegung anders anfühlt.
Drei Stilmodi out of the box
Fun, Normal und Spicy ermöglichen es, den kreativen Ton zu wechseln, ohne den Prompt umzuschreiben. Die meisten Videomodelle bieten einen Look; Grok Imagine liefert drei aus derselben Eingabe.
Natives Audio in einem Pass
Dialog mit Lippensynchronität, Umgebung und Hintergrundmusik entstehen zusammen mit dem Video — ohne separate Audio-Stufe, ohne Synchronisations-Drift.
Grok Imagine vs. andere KI-Videogeneratoren
| Feature | Grok Imagine | Sora 2 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|
| Anbieter | xAI | OpenAI | Google DeepMind | ByteDance |
| Architektur | Aurora (autoregressiv) | Diffusion | Diffusion | Diffusion |
| Max. Auflösung | 720p | 1080p | 1080p | 1080p |
| Längen-Optionen | 6s, 10s (15s via Extend) | 4s, 8s, 12s | 4s, 6s, 8s | 4-15s |
| Stilmodi | Fun, Normal, Spicy | Ein Modus | Ein Modus | Ein Modus |
| Bildeingabe | 1 Bild (I2V) | 1 Bild + Cameos | Bis zu 3 Bilder | 1–2 Bilder |
| Seitenverhältnisse (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16 | 16:9, 9:16, 1:1, +4 weitere |
| Natives Audio | Ja | Ja | Ja | Ja |
| Durchschnittliche Generierungsgeschwindigkeit | ~30s | ~60s | ~45s | ~40s |
Perfekt für Creator, Marketer und Storyteller
Social-Media-Clips
Erstelle kurze 6- oder 10-Sekunden-Videos in 9:16 oder 1:1 für TikTok, Reels und Shorts. Wähle Fun für energiegeladenen, Scroll-stoppenden Content mit nativem Audio.
Bildanimationen
Lade ein bestehendes Foto oder eine Illustration hoch und verwandle es in eine bewegte Sequenz — perfekt für Produktfotos, Character-Art oder Behind-the-Scenes-Stills.
Concept Boards
Erzeuge schnell mehrere stilistische Varianten derselben Szene in 480p, lege die gewünschte Richtung fest und rendere dann in 720p neu — ideal für Ideation und Pitches.
Werbung und Promos
Nutze 16:9 horizontal für Hero-Platzierungen und 9:16 vertikal für vertikale Kanäle. Der Stilmodus-Schalter passt den Markenton an — verspielt oder zurückhaltend — ohne den Prompt umzuschreiben.
Storyboarding
Visualisiere Drehbuch-Beats schnell als 6-Sekunden-Clips mit synchronem Dialog. Iteriere Bildausschnitt und Bewegung, bevor du dich auf ein längeres Modell festlegst.
Bildungsinhalte
Animiere Diagramme, Fotos und Konzept-Illustrationen zu kurzen, ansprechenden Clips mit nativem Voice-over, das die Aufmerksamkeit besser hält als statische Folien.
Verwandte KI-Videogeneratoren entdecken

Sora 2
OpenAIs cineastischer Videogenerator mit physikalisch korrekter Bewegung und 20s Länge.

Veo 3.1
Google DeepMinds 1080p-Videomodell mit Frames-to-Video und Audio-Generierung.

Seedance 2.0
ByteDances Videomodell mit Web-Suche-Integration und synchronem Audio.
Happy Horse 1.0
Alibabas #1 Videomodell mit cineastischer Bewegungsqualität und 7-sprachiger Lippensynchronität.
Kling 2.5 Turbo
Kuaishous schneller 1080p-Videogenerator, optimiert auf Geschwindigkeit und Kosteneffizienz.

Veo 4
Googles Videomodell der nächsten Generation mit 4K-Hochskalierung und Spatial Audio.
Häufige Fragen zu Grok Imagine
Was ist Grok Imagine?
Grok Imagine ist das Videogenerierungsmodell von xAI, gebaut auf der autoregressiven Aurora-Engine und auf dem Colossus-Supercomputer mit 110.000 NVIDIA GB200 GPUs trainiert. Es unterstützt Text-zu-Video und Bild-zu-Video, mit drei kreativen Stilmodi — Fun, Normal und Spicy — die den Ton jedes Prompts ändern.
Wann wurde Grok Imagine veröffentlicht?
Grok Imagine startete 2025 als Vorschau und erreichte am 2. Februar 2026 die Version 1.0 mit allgemeiner Verfügbarkeit. xAI veröffentlicht weiter Updates — zuletzt Extend from Frame am 2. März 2026, das Clips zu Sequenzen von bis zu 15 Sekunden pro verkettetem Clip verbindet.
Welche Längen und Auflösungen werden unterstützt?
Grok Imagine erzeugt Clips von 6 oder 10 Sekunden in 480p oder 720p, gerendert mit 24 fps. Die durchschnittliche Generierungszeit liegt bei rund 30 Sekunden pro Clip.
Welche Seitenverhältnisse sind verfügbar?
Text-zu-Video unterstützt 16:9, 9:16, 1:1, 3:2 und 2:3 — Quer-, Hoch-, Quadrat- und klassische Fotoformate. Bild-zu-Video übernimmt das Seitenverhältnis des hochgeladenen Referenzbildes.
Was unterscheidet die Modi Fun, Normal und Spicy?
Normal liefert ausgewogene, prompt-treue Ergebnisse. Fun zielt auf verspielte, übertriebene, kreative Interpretationen. Spicy schaltet mutigere, dramatischere Ausgaben frei. Derselbe Prompt in unterschiedlichen Modi erzeugt spürbar andere cineastische Stimmungen.
Erzeugt Grok Imagine Audio?
Ja. Aurora produziert nativ in einem einzigen Forward-Pass synchronen Dialog mit Lippensynchronität, Hintergrundmusik und Umgebungsgeräusche — kein separater Postprocessing-Schritt nötig.