Published Apr 29, 2026Updated Apr 29, 2026

Grok Imagine KI-Videogenerator

Stilisierte KI-Videos mit der Aurora-Engine von xAI in Grok Imagine erstellen

Grok Imagine ist das Videogenerierungsmodell von xAI, angetrieben von der autoregressiven Aurora-Engine und auf dem Colossus-Supercomputer mit 110.000 NVIDIA GB200 GPUs trainiert. Es generiert 6 oder 10 Sekunden lange Clips in 480p oder 720p mit nativem Audio, unterstützt Text-zu-Video und Bild-zu-Video und liefert drei eigenständige Stilmodi — Fun, Normal und Spicy — mit denen du den kreativen Ton eines Prompts per Klick wechselst.

Grok Imagine 1.0 erreichte am 2. Februar 2026 die allgemeine Verfügbarkeit, nachdem es 2025 als Vorschau gestartet war. Das Modell basiert auf Aurora, der autoregressiven Frame-Vorhersage-Architektur von xAI, die sequenziell von links nach rechts rendert statt per Diffusion. Das Training nutzte den Colossus-Supercomputer mit 110.000 NVIDIA GB200 GPUs — eine der größten Trainingsinfrastrukturen im KI-Video-Bereich bisher — und die öffentliche Plattform hat in einem einzigen 30-Tage-Fenster bereits über 1,245 Milliarden Videos produziert.

Das Modell bietet in LoveGen AI zwei Eingabemodi. Text-zu-Video nimmt einen Prompt von bis zu 2.000 Zeichen entgegen und rendert Bewegung in fünf Seitenverhältnissen — 16:9, 9:16, 1:1, 3:2 und 2:3 — und deckt Querformat, Hochformat, Quadrat und klassische Fotoformate ab. Bild-zu-Video akzeptiert ein einzelnes Referenzbild (JPG, JPEG, PNG oder WebP, bis zu 20 MB) und animiert es gemäß deinem Prompt. Beide Modi rendern mit 24 fps in 6 oder 10 Sekunden Länge, mit Ausgabe bis 720p.

Das prägende Merkmal ist der Stilmodus-Schalter. Normal liefert ausgewogene, prompt-treue Ergebnisse. Fun geht in Richtung verspielter, übertriebener, kreativer Interpretationen. Spicy schaltet kantigere, dramatischere Renderings frei. Audio ist nativ in Aurora integriert — Dialog mit Lippensynchronität, Hintergrundmusik und Umgebungsgeräusche entstehen gemeinsam in einem einzigen Forward-Pass, ohne separates Postprocessing. Am 2. März 2026 brachte xAI Extend from Frame heraus, das Clips verkettet, indem das letzte Bild eines Clips als Anfang des nächsten dient; das Modell liefert einen 6 oder 10 Sekunden Clip in durchschnittlich rund 30 Sekunden. Die Generierung läuft in LoveGen AI asynchron — sende den Auftrag und das fertige Video landet in deiner Galerie, wo du es direkt vorschauen, herunterladen und mit Sora 2, Veo 3.1, Seedance 2.0 und Happy Horse 1.0 im selben Workspace vergleichen kannst.

So benutzt du Grok Imagine

Schritt 1: Text-zu-Video oder Bild-zu-Video wählen

Wechsle zwischen Text-zu-Video für Prompt-only-Generierung und Bild-zu-Video, um ein hochgeladenes Referenzbild zu animieren.

Schritt 2: Einstellungen wählen

Wähle Länge (6s oder 10s), Auflösung (480p oder 720p), Seitenverhältnis (nur T2V) und Stilmodus (Fun oder Normal).

Schritt 3: Generieren und herunterladen

Auf Generieren klicken. Aurora liefert in rund 30 Sekunden einen fertigen Clip mit nativem Audio — vorschauen, herunterladen oder direkt mit anderen Modellen in deiner Galerie vergleichen.

Grok Imagine technische Daten

Anbieter	xAI
Engine	Aurora — autoregressive Frame-Vorhersage
Aktuelle Version	Grok Imagine 1.0 (allgemeine Verfügbarkeit am 2. Februar 2026)
Trainingsinfrastruktur	Colossus-Supercomputer, 110.000 NVIDIA GB200 GPUs
Eingabemodi	Text-zu-Video, Bild-zu-Video
Stilmodi	Fun, Normal, Spicy
Videolänge	6 oder 10 Sekunden (xAI bietet via Extend from Frame auch 15s)
Auflösungen	480p, 720p
Bildrate	24 fps
Seitenverhältnisse (T2V)	16:9, 9:16, 1:1, 3:2, 2:3
Bildeingabe (I2V)	1 Bild — JPG / JPEG / PNG / WebP, bis 20 MB
Audio	Nativ — Dialog (mit Lippensynchronität), Hintergrundmusik, Soundeffekte
Generierungsgeschwindigkeit	~30 Sekunden im Schnitt pro Clip
Gültigkeit des Ergebnisses	Generierte Video-Links bleiben nach Fertigstellung 24 Stunden gültig

Warum Grok Imagine wählen

Aurora autoregressive Engine

Grok Imagine basiert auf Aurora, dem frame-für-frame-autoregressiven Videomodell von xAI, trainiert auf 110.000 NVIDIA GB200 GPUs — ein grundlegend anderer Ansatz als bei diffusionsbasierten Konkurrenten und ein Hauptgrund, warum sich seine Bewegung anders anfühlt.

Drei Stilmodi out of the box

Fun, Normal und Spicy ermöglichen es, den kreativen Ton zu wechseln, ohne den Prompt umzuschreiben. Die meisten Videomodelle bieten einen Look; Grok Imagine liefert drei aus derselben Eingabe.

Natives Audio in einem Pass

Dialog mit Lippensynchronität, Umgebung und Hintergrundmusik entstehen zusammen mit dem Video — ohne separate Audio-Stufe, ohne Synchronisations-Drift.

Grok Imagine vs. andere KI-Videogeneratoren

Feature	Grok Imagine	Sora 2	Veo 3.1	Seedance 2.0
Anbieter	xAI	OpenAI	Google DeepMind	ByteDance
Architektur	Aurora (autoregressiv)	Diffusion	Diffusion	Diffusion
Max. Auflösung	720p	1080p	1080p	1080p
Längen-Optionen	6s, 10s (15s via Extend)	4s, 8s, 12s	4s, 6s, 8s	4-15s
Stilmodi	Fun, Normal, Spicy	Ein Modus	Ein Modus	Ein Modus
Bildeingabe	1 Bild (I2V)	1 Bild + Cameos	Bis zu 3 Bilder	1–2 Bilder
Seitenverhältnisse (T2V)	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16	16:9, 9:16, 1:1, +4 weitere
Natives Audio	Ja	Ja	Ja	Ja
Durchschnittliche Generierungsgeschwindigkeit	~30s	~60s	~45s	~40s

Perfekt für Creator, Marketer und Storyteller

Social-Media-Clips

Erstelle kurze 6- oder 10-Sekunden-Videos in 9:16 oder 1:1 für TikTok, Reels und Shorts. Wähle Fun für energiegeladenen, Scroll-stoppenden Content mit nativem Audio.

Bildanimationen

Lade ein bestehendes Foto oder eine Illustration hoch und verwandle es in eine bewegte Sequenz — perfekt für Produktfotos, Character-Art oder Behind-the-Scenes-Stills.

Concept Boards

Erzeuge schnell mehrere stilistische Varianten derselben Szene in 480p, lege die gewünschte Richtung fest und rendere dann in 720p neu — ideal für Ideation und Pitches.

Werbung und Promos

Nutze 16:9 horizontal für Hero-Platzierungen und 9:16 vertikal für vertikale Kanäle. Der Stilmodus-Schalter passt den Markenton an — verspielt oder zurückhaltend — ohne den Prompt umzuschreiben.

Storyboarding

Visualisiere Drehbuch-Beats schnell als 6-Sekunden-Clips mit synchronem Dialog. Iteriere Bildausschnitt und Bewegung, bevor du dich auf ein längeres Modell festlegst.

Bildungsinhalte

Animiere Diagramme, Fotos und Konzept-Illustrationen zu kurzen, ansprechenden Clips mit nativem Voice-over, das die Aufmerksamkeit besser hält als statische Folien.

Häufige Fragen zu Grok Imagine

Was ist Grok Imagine?

Grok Imagine ist das Videogenerierungsmodell von xAI, gebaut auf der autoregressiven Aurora-Engine und auf dem Colossus-Supercomputer mit 110.000 NVIDIA GB200 GPUs trainiert. Es unterstützt Text-zu-Video und Bild-zu-Video, mit drei kreativen Stilmodi — Fun, Normal und Spicy — die den Ton jedes Prompts ändern.

Wann wurde Grok Imagine veröffentlicht?

Grok Imagine startete 2025 als Vorschau und erreichte am 2. Februar 2026 die Version 1.0 mit allgemeiner Verfügbarkeit. xAI veröffentlicht weiter Updates — zuletzt Extend from Frame am 2. März 2026, das Clips zu Sequenzen von bis zu 15 Sekunden pro verkettetem Clip verbindet.

Welche Längen und Auflösungen werden unterstützt?

Grok Imagine erzeugt Clips von 6 oder 10 Sekunden in 480p oder 720p, gerendert mit 24 fps. Die durchschnittliche Generierungszeit liegt bei rund 30 Sekunden pro Clip.

Welche Seitenverhältnisse sind verfügbar?

Text-zu-Video unterstützt 16:9, 9:16, 1:1, 3:2 und 2:3 — Quer-, Hoch-, Quadrat- und klassische Fotoformate. Bild-zu-Video übernimmt das Seitenverhältnis des hochgeladenen Referenzbildes.

Was unterscheidet die Modi Fun, Normal und Spicy?

Normal liefert ausgewogene, prompt-treue Ergebnisse. Fun zielt auf verspielte, übertriebene, kreative Interpretationen. Spicy schaltet mutigere, dramatischere Ausgaben frei. Derselbe Prompt in unterschiedlichen Modi erzeugt spürbar andere cineastische Stimmungen.

Erzeugt Grok Imagine Audio?

Ja. Aurora produziert nativ in einem einzigen Forward-Pass synchronen Dialog mit Lippensynchronität, Hintergrundmusik und Umgebungsgeräusche — kein separater Postprocessing-Schritt nötig.