Published Apr 29, 2026Updated Apr 29, 2026

Grok Imagine AI-videogenerator

Skapa stiliserade AI-videor med xAI:s Aurora-motor i Grok Imagine

Grok Imagine är xAI:s modell för videogenerering, som drivs av den autoregressiva motorn Aurora och har tränats på superdatorn Colossus med 110 000 NVIDIA GB200 GPU:er. Den genererar klipp på 6 eller 10 sekunder i 480p eller 720p med inbyggt ljud, stöder både text-till-video och bild-till-video, och levereras med tre unika stil-lägen — Fun, Normal och Spicy — som låter dig ändra den kreativa tonen i vilken instruktion som helst med ett enda klick.

Grok Imagine 1.0 blev allmänt tillgänglig den 2 februari 2026 efter att ha lanserats som förhandsversion under 2025. Modellen är byggd på Aurora, xAI:s autoregressiva arkitektur för bildruteprediktion, som renderar sekventiellt från vänster till höger snarare än via diffusion. Träningsfasen använde superdatorn Colossus med 110 000 NVIDIA GB200 GPU:er — en av de största träningsinfrastrukturerna för AI-video hittills — och plattformen har redan producerat mer än 1,245 miljarder videor under en enda 30-dagarsperiod.

Modellen erbjuder två inmatningslägen inom LoveGen AI. Text-till-video accepterar instruktioner på upp till 2 000 tecken och renderar rörelse i fem olika bildformat — 16:9, 9:16, 1:1, 3:2 och 2:3 — vilket täcker liggande, stående, kvadratiskt och klassiskt fotografiskt format. Bild-till-video accepterar en enskild referensbild (JPG, JPEG, PNG eller WebP, upp till 20 MB) och animerar den enligt din beskrivning. Båda lägena genererar video med 24 fps i antingen 6 eller 10 sekunders längd, med en maximal upplösning på 720p.

Den mest utmärkande funktionen är väljaren för stil-läge. Normal-läget håller resultatet balanserat och troget din instruktion. Fun-läget drar åt det lekfulla, överdrivna och kreativt tolkade hållet. Spicy-läget låser upp mer vågade och dramatiska renderingar. Ljudet är integrerat i Aurora — dialog med läppsynk, bakgrundsmusik och omgivningsljud skapas i en enda process utan behov av efterbehandling. Den 2 mars 2026 lanserade xAI funktionen 'Extend from Frame', som kedjar ihop klipp genom att använda den sista bildrutan i ett klipp som start i nästa. Modellen levererar ett färdigt klipp på 6 eller 10 sekunder på i genomsnitt ca 30 sekunder. Genereringen sker asynkront i LoveGen AI — skicka in jobbet så landar den färdiga videon i ditt galleri där du kan förhandsgranska, ladda ner och jämföra den direkt mot Sora 2, Veo 3.1, Seedance 2.0 och Happy Horse 1.0 i samma arbetsyta.

Så använder du Grok Imagine

Steg 1: Välj Text-till-video eller Bild-till-video

Växla mellan text-till-video för generering enbart från text, eller bild-till-video för att animera en referensbild du laddar upp.

Steg 2: Välj dina inställningar

Välj längd (6s eller 10s), upplösning (480p eller 720p), bildformat (endast T2V) och stil-läge (Fun, Normal eller Spicy).

Steg 3: Generera och ladda ner

Klicka på Generera. Aurora levererar ett färdigt klipp med inbyggt ljud på cirka 30 sekunder — förhandsgranska, ladda ner eller jämför sida vid sida med andra modeller i ditt galleri.

Tekniska specifikationer för Grok Imagine

Leverantör	xAI
Motor	Aurora — autoregressiv bildruteprediktion
Senaste version	Grok Imagine 1.0 (allmänt tillgänglig 2 feb 2026)
Träningsinfrastruktur	Colossus superdator, 110 000 NVIDIA GB200 GPU:er
Indatametoder	Text-till-video, Bild-till-video
Stil-lägen	Fun, Normal, Spicy
Videolängd	6 eller 10 sekunder (xAI erbjuder även 15s via Extend from Frame)
Upplösningar	480p, 720p
Bildfrekvens	24 fps
Bildformat (T2V)	16:9, 9:16, 1:1, 3:2, 2:3
Bildindata (I2V)	1 bild — JPG / JPEG / PNG / WebP, upp till 20 MB
Ljud	Inbyggt — dialog (med läppsynk), bakgrundsmusik, ljudeffekter
Genereringshastighet	~30 sekunder i snitt per klipp
Resultatets giltighet	Genererade videolänkar är giltiga i 24 timmar efter slutförande

Varför välja Grok Imagine

Aurora autoregressiv motor

Grok Imagine är byggd på Aurora, xAI:s autoregressiva videomodell tränad på 110 000 NVIDIA GB200 GPU:er — ett fundamentalt annorlunda tillvägagångssätt än diffusionsbaserade konkurrenter, vilket är en viktig anledning till att dess rörelser känns unika.

Tre stil-lägen direkt ur lådan

Fun, Normal och Spicy låter dig styra den kreativa tonen utan att behöva skriva om din instruktion. De flesta videomodeller ger dig en look; Grok Imagine ger dig tre från samma indata.

Inbyggt ljud i ett enda svep

Dialog med läppsynk, omgivningsljud och bakgrundsmusik produceras tillsammans med videon — inget separat ljudsteg och ingen risk för osynk.

Grok Imagine jämfört med andra AI-videogeneratorer

Feature	Grok Imagine	Sora 2	Veo 3.1	Seedance 2.0
Leverantör	xAI	OpenAI	Google DeepMind	ByteDance
Arkitektur	Aurora (autoregressiv)	Diffusion	Diffusion	Diffusion
Max upplösning	720p	1080p	1080p	1080p
Längdalternativ	6s, 10s (15s via Extend)	4s, 8s, 12s	4s, 6s, 8s	4–15s
Stil-lägen	Fun, Normal, Spicy	Endast ett läge	Endast ett läge	Endast ett läge
Bildindata	1 bild (I2V)	1 bild + Cameos	Upp till 3 bilder	1–2 bilder
Bildformat (T2V)	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16	16:9, 9:16, 1:1, +4 till
Inbyggt ljud	Ja	Ja	Ja	Ja
Snittfart generering	~30s	~60s	~45s	~40s

Perfekt för kreatörer, marknadsförare och berättare

Klipp för sociala medier

Generera korta 6 eller 10 sekunders videor i 9:16 eller 1:1 för TikTok, Reels och Shorts. Välj Fun-läget för energiskt innehåll som sticker ut i flödet med inbyggt ljud.

Animering av bilder

Ladda upp ett befintligt fotografi eller en illustration och förvandla den till en rörlig sekvens — perfekt för produktbilder, karaktärskonst eller bakom kulisserna-bilder.

Konceptskisser

Skapa snabbt flera stilmässiga versioner av samma scen i 480p, välj den inriktning du gillar och rendera sedan om den i 720p — idealiskt för idéarbete och pitchar.

Annonser och kampanjer

Använd 16:9 liggande format för huvudplaceringar och 9:16 stående för vertikala kanaler. Väljaren för stil-läge låter dig matcha varumärkets ton — lekfull eller balanserad — utan att skriva om instruktionen.

Storyboarding

Visualisera snabbt scener från ett manus som 6 sekunders klipp med synkroniserad dialog. Iterera på inramning och rörelse innan du går vidare till en modell för längre format.

Utbildningsinnehåll

Animera diagram, foton och konceptillustrationer till korta, engagerande klipp med inbyggd berättarröst som håller kvar uppmärksamheten bättre än statiska bilder.

Utforska relaterade AI-videogeneratorer

Sora 2

OpenAI:s filmiska videogenerator med fysikaliskt korrekta rörelser och 20s längd.

Veo 3.1

Google DeepMinds 1080p-videomodell med bildrutor-till-video och ljudgenerering.

Seedance 2.0

ByteDances videomodell med webbsöksintegrering och synkroniserat ljud.

Happy Horse 1.0

Alibabas topprankade videomodell med filmisk rörelsekvalitet och läppsynk på 7 språk.

Kling 2.5 Turbo

Kuaishous snabba 1080p-videogenerator optimerad för hastighet och kostnadseffektivitet.

Veo 4

Googles nästa generations videomodell med 4K-uppskalning och rumsligt ljud.

Vanliga frågor om Grok Imagine

Vad är Grok Imagine?

Grok Imagine är xAI:s modell för videogenerering, byggd på den autoregressiva motorn Aurora och tränad på superdatorn Colossus med 110 000 NVIDIA GB200 GPU:er. Den stöder text-till-video och bild-till-video, med tre kreativa stil-lägen — Fun, Normal och Spicy — som förändrar tonen i dina instruktioner.

När släpptes Grok Imagine?

Grok Imagine lanserades som förhandsversion 2025 och nådde allmän tillgänglighet med version 1.0 den 2 februari 2026. xAI fortsätter att skicka uppdateringar — senast 'Extend from Frame' den 2 mars 2026, som kedjar ihop klipp för sekvenser upp till 15 sekunder per klipp.

Vilka längder och upplösningar stöds?

Grok Imagine genererar klipp på 6 eller 10 sekunder i antingen 480p eller 720p, renderade i 24 fps. Den genomsnittliga genereringstiden är cirka 30 sekunder per klipp.

Vilka bildformat är tillgängliga?

Text-till-video stöder 16:9, 9:16, 1:1, 3:2 och 2:3 — vilket täcker liggande, stående, kvadratiskt och klassiskt fotoformat. Bild-till-video behåller bildförhållandet från din uppladdade referensbild.

Vad är skillnaden mellan lägena Fun, Normal och Spicy?

Normal-läget producerar balanserade renderingar som följer din instruktion noga. Fun-läget drar åt det lekfulla och överdrivet kreativa hållet. Spicy-läget ger ett djärvare och mer dramatiskt resultat. Samma instruktion i olika lägen kan ge märkbart olika filmiska stämningar.

Genererar Grok Imagine ljud?

Ja. Aurora skapar synkroniserad dialog med läppsynk, bakgrundsmusik och omgivande ljudeffekter direkt i genereringsprocessen — inget separat efterbehandlingssteg behövs.