
Grok Imagine AI-videogenerator
Skapa stiliserade AI-videor med xAI:s Aurora-motor i Grok Imagine
Grok Imagine är xAI:s modell för videogenerering, som drivs av den autoregressiva motorn Aurora och har tränats på superdatorn Colossus med 110 000 NVIDIA GB200 GPU:er. Den genererar klipp på 6 eller 10 sekunder i 480p eller 720p med inbyggt ljud, stöder både text-till-video och bild-till-video, och levereras med tre unika stil-lägen — Fun, Normal och Spicy — som låter dig ändra den kreativa tonen i vilken instruktion som helst med ett enda klick.
Grok Imagine 1.0 blev allmänt tillgänglig den 2 februari 2026 efter att ha lanserats som förhandsversion under 2025. Modellen är byggd på Aurora, xAI:s autoregressiva arkitektur för bildruteprediktion, som renderar sekventiellt från vänster till höger snarare än via diffusion. Träningsfasen använde superdatorn Colossus med 110 000 NVIDIA GB200 GPU:er — en av de största träningsinfrastrukturerna för AI-video hittills — och plattformen har redan producerat mer än 1,245 miljarder videor under en enda 30-dagarsperiod.
Modellen erbjuder två inmatningslägen inom LoveGen AI. Text-till-video accepterar instruktioner på upp till 2 000 tecken och renderar rörelse i fem olika bildformat — 16:9, 9:16, 1:1, 3:2 och 2:3 — vilket täcker liggande, stående, kvadratiskt och klassiskt fotografiskt format. Bild-till-video accepterar en enskild referensbild (JPG, JPEG, PNG eller WebP, upp till 20 MB) och animerar den enligt din beskrivning. Båda lägena genererar video med 24 fps i antingen 6 eller 10 sekunders längd, med en maximal upplösning på 720p.
Den mest utmärkande funktionen är väljaren för stil-läge. Normal-läget håller resultatet balanserat och troget din instruktion. Fun-läget drar åt det lekfulla, överdrivna och kreativt tolkade hållet. Spicy-läget låser upp mer vågade och dramatiska renderingar. Ljudet är integrerat i Aurora — dialog med läppsynk, bakgrundsmusik och omgivningsljud skapas i en enda process utan behov av efterbehandling. Den 2 mars 2026 lanserade xAI funktionen 'Extend from Frame', som kedjar ihop klipp genom att använda den sista bildrutan i ett klipp som start i nästa. Modellen levererar ett färdigt klipp på 6 eller 10 sekunder på i genomsnitt ca 30 sekunder. Genereringen sker asynkront i LoveGen AI — skicka in jobbet så landar den färdiga videon i ditt galleri där du kan förhandsgranska, ladda ner och jämföra den direkt mot Sora 2, Veo 3.1, Seedance 2.0 och Happy Horse 1.0 i samma arbetsyta.
Så använder du Grok Imagine
Steg 1: Välj Text-till-video eller Bild-till-video
Växla mellan text-till-video för generering enbart från text, eller bild-till-video för att animera en referensbild du laddar upp.
Steg 2: Välj dina inställningar
Välj längd (6s eller 10s), upplösning (480p eller 720p), bildformat (endast T2V) och stil-läge (Fun, Normal eller Spicy).
Steg 3: Generera och ladda ner
Klicka på Generera. Aurora levererar ett färdigt klipp med inbyggt ljud på cirka 30 sekunder — förhandsgranska, ladda ner eller jämför sida vid sida med andra modeller i ditt galleri.
Tekniska specifikationer för Grok Imagine
| Leverantör | xAI |
| Motor | Aurora — autoregressiv bildruteprediktion |
| Senaste version | Grok Imagine 1.0 (allmänt tillgänglig 2 feb 2026) |
| Träningsinfrastruktur | Colossus superdator, 110 000 NVIDIA GB200 GPU:er |
| Indatametoder | Text-till-video, Bild-till-video |
| Stil-lägen | Fun, Normal, Spicy |
| Videolängd | 6 eller 10 sekunder (xAI erbjuder även 15s via Extend from Frame) |
| Upplösningar | 480p, 720p |
| Bildfrekvens | 24 fps |
| Bildformat (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 |
| Bildindata (I2V) | 1 bild — JPG / JPEG / PNG / WebP, upp till 20 MB |
| Ljud | Inbyggt — dialog (med läppsynk), bakgrundsmusik, ljudeffekter |
| Genereringshastighet | ~30 sekunder i snitt per klipp |
| Resultatets giltighet | Genererade videolänkar är giltiga i 24 timmar efter slutförande |
Varför välja Grok Imagine
Aurora autoregressiv motor
Grok Imagine är byggd på Aurora, xAI:s autoregressiva videomodell tränad på 110 000 NVIDIA GB200 GPU:er — ett fundamentalt annorlunda tillvägagångssätt än diffusionsbaserade konkurrenter, vilket är en viktig anledning till att dess rörelser känns unika.
Tre stil-lägen direkt ur lådan
Fun, Normal och Spicy låter dig styra den kreativa tonen utan att behöva skriva om din instruktion. De flesta videomodeller ger dig en look; Grok Imagine ger dig tre från samma indata.
Inbyggt ljud i ett enda svep
Dialog med läppsynk, omgivningsljud och bakgrundsmusik produceras tillsammans med videon — inget separat ljudsteg och ingen risk för osynk.
Grok Imagine jämfört med andra AI-videogeneratorer
| Feature | Grok Imagine | Sora 2 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|
| Leverantör | xAI | OpenAI | Google DeepMind | ByteDance |
| Arkitektur | Aurora (autoregressiv) | Diffusion | Diffusion | Diffusion |
| Max upplösning | 720p | 1080p | 1080p | 1080p |
| Längdalternativ | 6s, 10s (15s via Extend) | 4s, 8s, 12s | 4s, 6s, 8s | 4–15s |
| Stil-lägen | Fun, Normal, Spicy | Endast ett läge | Endast ett läge | Endast ett läge |
| Bildindata | 1 bild (I2V) | 1 bild + Cameos | Upp till 3 bilder | 1–2 bilder |
| Bildformat (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16 | 16:9, 9:16, 1:1, +4 till |
| Inbyggt ljud | Ja | Ja | Ja | Ja |
| Snittfart generering | ~30s | ~60s | ~45s | ~40s |
Perfekt för kreatörer, marknadsförare och berättare
Klipp för sociala medier
Generera korta 6 eller 10 sekunders videor i 9:16 eller 1:1 för TikTok, Reels och Shorts. Välj Fun-läget för energiskt innehåll som sticker ut i flödet med inbyggt ljud.
Animering av bilder
Ladda upp ett befintligt fotografi eller en illustration och förvandla den till en rörlig sekvens — perfekt för produktbilder, karaktärskonst eller bakom kulisserna-bilder.
Konceptskisser
Skapa snabbt flera stilmässiga versioner av samma scen i 480p, välj den inriktning du gillar och rendera sedan om den i 720p — idealiskt för idéarbete och pitchar.
Annonser och kampanjer
Använd 16:9 liggande format för huvudplaceringar och 9:16 stående för vertikala kanaler. Väljaren för stil-läge låter dig matcha varumärkets ton — lekfull eller balanserad — utan att skriva om instruktionen.
Storyboarding
Visualisera snabbt scener från ett manus som 6 sekunders klipp med synkroniserad dialog. Iterera på inramning och rörelse innan du går vidare till en modell för längre format.
Utbildningsinnehåll
Animera diagram, foton och konceptillustrationer till korta, engagerande klipp med inbyggd berättarröst som håller kvar uppmärksamheten bättre än statiska bilder.
Utforska relaterade AI-videogeneratorer

Sora 2
OpenAI:s filmiska videogenerator med fysikaliskt korrekta rörelser och 20s längd.

Veo 3.1
Google DeepMinds 1080p-videomodell med bildrutor-till-video och ljudgenerering.

Seedance 2.0
ByteDances videomodell med webbsöksintegrering och synkroniserat ljud.
Happy Horse 1.0
Alibabas topprankade videomodell med filmisk rörelsekvalitet och läppsynk på 7 språk.
Kling 2.5 Turbo
Kuaishous snabba 1080p-videogenerator optimerad för hastighet och kostnadseffektivitet.

Veo 4
Googles nästa generations videomodell med 4K-uppskalning och rumsligt ljud.
Vanliga frågor om Grok Imagine
Vad är Grok Imagine?
Grok Imagine är xAI:s modell för videogenerering, byggd på den autoregressiva motorn Aurora och tränad på superdatorn Colossus med 110 000 NVIDIA GB200 GPU:er. Den stöder text-till-video och bild-till-video, med tre kreativa stil-lägen — Fun, Normal och Spicy — som förändrar tonen i dina instruktioner.
När släpptes Grok Imagine?
Grok Imagine lanserades som förhandsversion 2025 och nådde allmän tillgänglighet med version 1.0 den 2 februari 2026. xAI fortsätter att skicka uppdateringar — senast 'Extend from Frame' den 2 mars 2026, som kedjar ihop klipp för sekvenser upp till 15 sekunder per klipp.
Vilka längder och upplösningar stöds?
Grok Imagine genererar klipp på 6 eller 10 sekunder i antingen 480p eller 720p, renderade i 24 fps. Den genomsnittliga genereringstiden är cirka 30 sekunder per klipp.
Vilka bildformat är tillgängliga?
Text-till-video stöder 16:9, 9:16, 1:1, 3:2 och 2:3 — vilket täcker liggande, stående, kvadratiskt och klassiskt fotoformat. Bild-till-video behåller bildförhållandet från din uppladdade referensbild.
Vad är skillnaden mellan lägena Fun, Normal och Spicy?
Normal-läget producerar balanserade renderingar som följer din instruktion noga. Fun-läget drar åt det lekfulla och överdrivet kreativa hållet. Spicy-läget ger ett djärvare och mer dramatiskt resultat. Samma instruktion i olika lägen kan ge märkbart olika filmiska stämningar.
Genererar Grok Imagine ljud?
Ja. Aurora skapar synkroniserad dialog med läppsynk, bakgrundsmusik och omgivande ljudeffekter direkt i genereringsprocessen — inget separat efterbehandlingssteg behövs.