
Grok Imagine AI 비디오 생성기
Grok Imagine 에서 xAI 의 Aurora 엔진으로 스타일리시한 AI 비디오 만들기
Grok Imagine 은 xAI 의 비디오 생성 모델로, Aurora 자기회귀 엔진 기반이며 Colossus 슈퍼컴퓨터에서 110,000 개의 NVIDIA GB200 GPU 로 학습되었습니다. 480p 또는 720p 로 6 초 또는 10 초 클립을 생성하고 네이티브 오디오를 포함하며, 텍스트→비디오와 이미지→비디오를 모두 지원합니다. 그리고 세 가지 고유한 스타일 모드 — Fun, Normal, Spicy — 가 있어 같은 프롬프트의 창작 톤을 한 번의 클릭으로 바꿀 수 있습니다.
Grok Imagine 1.0 은 2026 년 2 월 2 일 일반 출시되었으며, 2025 년부터 프리뷰가 제공되고 있었습니다. 본 모델은 xAI 의 Aurora 아키텍처를 기반으로 합니다 — 확산이 아닌, 좌에서 우로 프레임을 순차 예측하는 자기회귀 엔진입니다. 학습은 Colossus 슈퍼컴퓨터와 110,000 개의 NVIDIA GB200 GPU 로 진행되었으며 — 이는 AI 비디오 분야에서 가장 큰 학습 인프라 중 하나입니다 — 공개 서비스에서는 단 30 일 동안 12 억 4500 만 개 이상의 비디오가 생성되었습니다.
LoveGen AI 에서는 두 가지 입력 모드를 제공합니다. 텍스트→비디오는 최대 2,000 자의 프롬프트를 받아 가로(16:9), 세로(9:16), 정사각(1:1), 클래식 사진 비율(3:2, 2:3) 등 다섯 가지 화면비를 지원합니다. 이미지→비디오는 참조 이미지 한 장(JPG / JPEG / PNG / WebP, 최대 20 MB)을 받아 프롬프트에 따라 움직임을 입힙니다. 두 모드 모두 24 fps 로 6 초 또는 10 초, 최대 720p 로 출력됩니다.
핵심 기능은 스타일 모드 토글입니다. Normal 은 프롬프트에 충실한 균형 잡힌 결과를, Fun 은 장난스럽고 과장된 창의적 해석을, Spicy 는 더 과감하고 드라마틱한 렌더링을 만듭니다. 오디오는 Aurora 에 네이티브로 통합되어 있으며 — 립싱크 대사, 배경 음악, 주변 음향이 단일 포워드 패스에서 함께 생성됩니다 — 후처리 없이도 잘 맞춰집니다. 2026 년 3 월 2 일 xAI 는 Extend from Frame 을 출시해 이전 클립의 마지막 프레임을 다음 클립의 시작 프레임으로 사용해 클립을 연결할 수 있게 했습니다. 본 모델은 평균 30 초 정도면 6 초 또는 10 초 클립을 반환합니다. LoveGen AI 내에서 작업은 비동기로 실행되며 — 작업을 제출하면 완성된 영상이 갤러리에 자동으로 추가되고, Sora 2, Veo 3.1, Seedance 2.0, Happy Horse 1.0 과 같은 워크스페이스에서 미리 보고 다운로드 및 비교할 수 있습니다.
Grok Imagine 사용법
1 단계: 텍스트→비디오 또는 이미지→비디오 선택
프롬프트만으로 생성하는 텍스트→비디오, 또는 업로드한 참조 이미지를 움직이는 이미지→비디오 사이를 전환합니다.
2 단계: 설정 선택
길이(6 초 또는 10 초), 해상도(480p 또는 720p), 화면비(T2V 만), 스타일 모드(Fun 또는 Normal)를 선택합니다.
3 단계: 생성 및 다운로드
Generate 를 클릭하세요. Aurora 는 약 30 초만에 네이티브 오디오가 포함된 클립을 반환합니다 — 갤러리에서 미리 보거나 다운로드하거나, 다른 모델과 나란히 비교할 수 있습니다.
Grok Imagine 기술 사양
| 제공자 | xAI |
| 엔진 | Aurora — 자기회귀 프레임 예측 |
| 최신 버전 | Grok Imagine 1.0(2026 년 2 월 2 일 일반 출시) |
| 학습 인프라 | Colossus 슈퍼컴퓨터, 110,000 개의 NVIDIA GB200 GPU |
| 입력 모드 | 텍스트→비디오, 이미지→비디오 |
| 스타일 모드 | Fun, Normal, Spicy |
| 비디오 길이 | 6 초 또는 10 초(xAI 는 Extend from Frame 으로 15 초도 제공) |
| 해상도 | 480p, 720p |
| 프레임 속도 | 24 fps |
| 화면비(T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 |
| 이미지 입력(I2V) | 이미지 1 장 — JPG / JPEG / PNG / WebP, 최대 20 MB |
| 오디오 | 네이티브 — 대사(립싱크), 배경 음악, 효과음 |
| 생성 속도 | 클립당 평균 약 30 초 |
| 결과 유효 기간 | 생성된 비디오 링크는 완료 후 24 시간 유효 |
왜 Grok Imagine 인가
Aurora 자기회귀 엔진
Grok Imagine 은 Aurora 를 기반으로 합니다. 110,000 개의 NVIDIA GB200 GPU 로 학습된 xAI 의 프레임 단위 자기회귀 비디오 모델로, 확산 기반 경쟁사와 본질적으로 다른 접근이며 모션의 독특한 질감의 핵심 이유입니다.
기본 제공되는 세 가지 스타일 모드
Fun, Normal, Spicy 로 프롬프트를 다시 쓰지 않고도 창작 톤을 조절할 수 있습니다. 대부분의 비디오 모델이 한 가지 룩만 제공할 때, Grok Imagine 은 같은 입력에서 세 가지를 보여줍니다.
단일 패스 네이티브 오디오
립싱크 대사, 주변 사운드, 배경 음악이 비디오와 동시에 생성됩니다 — 별도 오디오 단계도, 동기화 어긋남도 없습니다.
Grok Imagine vs 다른 AI 비디오 생성기
| Feature | Grok Imagine | Sora 2 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|
| 제공자 | xAI | OpenAI | Google DeepMind | ByteDance |
| 아키텍처 | Aurora(자기회귀) | 확산 | 확산 | 확산 |
| 최대 해상도 | 720p | 1080p | 1080p | 1080p |
| 길이 옵션 | 6 초, 10 초(Extend 로 15 초) | 4s, 8s, 12s | 4s, 6s, 8s | 4-15s |
| 스타일 모드 | Fun, Normal, Spicy | 단일 모드 | 단일 모드 | 단일 모드 |
| 이미지 입력 | 이미지 1 장(I2V) | 이미지 1 장 + Cameos | 최대 3 장 | 1–2 장 |
| 화면비(T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16 | 16:9, 9:16, 1:1 외 4 종 |
| 네이티브 오디오 | 예 | 예 | 예 | 예 |
| 평균 생성 속도 | ~30s | ~60s | ~45s | ~40s |
크리에이터, 마케터, 스토리텔러에게 최적
소셜 미디어 클립
9:16 또는 1:1 로 6 초나 10 초의 짧은 영상을 생성하세요. TikTok, Reels, Shorts 에 최적이며, Fun 모드는 네이티브 오디오와 함께 시선을 사로잡는 활기찬 콘텐츠를 만듭니다.
이미지 애니메이션
기존 사진이나 일러스트를 업로드해 움직이는 시퀀스로 바꾸세요 — 제품 사진, 캐릭터 아트, 비하인드 스틸에 최적입니다.
콘셉트 보드
같은 장면을 480p 로 빠르게 여러 스타일로 시도하고, 마음에 드는 방향이 나오면 720p 로 다시 렌더링하세요 — 아이데이션과 피칭에 안성맞춤입니다.
광고와 프로모
히어로 컷에는 16:9 가로형, 세로 채널에는 9:16 을 사용하세요. 스타일 모드 토글로 프롬프트를 다시 쓰지 않고도 브랜드 톤을 — 발랄하게든 차분하게든 — 맞출 수 있습니다.
스토리보드
스크립트의 핵심 비트를 동기화 대사가 포함된 6 초 클립으로 빠르게 시각화하세요. 장편 모델로 넘어가기 전에 구도와 움직임을 반복 검증할 수 있습니다.
교육 콘텐츠
다이어그램, 사진, 콘셉트 일러스트를 짧고 매력적인 클립으로 애니메이션화하고, 네이티브 보이스오버로 정적 슬라이드보다 더 오래 시선을 잡아두세요.
관련 AI 비디오 생성기 둘러보기

Sora 2
OpenAI 의 시네마틱 비디오 생성기. 물리적으로 정확한 움직임과 최대 20 초 길이.

Veo 3.1
Google DeepMind 의 1080p 비디오 모델. 프레임→비디오와 오디오 생성 지원.

Seedance 2.0
ByteDance 의 비디오 모델. 웹 검색 통합과 동기화된 오디오 지원.
Happy Horse 1.0
Alibaba 의 1 위 비디오 모델. 시네마틱 모션 품질과 7 개 언어 립싱크.
Kling 2.5 Turbo
Kuaishou 의 빠른 1080p 비디오 생성기. 속도와 비용 효율에 최적화.

Veo 4
Google 의 차세대 비디오 모델. 4K 업스케일과 공간 오디오 지원.
Grok Imagine 자주 묻는 질문
Grok Imagine 이란?
Grok Imagine 은 xAI 의 비디오 생성 모델로, Aurora 자기회귀 엔진 기반이며 Colossus 슈퍼컴퓨터에서 110,000 개의 NVIDIA GB200 GPU 로 학습되었습니다. 텍스트→비디오와 이미지→비디오를 지원하고, 세 가지 스타일 모드(Fun, Normal, Spicy)로 같은 프롬프트의 톤을 바꿀 수 있습니다.
Grok Imagine 은 언제 출시되었나요?
2025 년 프리뷰로 시작해 2026 년 2 월 2 일 1.0 으로 일반 출시되었습니다. xAI 는 계속 업데이트를 내놓고 있으며, 가장 최근에는 2026 년 3 월 2 일 Extend from Frame 을 통해 클립을 연결해 최대 15 초 시퀀스를 만들 수 있게 되었습니다.
어떤 길이와 해상도를 지원하나요?
Grok Imagine 은 6 초 또는 10 초 클립을 480p 또는 720p, 24 fps 로 생성합니다. 클립당 평균 생성 시간은 약 30 초입니다.
어떤 화면비를 지원하나요?
텍스트→비디오는 16:9, 9:16, 1:1, 3:2, 2:3 을 지원하며 가로, 세로, 정사각, 클래식 사진 비율을 모두 다룹니다. 이미지→비디오는 업로드한 참조 이미지의 화면비를 그대로 유지합니다.
Fun, Normal, Spicy 모드의 차이는?
Normal 은 균형 잡히고 충실한 결과를, Fun 은 장난스럽고 과장된 창의적 해석을, Spicy 는 더 과감하고 드라마틱한 결과를 보여줍니다. 같은 프롬프트라도 모드에 따라 시네마틱한 분위기가 눈에 띄게 달라집니다.
Grok Imagine 도 오디오를 생성하나요?
예. Aurora 는 단일 포워드 패스에서 립싱크 대사, 배경 음악, 주변 음향을 네이티브로 동기화 생성하며, 별도의 후처리 단계가 필요하지 않습니다.