Published Apr 29, 2026Updated Apr 29, 2026

Grok Imagine AI 비디오 생성기

Grok Imagine 에서 xAI 의 Aurora 엔진으로 스타일리시한 AI 비디오 만들기

Grok Imagine 은 xAI 의 비디오 생성 모델로, Aurora 자기회귀 엔진 기반이며 Colossus 슈퍼컴퓨터에서 110,000 개의 NVIDIA GB200 GPU 로 학습되었습니다. 480p 또는 720p 로 6 초 또는 10 초 클립을 생성하고 네이티브 오디오를 포함하며, 텍스트→비디오와 이미지→비디오를 모두 지원합니다. 그리고 세 가지 고유한 스타일 모드 — Fun, Normal, Spicy — 가 있어 같은 프롬프트의 창작 톤을 한 번의 클릭으로 바꿀 수 있습니다.

Grok Imagine 1.0 은 2026 년 2 월 2 일 일반 출시되었으며, 2025 년부터 프리뷰가 제공되고 있었습니다. 본 모델은 xAI 의 Aurora 아키텍처를 기반으로 합니다 — 확산이 아닌, 좌에서 우로 프레임을 순차 예측하는 자기회귀 엔진입니다. 학습은 Colossus 슈퍼컴퓨터와 110,000 개의 NVIDIA GB200 GPU 로 진행되었으며 — 이는 AI 비디오 분야에서 가장 큰 학습 인프라 중 하나입니다 — 공개 서비스에서는 단 30 일 동안 12 억 4500 만 개 이상의 비디오가 생성되었습니다.

LoveGen AI 에서는 두 가지 입력 모드를 제공합니다. 텍스트→비디오는 최대 2,000 자의 프롬프트를 받아 가로(16:9), 세로(9:16), 정사각(1:1), 클래식 사진 비율(3:2, 2:3) 등 다섯 가지 화면비를 지원합니다. 이미지→비디오는 참조 이미지 한 장(JPG / JPEG / PNG / WebP, 최대 20 MB)을 받아 프롬프트에 따라 움직임을 입힙니다. 두 모드 모두 24 fps 로 6 초 또는 10 초, 최대 720p 로 출력됩니다.

핵심 기능은 스타일 모드 토글입니다. Normal 은 프롬프트에 충실한 균형 잡힌 결과를, Fun 은 장난스럽고 과장된 창의적 해석을, Spicy 는 더 과감하고 드라마틱한 렌더링을 만듭니다. 오디오는 Aurora 에 네이티브로 통합되어 있으며 — 립싱크 대사, 배경 음악, 주변 음향이 단일 포워드 패스에서 함께 생성됩니다 — 후처리 없이도 잘 맞춰집니다. 2026 년 3 월 2 일 xAI 는 Extend from Frame 을 출시해 이전 클립의 마지막 프레임을 다음 클립의 시작 프레임으로 사용해 클립을 연결할 수 있게 했습니다. 본 모델은 평균 30 초 정도면 6 초 또는 10 초 클립을 반환합니다. LoveGen AI 내에서 작업은 비동기로 실행되며 — 작업을 제출하면 완성된 영상이 갤러리에 자동으로 추가되고, Sora 2, Veo 3.1, Seedance 2.0, Happy Horse 1.0 과 같은 워크스페이스에서 미리 보고 다운로드 및 비교할 수 있습니다.

Grok Imagine 사용법

1 단계: 텍스트→비디오 또는 이미지→비디오 선택

프롬프트만으로 생성하는 텍스트→비디오, 또는 업로드한 참조 이미지를 움직이는 이미지→비디오 사이를 전환합니다.

2 단계: 설정 선택

길이(6 초 또는 10 초), 해상도(480p 또는 720p), 화면비(T2V 만), 스타일 모드(Fun 또는 Normal)를 선택합니다.

3 단계: 생성 및 다운로드

Generate 를 클릭하세요. Aurora 는 약 30 초만에 네이티브 오디오가 포함된 클립을 반환합니다 — 갤러리에서 미리 보거나 다운로드하거나, 다른 모델과 나란히 비교할 수 있습니다.

Grok Imagine 기술 사양

제공자	xAI
엔진	Aurora — 자기회귀 프레임 예측
최신 버전	Grok Imagine 1.0(2026 년 2 월 2 일 일반 출시)
학습 인프라	Colossus 슈퍼컴퓨터, 110,000 개의 NVIDIA GB200 GPU
입력 모드	텍스트→비디오, 이미지→비디오
스타일 모드	Fun, Normal, Spicy
비디오 길이	6 초 또는 10 초(xAI 는 Extend from Frame 으로 15 초도 제공)
해상도	480p, 720p
프레임 속도	24 fps
화면비(T2V)	16:9, 9:16, 1:1, 3:2, 2:3
이미지 입력(I2V)	이미지 1 장 — JPG / JPEG / PNG / WebP, 최대 20 MB
오디오	네이티브 — 대사(립싱크), 배경 음악, 효과음
생성 속도	클립당 평균 약 30 초
결과 유효 기간	생성된 비디오 링크는 완료 후 24 시간 유효

왜 Grok Imagine 인가

Aurora 자기회귀 엔진

Grok Imagine 은 Aurora 를 기반으로 합니다. 110,000 개의 NVIDIA GB200 GPU 로 학습된 xAI 의 프레임 단위 자기회귀 비디오 모델로, 확산 기반 경쟁사와 본질적으로 다른 접근이며 모션의 독특한 질감의 핵심 이유입니다.

기본 제공되는 세 가지 스타일 모드

Fun, Normal, Spicy 로 프롬프트를 다시 쓰지 않고도 창작 톤을 조절할 수 있습니다. 대부분의 비디오 모델이 한 가지 룩만 제공할 때, Grok Imagine 은 같은 입력에서 세 가지를 보여줍니다.

단일 패스 네이티브 오디오

립싱크 대사, 주변 사운드, 배경 음악이 비디오와 동시에 생성됩니다 — 별도 오디오 단계도, 동기화 어긋남도 없습니다.

Grok Imagine vs 다른 AI 비디오 생성기

Feature	Grok Imagine	Sora 2	Veo 3.1	Seedance 2.0
제공자	xAI	OpenAI	Google DeepMind	ByteDance
아키텍처	Aurora(자기회귀)	확산	확산	확산
최대 해상도	720p	1080p	1080p	1080p
길이 옵션	6 초, 10 초(Extend 로 15 초)	4s, 8s, 12s	4s, 6s, 8s	4-15s
스타일 모드	Fun, Normal, Spicy	단일 모드	단일 모드	단일 모드
이미지 입력	이미지 1 장(I2V)	이미지 1 장 + Cameos	최대 3 장	1–2 장
화면비(T2V)	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16, 1:1, 3:2, 2:3	16:9, 9:16	16:9, 9:16, 1:1 외 4 종
네이티브 오디오	예	예	예	예
평균 생성 속도	~30s	~60s	~45s	~40s

크리에이터, 마케터, 스토리텔러에게 최적

소셜 미디어 클립

9:16 또는 1:1 로 6 초나 10 초의 짧은 영상을 생성하세요. TikTok, Reels, Shorts 에 최적이며, Fun 모드는 네이티브 오디오와 함께 시선을 사로잡는 활기찬 콘텐츠를 만듭니다.

이미지 애니메이션

기존 사진이나 일러스트를 업로드해 움직이는 시퀀스로 바꾸세요 — 제품 사진, 캐릭터 아트, 비하인드 스틸에 최적입니다.

콘셉트 보드

같은 장면을 480p 로 빠르게 여러 스타일로 시도하고, 마음에 드는 방향이 나오면 720p 로 다시 렌더링하세요 — 아이데이션과 피칭에 안성맞춤입니다.

광고와 프로모

히어로 컷에는 16:9 가로형, 세로 채널에는 9:16 을 사용하세요. 스타일 모드 토글로 프롬프트를 다시 쓰지 않고도 브랜드 톤을 — 발랄하게든 차분하게든 — 맞출 수 있습니다.

스토리보드

스크립트의 핵심 비트를 동기화 대사가 포함된 6 초 클립으로 빠르게 시각화하세요. 장편 모델로 넘어가기 전에 구도와 움직임을 반복 검증할 수 있습니다.

교육 콘텐츠

다이어그램, 사진, 콘셉트 일러스트를 짧고 매력적인 클립으로 애니메이션화하고, 네이티브 보이스오버로 정적 슬라이드보다 더 오래 시선을 잡아두세요.

Grok Imagine 자주 묻는 질문

Grok Imagine 이란?

Grok Imagine 은 xAI 의 비디오 생성 모델로, Aurora 자기회귀 엔진 기반이며 Colossus 슈퍼컴퓨터에서 110,000 개의 NVIDIA GB200 GPU 로 학습되었습니다. 텍스트→비디오와 이미지→비디오를 지원하고, 세 가지 스타일 모드(Fun, Normal, Spicy)로 같은 프롬프트의 톤을 바꿀 수 있습니다.

Grok Imagine 은 언제 출시되었나요?

2025 년 프리뷰로 시작해 2026 년 2 월 2 일 1.0 으로 일반 출시되었습니다. xAI 는 계속 업데이트를 내놓고 있으며, 가장 최근에는 2026 년 3 월 2 일 Extend from Frame 을 통해 클립을 연결해 최대 15 초 시퀀스를 만들 수 있게 되었습니다.

어떤 길이와 해상도를 지원하나요?

Grok Imagine 은 6 초 또는 10 초 클립을 480p 또는 720p, 24 fps 로 생성합니다. 클립당 평균 생성 시간은 약 30 초입니다.

어떤 화면비를 지원하나요?

텍스트→비디오는 16:9, 9:16, 1:1, 3:2, 2:3 을 지원하며 가로, 세로, 정사각, 클래식 사진 비율을 모두 다룹니다. 이미지→비디오는 업로드한 참조 이미지의 화면비를 그대로 유지합니다.

Fun, Normal, Spicy 모드의 차이는?

Normal 은 균형 잡히고 충실한 결과를, Fun 은 장난스럽고 과장된 창의적 해석을, Spicy 는 더 과감하고 드라마틱한 결과를 보여줍니다. 같은 프롬프트라도 모드에 따라 시네마틱한 분위기가 눈에 띄게 달라집니다.

Grok Imagine 도 오디오를 생성하나요?

예. Aurora 는 단일 포워드 패스에서 립싱크 대사, 배경 음악, 주변 음향을 네이티브로 동기화 생성하며, 별도의 후처리 단계가 필요하지 않습니다.