Google DeepMind

Gemini Omni

출시 예정

I/O 2026 이후 공개 Vertex AI API 배포 중

Gemini Omni Flash는 2026년 5월 19일에 출시되었습니다. 공개 Vertex AI API가 배포되는 즉시 LoveGen AI에 추가할 예정입니다.

Published May 12, 2026Updated May 12, 2026

Gemini Omni Flash AI 비디오 생성기

Google의 통합 옴니 모델로 AI 비디오 제작 및 편집

Gemini Omni Flash는 Google DeepMind의 새로운 통합 비디오 생성 모델로, 2026년 5월 19일 Google I/O 2026에서 발표 및 출시되었습니다. 전용 Veo 모델과 달리 Gemini Omni Flash는 텍스트·이미지·오디오·비디오 입력을 네이티브로 처리하고 고해상도 비디오와 동기 오디오를 한 번에 생성하는 단일 트랜스포머 기반 옴니 아키텍처로 구축되었습니다. 대화형 멀티턴 편집을 지원하여 카메라 앵글 변경, 오브젝트 교체, 장면 재작성, 배경 수정을 자연어 프롬프트로 실행할 수 있습니다.

Gemini Omni는 Google I/O 2026에서 공개되었으며, 첫 번째 출시 변형인 Gemini Omni Flash가 같은 날(2026년 5월 19일)부터 배포되기 시작했습니다. Google은 이 모델을 '모든 입력으로 무엇이든 만들 수 있는' 모델로 설명하며, 비디오를 시작으로 Gemini의 추론 능력과 생성형 미디어를 결합해 더 강력한 세계 이해, 멀티모달리티, 편집을 구현한다고 밝혔습니다.

출시 시점에 Gemini Omni Flash는 네이티브 동기 오디오가 포함된 10초 고해상도 클립을 생성합니다 — 립싱크 대화, 화면 속 행동과 동기화된 효과음, 배경 환경 오디오 — 이 모두가 단일 포워드 패스에서 생성됩니다. Google은 10초 제한이 모델의 한계가 아닌 배포상의 결정임을 확인했습니다. 중력·운동 에너지·유체 역학을 포함한 물리 시뮬레이션 이해가 향상되어 더욱 사실적인 모션을 구현합니다.

핵심 출시 기능은 대화형 멀티턴 편집입니다. 클립이 완성되면 자연어로 변경 내용을 기술합니다 — '카메라 앵글을 왼쪽으로 이동해', '조각을 거품으로 만들어', '사람이 거울을 만지면 액체처럼 물결을 일으켜' — 그러면 Omni가 해당 요소를 수정하면서 나머지는 유지합니다. 레퍼런스 스태킹으로 캐릭터 이미지·오디오 파일·스타일 레퍼런스를 하나의 프롬프트에서 결합할 수 있으며, 원클릭 적용 템플릿 기반 창작이 Gemini 앱과 Google Flow에 내장되어 있습니다.

Gemini Omni Flash는 Gemini 앱과 Google Flow를 통해 Google AI Plus·Pro·Ultra 구독자에게 전 세계적으로 배포되고 있으며, YouTube Shorts Remix와 YouTube Create 앱에서는 18세 이상 사용자에게 무료로 제공됩니다. 생성된 모든 비디오에는 식별 불가능한 SynthID 워터마크와 C2PA 콘텐츠 자격 증명이 부여됩니다. Vertex AI를 통한 공개 개발자·기업 API 액세스는 I/O 이후 수주 내 배포 예정이며, LoveGen AI는 API가 공개되는 즉시 Gemini Omni Flash를 연동할 예정입니다.

Gemini Omni Flash 사용 방법

1단계: 창작 모드 선택

텍스트 프롬프트로 생성, 이미지 애니메이션화, 여러 레퍼런스(이미지·오디오·스타일) 조합, 또는 원클릭 창작을 위한 내장 템플릿 중에서 선택합니다.

2단계: 비디오 또는 편집 내용 기술

상세한 프롬프트를 작성하거나 자연어로 편집 내용을 기술합니다 — Gemini Omni Flash는 채팅을 통해 카메라 이동·오브젝트 교체·배경 변경·스타일 조정을 이해합니다.

3단계: 생성 및 다듬기

생성을 클릭합니다. Gemini Omni Flash가 네이티브 동기 오디오가 포함된 10초 고해상도 클립을 반환합니다. 멀티턴 채팅으로 처음부터 다시 시작하지 않고 특정 요소를 다듬을 수 있습니다.

Gemini Omni Flash 기술 사양

제공사	Google DeepMind
출시일	2026년 5월 19일 (Google I/O 2026)
변형	Gemini Omni Flash (Omni 패밀리 첫 번째 출시 모델)
아키텍처	통합 트랜스포머 기반 옴니 모델 (텍스트 + 이미지 + 오디오 + 비디오 입력 → 비디오 + 오디오 출력)
입력 모드	텍스트, 이미지, 오디오, 비디오 — 멀티 레퍼런스 스태킹 포함
출력	네이티브 동기 오디오가 포함된 고해상도 비디오
최대 길이	클립당 10초 (배포 제한, 모델 한계 아님)
네이티브 오디오	대화(립싱크), SFX, 환경 — 단일 패스에서 생성
편집	대화형 멀티턴 — 카메라, 배경, 오브젝트, 행동, 스타일
물리 시뮬레이션	중력, 운동 에너지, 유체 역학 향상
출처 인증	SynthID 워터마크 + C2PA 콘텐츠 자격 증명 (필수)
이용 가능	Gemini 앱 및 Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix 및 Create 앱 (무료, 18세 이상)
API 액세스	I/O 2026 이후 수주 내 Vertex AI 공개 API 배포 중

Gemini Omni Flash가 주목받는 이유

통합 옴니 모델 아키텍처

Gemini Omni Flash는 Google의 통합 트랜스포머 기반 옴니 아키텍처로 구축된 첫 번째 출시 비디오 모델입니다 — 하나의 모델이 텍스트·이미지·오디오·비디오를 단일 패스로 처리하여, 분리 파이프라인 시스템이 만드는 모달리티 간 경계를 제거합니다. 레퍼런스 스태킹으로 캐릭터 이미지·오디오 파일·스타일 레퍼런스를 하나의 프롬프트에서 결합할 수 있습니다.

대화형 멀티턴 편집

자연어로 변경 내용을 기술하면 Gemini Omni Flash가 직접 적용합니다 — 카메라 이동, 오브젝트 교체, 장면 재작성, 배경 변경 — 나머지 클립은 그대로 유지됩니다. 멀티턴 편집은 이전 컨텍스트를 이어받아 처음부터 다시 시작하지 않고 반복 작업이 가능합니다.

네이티브 동기 오디오 + 향상된 물리 시뮬레이션

립싱크 대화·화면 동기 효과음·배경 환경 오디오가 비디오와 함께 단일 포워드 패스에서 생성됩니다 — 별도 TTS 또는 폴리 단계 불필요. 중력·운동 에너지·유체 역학 이해가 향상되어 더욱 사실적인 모션을 구현하며, 모든 출력에 SynthID와 C2PA 출처 인증이 부여됩니다.

Gemini Omni Flash vs 다른 AI 비디오 생성기 비교

Feature	Gemini Omni Flash	Veo 3.1	Sora 2	Grok Imagine
제공사	Google DeepMind	Google DeepMind	OpenAI	xAI
아키텍처	통합 트랜스포머 옴니 모델	확산 모델	확산 모델	Aurora(자기회귀형)
대화형 편집	있음 — 멀티턴	없음	없음	없음
최대 해상도	고해상도	1080p	1080p	720p
최대 길이	10초 (배포 제한)	8초 (연장 가능)	20초	15초
네이티브 오디오	있음 — 단일 패스	있음	있음	있음
입력 모드	텍스트, 이미지, 오디오, 비디오	텍스트, 이미지(최대 3장)	텍스트, 이미지 + Cameos	텍스트, 이미지 1장
템플릿	있음	없음	없음	없음
출처 인증	SynthID + C2PA	SynthID	C2PA	—
이용 가능 여부	Gemini 앱, Flow, YouTube	이용 가능	이용 가능	이용 가능

Gemini Omni Flash로 만들 수 있는 것

대화형 비디오 편집

타임라인 편집기를 완전히 건너뛰고 — 원하는 변경 내용을 자연어로 기술하면 Gemini Omni Flash가 직접 적용합니다. 카메라 앵글 이동, 오브젝트 교체, 배경 변경, 또는 단 하나의 프롬프트로 전체 액션을 재작성할 수 있습니다.

템플릿 기반 소셜 콘텐츠

내장 템플릿을 선택하고 프롬프트를 입력하면 동기 오디오가 포함된 완성된 10초 클립을 얻을 수 있습니다 — YouTube Shorts, Reels, TikTok 형식으로 제작 경험 없이도 바로 활용 가능합니다.

대화 장면 제작

단일 패스에서 정확한 립싱크와 환경 오디오를 갖춘 사실적인 대화 장면을 생성 — 마케팅 스크립트, 교육 콘텐츠, 단편 영화 대화에 이상적입니다.

레퍼런스 스택 생성

캐릭터 이미지·오디오 파일·스타일 레퍼런스를 하나의 프롬프트에서 결합하여 클립 전반에 걸쳐 특정 외모·목소리·미적 감각을 유지하는 일관된 캐릭터를 생성할 수 있습니다.

장면 스토리보드

스크립트의 시퀀스를 네이티브 오디오가 포함된 짧은 클립으로 빠르게 시각화. 멀티턴 채팅 편집으로 처음부터 다시 생성하지 않고 샷 간 프레이밍·오브젝트 교체·액션 재작성을 조정합니다.

브랜드 비디오 제작

템플릿으로 빠르게 브랜드 비디오를 제작한 후 대화형 편집으로 다듬기 — 제품 샷 교체, 배경 변경, 또는 브랜드에 맞는 비주얼 톤 조정이 가능합니다.

Gemini Omni Flash에 관한 자주 묻는 질문

Gemini Omni Flash란 무엇인가요?

Gemini Omni Flash는 Google DeepMind의 새로운 통합 비디오 생성 모델로, 2026년 5월 19일 Google I/O 2026에서 발표 및 출시되었습니다. Gemini Omni 패밀리의 첫 번째 출시 모델로, 텍스트·이미지·오디오·비디오 입력을 네이티브로 처리하고 고해상도 비디오와 동기 오디오를 단일 패스에서 생성하는 단일 트랜스포머 기반 옴니 아키텍처로 구축되었습니다. 핵심 기능으로는 대화형 멀티턴 편집, 향상된 물리 시뮬레이션 이해, 레퍼런스 스태킹이 있습니다.

Gemini Omni Flash와 Veo 3.1의 차이점은 무엇인가요?

Veo 3.1은 텍스트 및 이미지에서 비디오로의 변환에 집중하는 전용 비디오 확산 모델입니다. Gemini Omni Flash는 통합 트랜스포머 기반 옴니 아키텍처로 구축되어 — 하나의 모델이 텍스트·이미지·오디오·비디오를 단일 패스로 처리하며 GPT-4o와 개념적으로 유사 — 비디오 생성과 Gemini의 추론 능력을 연결합니다. 이를 통해 Veo 3.1이 제공하지 않는 대화형 멀티턴 편집, 레퍼런스 스태킹, 템플릿 기반 창작이 가능해집니다. 현재 Veo 3.1은 더 긴 클립과 풍부한 멀티 이미지 입력 제어를 제공합니다.

Gemini Omni Flash의 대화형 편집이란?

클립이 완성되면 자연어로 변경 내용을 기술합니다 — '카메라 앵글을 왼쪽으로 이동해', '조각을 거품으로 만들어', '빨간 컵을 커피잔으로 교체해', '이 장면을 캐릭터가 야외에 있도록 재작성해' — 그러면 Gemini Omni Flash가 해당 요소를 수정하면서 나머지는 유지합니다. 멀티턴 편집은 이전 컨텍스트를 이어받아 처음부터 다시 시작하지 않고 반복 작업이 가능합니다. 출시 시점에는 기존 비디오의 오디오 편집은 의도적으로 제외되어 있습니다.

Gemini Omni Flash는 동기 오디오를 생성하나요?

네. Gemini Omni Flash는 네이티브 동기 오디오 — 립싱크 대화, 화면 속 행동과 동기화된 효과음, 배경 환경 오디오 — 를 별도의 TTS 또는 폴리 단계 없이 비디오와 함께 단일 포워드 패스에서 생성합니다. 생성된 모든 출력에는 SynthID 워터마크와 C2PA 콘텐츠 자격 증명이 자동으로 부여됩니다.

LoveGen AI에서 Gemini Omni Flash는 언제 이용할 수 있나요?

Gemini Omni Flash는 2026년 5월 19일에 Gemini 앱, Google Flow, YouTube Shorts Remix, YouTube Create 앱 내에서 출시되었습니다. Vertex AI를 통한 공개 개발자·기업 API 액세스는 Google I/O 2026 이후 수주 내에 배포될 예정입니다. LoveGen AI는 API가 공개되는 즉시 Gemini Omni Flash를 연동할 예정입니다.

Gemini Omni Flash에는 어떤 비디오 템플릿이 포함되나요?

Gemini Omni Flash에는 Gemini 앱과 Google Flow 내에서 원클릭으로 적용할 수 있는 템플릿 기반 비디오 창작 기능이 탑재되어 있습니다. 템플릿은 구도·속도·오디오를 처리해 빠른 생성을 돕고, 맞춤형 AI 아바타 제작 플로우도 이용 가능합니다. 현재 템플릿 카탈로그는 Gemini 앱과 Flow 제품 화면 내에 있습니다.