Google DeepMind

Gemini Omni

Em breve

API pública sendo disponibilizada nas semanas seguintes ao Google I/O 2026

O Gemini Omni Flash foi lançado em 19 de maio de 2026. O LoveGen AI o adicionará assim que a API pública do Vertex AI for lançada.

Published May 12, 2026Updated May 12, 2026

Gerador de vídeo IA Gemini Omni Flash

Crie e edite vídeos IA com o modelo omni unificado do Google

Gemini Omni Flash é o novo modelo de geração de vídeo unificado do Google DeepMind, anunciado e lançado no Google I/O 2026 em 19 de maio de 2026. Ao contrário dos modelos Veo dedicados, o Gemini Omni Flash é construído em uma única arquitetura omni baseada em transformer que aceita nativamente entradas de texto, imagem, áudio e vídeo, e produz vídeo de alta resolução com áudio sincronizado em um único passo. Ele suporta edição conversacional multi-turno — mude o ângulo da câmera, troque objetos, reescreva cenas ou modifique fundos usando prompts em linguagem natural.

O Gemini Omni foi apresentado no Google I/O 2026, com a primeira variante disponível — Gemini Omni Flash — lançada no mesmo dia (19 de maio de 2026). O Google o descreve como um modelo que pode criar qualquer coisa a partir de qualquer entrada, começando com vídeo, combinando o raciocínio do Gemini com mídia generativa para maior compreensão do mundo, multimodalidade e edição.

No lançamento, o Gemini Omni Flash produz clipes de alta resolução de 10 segundos com áudio sincronizado nativo — diálogo com sincronização labial, efeitos sonoros sincronizados com a ação na tela e áudio ambiente ao fundo — tudo gerado em um único passo. O Google confirmou que o limite de 10 segundos é uma decisão de implementação, não uma limitação do modelo. A compreensão aprimorada da física, incluindo gravidade, energia cinética e dinâmica de fluidos, permite movimentos mais realistas.

O recurso destaque do lançamento é a edição conversacional multi-turno. Após ter um clipe, você descreve as mudanças em linguagem natural — "desloque o ângulo da câmera para a esquerda", "faça a escultura de bolhas", "quando a pessoa toca o espelho, faça ondular como líquido" — e o Omni retrabalha o elemento alvo mantendo o restante intacto. O empilhamento de referências permite combinar uma imagem de personagem, um arquivo de áudio e uma referência de estilo em um único prompt, e a criação baseada em templates com aplicação de um clique está integrada ao app Gemini e ao Google Flow.

O Gemini Omni Flash está sendo lançado globalmente para assinantes do Google AI Plus, Pro e Ultra através do app Gemini e Google Flow, e sem custo para usuários com 18 anos ou mais no YouTube Shorts Remix e no app YouTube Create. Cada vídeo gerado carrega uma marca d'água SynthID imperceptível mais C2PA Content Credentials. O acesso público à API para desenvolvedores e empresas via Vertex AI está sendo disponibilizado nas semanas seguintes ao I/O; o LoveGen AI integrará o Gemini Omni Flash assim que essa API estiver disponível publicamente.

Como usar o Gemini Omni Flash

Passo 1: Escolha seu modo de criação

Gere a partir de um prompt de texto, anime uma imagem, combine múltiplas referências (imagem, áudio, estilo) ou escolha um template integrado para criação com um único clique.

Passo 2: Descreva seu vídeo ou edição

Escreva um prompt detalhado ou descreva uma edição em linguagem natural — o Gemini Omni Flash entende movimentos de câmera, trocas de objetos, mudanças de fundo e mudanças de estilo via chat.

Passo 3: Gere e refine

Clique em Gerar. O Gemini Omni Flash retorna um clipe de alta resolução de 10 segundos com áudio sincronizado nativo. Use o chat multi-turno para refinar elementos específicos sem recomeçar do zero.

Especificações técnicas do Gemini Omni Flash

Fornecedor	Google DeepMind
Data de lançamento	19 de maio de 2026 (Google I/O 2026)
Variante	Gemini Omni Flash (primeiro modelo disponível da família Omni)
Arquitetura	Modelo omni unificado baseado em transformer (entradas de texto + imagem + áudio + vídeo → saída de vídeo + áudio)
Modos de entrada	Texto, imagem, áudio, vídeo — incluindo empilhamento de múltiplas referências
Saída	Vídeo de alta resolução com áudio sincronizado nativo
Duração máxima	10 segundos por clipe (limite de implementação, não do modelo)
Áudio nativo	Diálogo (sincronização labial), SFX, ambiente — gerado em um único passo
Edição	Conversacional multi-turno — câmera, fundos, objetos, ações, estilo
Física	Gravidade, energia cinética e dinâmica de fluidos aprimoradas
Procedência	Marca d'água SynthID + C2PA Content Credentials (obrigatório)
Disponibilidade	App Gemini e Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix e app Create (gratuito, 18+)
Acesso à API	API pública do Vertex AI sendo disponibilizada nas semanas seguintes ao I/O 2026

Por que o Gemini Omni Flash se destaca

Arquitetura de modelo omni unificado

O Gemini Omni Flash é o primeiro modelo de vídeo do Google construído em uma arquitetura omni unificada baseada em transformer — um modelo que lida com texto, imagem, áudio e vídeo em um único passo, eliminando as costuras entre modalidades que os sistemas de pipeline separados introduzem. O empilhamento de referências permite combinar uma imagem de personagem, um arquivo de áudio e uma referência de estilo em um único prompt.

Edição conversacional multi-turno

Descreva mudanças em linguagem natural e o Gemini Omni Flash as aplica diretamente — desloque a câmera, troque um objeto, reescreva uma cena ou mude um fundo — mantendo o restante do clipe intacto. As edições multi-turno são baseadas no contexto anterior para que você possa iterar sem recomeçar.

Áudio sincronizado nativo + física aprimorada

Diálogo com sincronização labial, efeitos sonoros na tela e áudio ambiente ao fundo são produzidos junto com o vídeo em um único passo — sem etapa de TTS ou Foley separada. A compreensão aprimorada de gravidade, energia cinética e dinâmica de fluidos oferece movimento mais realista, e cada saída carrega procedência SynthID e C2PA.

Gemini Omni Flash vs outros geradores de vídeo IA

Feature	Gemini Omni Flash	Veo 3.1	Sora 2	Grok Imagine
Fornecedor	Google DeepMind	Google DeepMind	OpenAI	xAI
Arquitetura	Modelo omni unificado baseado em transformer	Difusão	Difusão	Aurora (autorregressivo)
Edição conversacional	Sim — multi-turno	Não	Não	Não
Resolução máxima	Alta resolução	1080p	1080p	720p
Duração máxima	10 s (limite de implementação)	8 s (extensível)	20 s	15 s
Áudio nativo	Sim — em um único passo	Sim	Sim	Sim
Modos de entrada	Texto, imagem, áudio, vídeo	Texto, imagem (até 3)	Texto, imagem + Cameos	Texto, 1 imagem
Templates	Sim	Não	Não	Não
Procedência	SynthID + C2PA	SynthID	C2PA	—
Disponibilidade	App Gemini, Flow, YouTube	Disponível	Disponível	Disponível

O que você pode criar com Gemini Omni Flash

Edição conversacional de vídeo

Esqueça o editor de linha do tempo — descreva a mudança que você quer em linguagem natural e o Gemini Omni Flash aplica diretamente. Desloque ângulos de câmera, troque objetos, mude fundos ou reescreva uma ação inteira com um único prompt.

Conteúdo social baseado em templates

Escolha um template integrado, insira seu prompt e obtenha um clipe de 10 segundos totalmente composto com áudio sincronizado — projetado para os formatos do YouTube Shorts, Reels e TikTok sem necessidade de experiência em produção.

Criação de cenas de diálogo

Gere cenas de conversa realistas com sincronização labial precisa e áudio ambiente em um único passo — ideal para scripts de marketing, conteúdo educacional ou diálogos de curtas-metragens.

Geração com empilhamento de referências

Combine uma imagem de personagem, um arquivo de áudio e uma referência de estilo em um único prompt para gerar personagens consistentes que correspondam a uma aparência, voz e estética específicas em todos os clipes.

Storyboarding de cenas

Visualize rapidamente as batidas do roteiro como clipes curtos com áudio nativo. Use o chat multi-turno para ajustar o enquadramento, trocar objetos ou reescrever ações entre cenas sem regenerar do zero.

Produção de vídeo de marca

Use templates para criar vídeos de marca rapidamente e depois refine com edição conversacional — troque tomadas de produto, mude fundos ou ajuste o tom visual para combinar com a sua marca.

Explore geradores de vídeo IA relacionados

Veo 3.1

Modelo de vídeo 1080p do Google DeepMind com conversão de frames para vídeo e geração de áudio nativo.

Sora 2

Gerador de vídeo cinematográfico da OpenAI com movimento fisicamente preciso e duração de 20 segundos.

Grok Imagine

Modelo de vídeo com motor Aurora da xAI com modos de estilo Fun/Normal/Spicy e áudio nativo.

Happy Horse 1.0

O modelo de vídeo mais bem avaliado da Alibaba com qualidade de movimento cinematográfico e sincronização labial em 7 idiomas.

Seedance 2.0

Modelo de vídeo da ByteDance com integração de pesquisa na web e áudio sincronizado.

Kling 3.0

Vídeo 4K de qualidade cinematográfica com IA multi-cenas e áudio nativo.

Perguntas frequentes sobre Gemini Omni Flash

O que é Gemini Omni Flash?

Gemini Omni Flash é o novo modelo de geração de vídeo unificado do Google DeepMind, anunciado e lançado no Google I/O 2026 em 19 de maio de 2026. É o primeiro modelo disponível da família Gemini Omni — construído em uma única arquitetura omni baseada em transformer que lida nativamente com entradas de texto, imagem, áudio e vídeo, e produz vídeo de alta resolução com áudio sincronizado em um único passo. Os recursos principais incluem edição conversacional multi-turno, compreensão aprimorada da física e empilhamento de referências.

Como o Gemini Omni Flash é diferente do Veo 3.1?

O Veo 3.1 é um modelo de difusão de vídeo dedicado focado exclusivamente em texto e imagem para vídeo. O Gemini Omni Flash é construído em uma arquitetura omni unificada baseada em transformer — um modelo que lida com texto, imagem, áudio e vídeo em um único passo, similar em conceito ao GPT-4o — e vincula a geração de vídeo ao raciocínio do Gemini. Isso desbloqueia a edição conversacional multi-turno, o empilhamento de referências e a criação baseada em templates que o Veo 3.1 não oferece. O Veo 3.1 atualmente oferece clipes mais longos e controle mais rico de entrada de múltiplas imagens.

O que é a edição conversacional no Gemini Omni Flash?

Após ter um clipe, você descreve mudanças em linguagem natural — "desloque o ângulo da câmera para a esquerda", "faça a escultura de bolhas", "troque a xícara vermelha por uma caneca de café" ou "reescreva esta cena para que o personagem esteja ao ar livre" — e o Gemini Omni Flash retrabalha o elemento alvo mantendo o restante intacto. As edições multi-turno são baseadas no contexto anterior para que você possa iterar sem recomeçar. A edição de áudio em vídeos existentes foi deliberadamente excluída no lançamento.

O Gemini Omni Flash gera áudio sincronizado?

Sim. O Gemini Omni Flash produz áudio sincronizado nativo — diálogo com sincronização labial, efeitos sonoros sincronizados com a ação na tela e áudio ambiente ao fundo — em um único passo junto com o vídeo, sem etapa de TTS ou Foley separada. Toda a saída gerada é automaticamente marcada com uma marca d'água SynthID e C2PA Content Credentials.

Quando o Gemini Omni Flash estará disponível no LoveGen AI?

O Gemini Omni Flash foi lançado em 19 de maio de 2026 no app Gemini, Google Flow, YouTube Shorts Remix e no app YouTube Create. O acesso público à API para desenvolvedores e empresas via Vertex AI está sendo disponibilizado nas semanas seguintes ao Google I/O 2026. O LoveGen AI integrará o Gemini Omni Flash assim que essa API estiver disponível publicamente.

Quais templates de vídeo o Gemini Omni Flash inclui?

O Gemini Omni Flash inclui criação de vídeo baseada em templates, aplicada com um único clique no app Gemini e no Google Flow. Os templates cuidam de composição, ritmo e áudio para geração rápida, e um fluxo de criação de avatar de IA personalizado também está disponível. O catálogo de templates atual está nas superfícies de produto do app Gemini e Flow.