
Google DeepMind
Gemini Omni
API pública sendo disponibilizada nas semanas seguintes ao Google I/O 2026
O Gemini Omni Flash foi lançado em 19 de maio de 2026. O LoveGen AI o adicionará assim que a API pública do Vertex AI for lançada.
Gerador de vídeo IA Gemini Omni Flash
Crie e edite vídeos IA com o modelo omni unificado do Google
Gemini Omni Flash é o novo modelo de geração de vídeo unificado do Google DeepMind, anunciado e lançado no Google I/O 2026 em 19 de maio de 2026. Ao contrário dos modelos Veo dedicados, o Gemini Omni Flash é construído em uma única arquitetura omni baseada em transformer que aceita nativamente entradas de texto, imagem, áudio e vídeo, e produz vídeo de alta resolução com áudio sincronizado em um único passo. Ele suporta edição conversacional multi-turno — mude o ângulo da câmera, troque objetos, reescreva cenas ou modifique fundos usando prompts em linguagem natural.
O Gemini Omni foi apresentado no Google I/O 2026, com a primeira variante disponível — Gemini Omni Flash — lançada no mesmo dia (19 de maio de 2026). O Google o descreve como um modelo que pode criar qualquer coisa a partir de qualquer entrada, começando com vídeo, combinando o raciocínio do Gemini com mídia generativa para maior compreensão do mundo, multimodalidade e edição.
No lançamento, o Gemini Omni Flash produz clipes de alta resolução de 10 segundos com áudio sincronizado nativo — diálogo com sincronização labial, efeitos sonoros sincronizados com a ação na tela e áudio ambiente ao fundo — tudo gerado em um único passo. O Google confirmou que o limite de 10 segundos é uma decisão de implementação, não uma limitação do modelo. A compreensão aprimorada da física, incluindo gravidade, energia cinética e dinâmica de fluidos, permite movimentos mais realistas.
O recurso destaque do lançamento é a edição conversacional multi-turno. Após ter um clipe, você descreve as mudanças em linguagem natural — "desloque o ângulo da câmera para a esquerda", "faça a escultura de bolhas", "quando a pessoa toca o espelho, faça ondular como líquido" — e o Omni retrabalha o elemento alvo mantendo o restante intacto. O empilhamento de referências permite combinar uma imagem de personagem, um arquivo de áudio e uma referência de estilo em um único prompt, e a criação baseada em templates com aplicação de um clique está integrada ao app Gemini e ao Google Flow.
O Gemini Omni Flash está sendo lançado globalmente para assinantes do Google AI Plus, Pro e Ultra através do app Gemini e Google Flow, e sem custo para usuários com 18 anos ou mais no YouTube Shorts Remix e no app YouTube Create. Cada vídeo gerado carrega uma marca d'água SynthID imperceptível mais C2PA Content Credentials. O acesso público à API para desenvolvedores e empresas via Vertex AI está sendo disponibilizado nas semanas seguintes ao I/O; o LoveGen AI integrará o Gemini Omni Flash assim que essa API estiver disponível publicamente.
Como usar o Gemini Omni Flash
Passo 1: Escolha seu modo de criação
Gere a partir de um prompt de texto, anime uma imagem, combine múltiplas referências (imagem, áudio, estilo) ou escolha um template integrado para criação com um único clique.
Passo 2: Descreva seu vídeo ou edição
Escreva um prompt detalhado ou descreva uma edição em linguagem natural — o Gemini Omni Flash entende movimentos de câmera, trocas de objetos, mudanças de fundo e mudanças de estilo via chat.
Passo 3: Gere e refine
Clique em Gerar. O Gemini Omni Flash retorna um clipe de alta resolução de 10 segundos com áudio sincronizado nativo. Use o chat multi-turno para refinar elementos específicos sem recomeçar do zero.
Especificações técnicas do Gemini Omni Flash
| Fornecedor | Google DeepMind |
| Data de lançamento | 19 de maio de 2026 (Google I/O 2026) |
| Variante | Gemini Omni Flash (primeiro modelo disponível da família Omni) |
| Arquitetura | Modelo omni unificado baseado em transformer (entradas de texto + imagem + áudio + vídeo → saída de vídeo + áudio) |
| Modos de entrada | Texto, imagem, áudio, vídeo — incluindo empilhamento de múltiplas referências |
| Saída | Vídeo de alta resolução com áudio sincronizado nativo |
| Duração máxima | 10 segundos por clipe (limite de implementação, não do modelo) |
| Áudio nativo | Diálogo (sincronização labial), SFX, ambiente — gerado em um único passo |
| Edição | Conversacional multi-turno — câmera, fundos, objetos, ações, estilo |
| Física | Gravidade, energia cinética e dinâmica de fluidos aprimoradas |
| Procedência | Marca d'água SynthID + C2PA Content Credentials (obrigatório) |
| Disponibilidade | App Gemini e Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix e app Create (gratuito, 18+) |
| Acesso à API | API pública do Vertex AI sendo disponibilizada nas semanas seguintes ao I/O 2026 |
Por que o Gemini Omni Flash se destaca
Arquitetura de modelo omni unificado
O Gemini Omni Flash é o primeiro modelo de vídeo do Google construído em uma arquitetura omni unificada baseada em transformer — um modelo que lida com texto, imagem, áudio e vídeo em um único passo, eliminando as costuras entre modalidades que os sistemas de pipeline separados introduzem. O empilhamento de referências permite combinar uma imagem de personagem, um arquivo de áudio e uma referência de estilo em um único prompt.
Edição conversacional multi-turno
Descreva mudanças em linguagem natural e o Gemini Omni Flash as aplica diretamente — desloque a câmera, troque um objeto, reescreva uma cena ou mude um fundo — mantendo o restante do clipe intacto. As edições multi-turno são baseadas no contexto anterior para que você possa iterar sem recomeçar.
Áudio sincronizado nativo + física aprimorada
Diálogo com sincronização labial, efeitos sonoros na tela e áudio ambiente ao fundo são produzidos junto com o vídeo em um único passo — sem etapa de TTS ou Foley separada. A compreensão aprimorada de gravidade, energia cinética e dinâmica de fluidos oferece movimento mais realista, e cada saída carrega procedência SynthID e C2PA.
Gemini Omni Flash vs outros geradores de vídeo IA
| Feature | Gemini Omni Flash | Veo 3.1 | Sora 2 | Grok Imagine |
|---|---|---|---|---|
| Fornecedor | Google DeepMind | Google DeepMind | OpenAI | xAI |
| Arquitetura | Modelo omni unificado baseado em transformer | Difusão | Difusão | Aurora (autorregressivo) |
| Edição conversacional | Sim — multi-turno | Não | Não | Não |
| Resolução máxima | Alta resolução | 1080p | 1080p | 720p |
| Duração máxima | 10 s (limite de implementação) | 8 s (extensível) | 20 s | 15 s |
| Áudio nativo | Sim — em um único passo | Sim | Sim | Sim |
| Modos de entrada | Texto, imagem, áudio, vídeo | Texto, imagem (até 3) | Texto, imagem + Cameos | Texto, 1 imagem |
| Templates | Sim | Não | Não | Não |
| Procedência | SynthID + C2PA | SynthID | C2PA | — |
| Disponibilidade | App Gemini, Flow, YouTube | Disponível | Disponível | Disponível |
O que você pode criar com Gemini Omni Flash
Edição conversacional de vídeo
Esqueça o editor de linha do tempo — descreva a mudança que você quer em linguagem natural e o Gemini Omni Flash aplica diretamente. Desloque ângulos de câmera, troque objetos, mude fundos ou reescreva uma ação inteira com um único prompt.
Conteúdo social baseado em templates
Escolha um template integrado, insira seu prompt e obtenha um clipe de 10 segundos totalmente composto com áudio sincronizado — projetado para os formatos do YouTube Shorts, Reels e TikTok sem necessidade de experiência em produção.
Criação de cenas de diálogo
Gere cenas de conversa realistas com sincronização labial precisa e áudio ambiente em um único passo — ideal para scripts de marketing, conteúdo educacional ou diálogos de curtas-metragens.
Geração com empilhamento de referências
Combine uma imagem de personagem, um arquivo de áudio e uma referência de estilo em um único prompt para gerar personagens consistentes que correspondam a uma aparência, voz e estética específicas em todos os clipes.
Storyboarding de cenas
Visualize rapidamente as batidas do roteiro como clipes curtos com áudio nativo. Use o chat multi-turno para ajustar o enquadramento, trocar objetos ou reescrever ações entre cenas sem regenerar do zero.
Produção de vídeo de marca
Use templates para criar vídeos de marca rapidamente e depois refine com edição conversacional — troque tomadas de produto, mude fundos ou ajuste o tom visual para combinar com a sua marca.
Explore geradores de vídeo IA relacionados

Veo 3.1
Modelo de vídeo 1080p do Google DeepMind com conversão de frames para vídeo e geração de áudio nativo.

Sora 2
Gerador de vídeo cinematográfico da OpenAI com movimento fisicamente preciso e duração de 20 segundos.

Grok Imagine
Modelo de vídeo com motor Aurora da xAI com modos de estilo Fun/Normal/Spicy e áudio nativo.
Happy Horse 1.0
O modelo de vídeo mais bem avaliado da Alibaba com qualidade de movimento cinematográfico e sincronização labial em 7 idiomas.

Seedance 2.0
Modelo de vídeo da ByteDance com integração de pesquisa na web e áudio sincronizado.
Kling 3.0
Vídeo 4K de qualidade cinematográfica com IA multi-cenas e áudio nativo.
Perguntas frequentes sobre Gemini Omni Flash
O que é Gemini Omni Flash?
Gemini Omni Flash é o novo modelo de geração de vídeo unificado do Google DeepMind, anunciado e lançado no Google I/O 2026 em 19 de maio de 2026. É o primeiro modelo disponível da família Gemini Omni — construído em uma única arquitetura omni baseada em transformer que lida nativamente com entradas de texto, imagem, áudio e vídeo, e produz vídeo de alta resolução com áudio sincronizado em um único passo. Os recursos principais incluem edição conversacional multi-turno, compreensão aprimorada da física e empilhamento de referências.
Como o Gemini Omni Flash é diferente do Veo 3.1?
O Veo 3.1 é um modelo de difusão de vídeo dedicado focado exclusivamente em texto e imagem para vídeo. O Gemini Omni Flash é construído em uma arquitetura omni unificada baseada em transformer — um modelo que lida com texto, imagem, áudio e vídeo em um único passo, similar em conceito ao GPT-4o — e vincula a geração de vídeo ao raciocínio do Gemini. Isso desbloqueia a edição conversacional multi-turno, o empilhamento de referências e a criação baseada em templates que o Veo 3.1 não oferece. O Veo 3.1 atualmente oferece clipes mais longos e controle mais rico de entrada de múltiplas imagens.
O que é a edição conversacional no Gemini Omni Flash?
Após ter um clipe, você descreve mudanças em linguagem natural — "desloque o ângulo da câmera para a esquerda", "faça a escultura de bolhas", "troque a xícara vermelha por uma caneca de café" ou "reescreva esta cena para que o personagem esteja ao ar livre" — e o Gemini Omni Flash retrabalha o elemento alvo mantendo o restante intacto. As edições multi-turno são baseadas no contexto anterior para que você possa iterar sem recomeçar. A edição de áudio em vídeos existentes foi deliberadamente excluída no lançamento.
O Gemini Omni Flash gera áudio sincronizado?
Sim. O Gemini Omni Flash produz áudio sincronizado nativo — diálogo com sincronização labial, efeitos sonoros sincronizados com a ação na tela e áudio ambiente ao fundo — em um único passo junto com o vídeo, sem etapa de TTS ou Foley separada. Toda a saída gerada é automaticamente marcada com uma marca d'água SynthID e C2PA Content Credentials.
Quando o Gemini Omni Flash estará disponível no LoveGen AI?
O Gemini Omni Flash foi lançado em 19 de maio de 2026 no app Gemini, Google Flow, YouTube Shorts Remix e no app YouTube Create. O acesso público à API para desenvolvedores e empresas via Vertex AI está sendo disponibilizado nas semanas seguintes ao Google I/O 2026. O LoveGen AI integrará o Gemini Omni Flash assim que essa API estiver disponível publicamente.
Quais templates de vídeo o Gemini Omni Flash inclui?
O Gemini Omni Flash inclui criação de vídeo baseada em templates, aplicada com um único clique no app Gemini e no Google Flow. Os templates cuidam de composição, ritmo e áudio para geração rápida, e um fluxo de criação de avatar de IA personalizado também está disponível. O catálogo de templates atual está nas superfícies de produto do app Gemini e Flow.
