
Google DeepMind
Gemini Omni
API pubblica in rollout nelle settimane successive a Google I/O 2026
Gemini Omni Flash è stato lanciato il 19 maggio 2026. LoveGen AI lo integrerà non appena l'API pubblica Vertex AI sarà disponibile.
Generatore video IA Gemini Omni Flash
Crea e modifica video IA con il modello omni unificato di Google
Gemini Omni Flash è il nuovo modello di generazione video unificato di Google DeepMind, annunciato e lanciato a Google I/O 2026 il 19 maggio 2026. A differenza dei modelli Veo dedicati, Gemini Omni Flash è costruito su un'unica architettura omni basata su transformer che accetta nativamente input di testo, immagine, audio e video, producendo video ad alta risoluzione con audio sincronizzato in un unico passaggio. Supporta la modifica conversazionale multi-turno — cambiare l'angolazione della telecamera, sostituire oggetti, riscrivere scene o modificare sfondi usando prompt in linguaggio naturale.
Gemini Omni è stato presentato a Google I/O 2026, con la prima variante disponibile — Gemini Omni Flash — rilasciata lo stesso giorno (19 maggio 2026). Google lo descrive come un modello in grado di creare qualsiasi cosa da qualsiasi input, a partire dal video, combinando il ragionamento di Gemini con i media generativi per una migliore comprensione del mondo, multimodalità e modifica.
Al lancio, Gemini Omni Flash produce clip ad alta risoluzione da 10 secondi abbinati ad audio sincronizzato nativo — dialogo con sincronizzazione labiale, effetti sonori sincronizzati con l'azione sullo schermo e audio ambientale di sottofondo — il tutto generato in un unico passaggio. Google ha confermato che il limite di 10 secondi è una decisione di deployment e non un vincolo del modello. Una migliore comprensione della fisica, inclusa gravità, energia cinetica e dinamica dei fluidi, consente movimenti più realistici.
La funzionalità principale al lancio è la modifica conversazionale multi-turno. Una volta ottenuto un clip, si descrivono le modifiche in linguaggio naturale — "sposta l'angolazione della telecamera a sinistra", "fai la scultura di bolle", "quando la persona tocca lo specchio, fallo increspare come liquido" — e Omni rielabora l'elemento target mantenendo intatto il resto. Il reference stacking consente di combinare un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt, e la creazione basata su template con applicazione in un clic è integrata nell'app Gemini e in Google Flow.
Gemini Omni Flash è disponibile globalmente per gli abbonati Google AI Plus, Pro e Ultra tramite l'app Gemini e Google Flow, e gratuitamente per gli utenti dai 18 anni in su in YouTube Shorts Remix e nell'app YouTube Create. Ogni video generato porta un watermark SynthID impercettibile oltre a C2PA Content Credentials. L'accesso pubblico all'API per sviluppatori e aziende tramite Vertex AI è in fase di rollout nelle settimane successive a I/O; LoveGen AI integrerà Gemini Omni Flash non appena quell'API sarà pubblicamente disponibile.
Come usare Gemini Omni Flash
Passo 1: Scegli la modalità di creazione
Genera da un prompt testuale, anima un'immagine, combina più riferimenti (immagine, audio, stile) o scegli un template integrato per la creazione in un clic.
Passo 2: Descrivi il tuo video o la modifica
Scrivi un prompt dettagliato o descrivi una modifica in linguaggio naturale — Gemini Omni Flash comprende movimenti di telecamera, sostituzioni di oggetti, cambi di sfondo e variazioni di stile tramite chat.
Passo 3: Genera e raffina
Clicca su Genera. Gemini Omni Flash restituisce un clip ad alta risoluzione da 10 secondi con audio sincronizzato nativo. Usa la chat multi-turno per affinare elementi specifici senza ricominciare da capo.
Specifiche tecniche di Gemini Omni Flash
| Fornitore | Google DeepMind |
| Data di rilascio | 19 maggio 2026 (Google I/O 2026) |
| Variante | Gemini Omni Flash (primo modello disponibile della famiglia Omni) |
| Architettura | Modello omni unificato basato su transformer (input testo + immagine + audio + video → output video + audio) |
| Modalità di input | Testo, immagine, audio, video — incluso reference stacking multi-riferimento |
| Output | Video ad alta risoluzione con audio sincronizzato nativo |
| Durata massima | 10 secondi per clip (limite di deployment, non vincolo del modello) |
| Audio nativo | Dialogo (sincronizzazione labiale), effetti sonori, audio ambientale — generati in un unico passaggio |
| Modifica | Conversazionale multi-turno — telecamera, sfondi, oggetti, azioni, stile |
| Fisica | Gravità, energia cinetica e dinamica dei fluidi migliorate |
| Provenienza | Watermark SynthID + C2PA Content Credentials (obbligatori) |
| Disponibilità | App Gemini & Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix & Create app (gratuito, 18+) |
| Accesso API | API pubblica Vertex AI in rollout nelle settimane successive a I/O 2026 |
Perché Gemini Omni Flash si distingue
Architettura modello omni unificato
Gemini Omni Flash è il primo modello video di Google costruito su un'architettura omni unificata basata su transformer — un unico modello che gestisce testo, immagine, audio e video in un unico passaggio, eliminando le giunture tra modalità che i sistemi a pipeline separata introducono. Il reference stacking consente di combinare un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt.
Modifica conversazionale multi-turno
Descrivi le modifiche in linguaggio naturale e Gemini Omni Flash le applica direttamente — sposta la telecamera, sostituisci un oggetto, riscrivi una scena o cambia uno sfondo — mantenendo intatto il resto del clip. Le modifiche multi-turno si basano sul contesto precedente per permettere l'iterazione senza ricominciare da capo.
Audio sincronizzato nativo + fisica migliorata
Dialogo con sincronizzazione labiale, effetti sonori sullo schermo e audio ambientale sono prodotti insieme al video in un unico passaggio — senza fase TTS o Foley separata. Una migliore comprensione di gravità, energia cinetica e dinamica dei fluidi offre movimenti più realistici, e ogni output porta la provenienza SynthID e C2PA.
Gemini Omni Flash vs altri generatori video IA
| Feature | Gemini Omni Flash | Veo 3.1 | Sora 2 | Grok Imagine |
|---|---|---|---|---|
| Fornitore | Google DeepMind | Google DeepMind | OpenAI | xAI |
| Architettura | Modello transformer omni unificato | Diffusione | Diffusione | Aurora (autoregressivo) |
| Modifica conversazionale | Sì — multi-turno | No | No | No |
| Risoluzione massima | Alta risoluzione | 1080p | 1080p | 720p |
| Durata massima | 10s (limite di deployment) | 8s (estendibile) | 20s | 15s |
| Audio nativo | Sì — passaggio singolo | Sì | Sì | Sì |
| Modalità di input | Testo, immagine, audio, video | Testo, immagine (fino a 3) | Testo, immagine + Cameos | Testo, 1 immagine |
| Template | Sì | No | No | No |
| Provenienza | SynthID + C2PA | SynthID | C2PA | — |
| Disponibilità | App Gemini, Flow, YouTube | Disponibile | Disponibile | Disponibile |
Cosa puoi creare con Gemini Omni Flash
Modifica video conversazionale
Dimentica l'editor della timeline — descrivi la modifica desiderata in linguaggio naturale e Gemini Omni Flash la applica direttamente. Sposta angolazioni della telecamera, sostituisci oggetti, cambia sfondi o riscrivi un'intera azione con un unico prompt.
Contenuto social basato su template
Scegli un template integrato, inserisci il tuo prompt e ottieni un clip di 10 secondi completamente composto con audio sincronizzato — progettato per YouTube Shorts, Reels e formati TikTok senza esperienza produttiva richiesta.
Creazione di scene di dialogo
Genera scene di conversazione realistiche con sincronizzazione labiale precisa e audio ambientale in un unico passaggio — ideale per script di marketing, contenuti educativi o dialoghi di cortometraggi.
Generazione con reference stacking
Combina un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt per generare personaggi coerenti che corrispondano a un look, una voce e un'estetica specifici tra i clip.
Storyboarding di scene
Visualizza rapidamente i tempi dello script come clip brevi con audio nativo. Usa la chat multi-turno per regolare l'inquadratura, sostituire oggetti o riscrivere azioni tra le riprese senza rigenerare da zero.
Produzione video di brand
Usa i template per creare rapidamente video di brand, poi raffina con la modifica conversazionale — sostituisci riprese di prodotto, cambia sfondi o regola il tono visivo per abbinarlo al tuo brand.
Esplora generatori video IA correlati

Veo 3.1
Modello video 1080p di Google DeepMind con conversione frame a video e generazione audio nativa.

Sora 2
Generatore video cinematografico di OpenAI con movimento fisicamente preciso e durata di 20 secondi.

Grok Imagine
Modello video motore Aurora di xAI con modalità di stile Fun/Normal/Spicy e audio nativo.
Happy Horse 1.0
Il modello video meglio valutato di Alibaba con qualità di movimento cinematografico e sincronizzazione labiale in 7 lingue.

Seedance 2.0
Modello video di ByteDance con integrazione ricerca web e audio sincronizzato.
Kling 3.0
Video 4K di qualità registica con cinematografia AI multi-ripresa e audio nativo.
Domande frequenti su Gemini Omni Flash
Cos'è Gemini Omni Flash?
Gemini Omni Flash è il nuovo modello di generazione video unificato di Google DeepMind, annunciato e lanciato a Google I/O 2026 il 19 maggio 2026. È il primo modello disponibile della famiglia Gemini Omni — costruito su un'unica architettura omni basata su transformer che gestisce nativamente input di testo, immagine, audio e video, producendo video ad alta risoluzione con audio sincronizzato in un unico passaggio. Le funzionalità principali includono modifica conversazionale multi-turno, migliore comprensione della fisica e reference stacking.
In cosa si differenzia Gemini Omni Flash da Veo 3.1?
Veo 3.1 è un modello di diffusione video dedicato incentrato esclusivamente su testo-a-video e immagine-a-video. Gemini Omni Flash è costruito su un'architettura omni unificata basata su transformer — un unico modello che gestisce testo, immagine, audio e video in un unico passaggio, simile nel concetto a GPT-4o — e lega la generazione video al ragionamento di Gemini. Ciò consente la modifica conversazionale multi-turno, il reference stacking e la creazione basata su template che Veo 3.1 non offre. Veo 3.1 attualmente fornisce clip più lunghi e un controllo più ricco degli input multi-immagine.
Cos'è la modifica conversazionale in Gemini Omni Flash?
Una volta ottenuto un clip, si descrivono le modifiche in linguaggio naturale — "sposta l'angolazione della telecamera a sinistra", "fai la scultura di bolle", "sostituisci la tazza rossa con una tazza da caffè" o "riscrivi questa scena in modo che il personaggio sia all'esterno" — e Gemini Omni Flash rielabora l'elemento target mantenendo intatto il resto. Le modifiche multi-turno si basano sul contesto precedente per permettere l'iterazione senza ricominciare. La modifica dell'audio su video esistenti è deliberatamente esclusa al lancio.
Gemini Omni Flash genera audio sincronizzato?
Sì. Gemini Omni Flash produce audio sincronizzato nativo — dialogo con sincronizzazione labiale, effetti sonori sincronizzati con l'azione sullo schermo e audio ambientale di sottofondo — in un unico passaggio insieme al video, senza una fase separata TTS o Foley. Tutti gli output generati sono automaticamente contrassegnati con un watermark SynthID e C2PA Content Credentials.
Quando sarà disponibile Gemini Omni Flash su LoveGen AI?
Gemini Omni Flash è stato lanciato il 19 maggio 2026 nell'app Gemini, Google Flow, YouTube Shorts Remix e nell'app YouTube Create. L'accesso pubblico all'API per sviluppatori e aziende tramite Vertex AI è in fase di rollout nelle settimane successive a Google I/O 2026. LoveGen AI integrerà Gemini Omni Flash non appena quell'API sarà pubblicamente disponibile.
Quali template video include Gemini Omni Flash?
Gemini Omni Flash è dotato di creazione video basata su template, applicata con un clic nell'app Gemini e in Google Flow. I template gestiscono composizione, ritmo e audio per una generazione rapida, ed è disponibile anche un flusso di creazione avatar IA personalizzato. Il catalogo di template attuale si trova nelle superfici prodotto dell'app Gemini e di Flow.
