Google DeepMind

Gemini Omni

In arrivo

API pubblica in rollout nelle settimane successive a Google I/O 2026

Gemini Omni Flash è stato lanciato il 19 maggio 2026. LoveGen AI lo integrerà non appena l'API pubblica Vertex AI sarà disponibile.

Published May 12, 2026Updated May 12, 2026

Generatore video IA Gemini Omni Flash

Crea e modifica video IA con il modello omni unificato di Google

Gemini Omni Flash è il nuovo modello di generazione video unificato di Google DeepMind, annunciato e lanciato a Google I/O 2026 il 19 maggio 2026. A differenza dei modelli Veo dedicati, Gemini Omni Flash è costruito su un'unica architettura omni basata su transformer che accetta nativamente input di testo, immagine, audio e video, producendo video ad alta risoluzione con audio sincronizzato in un unico passaggio. Supporta la modifica conversazionale multi-turno — cambiare l'angolazione della telecamera, sostituire oggetti, riscrivere scene o modificare sfondi usando prompt in linguaggio naturale.

Gemini Omni è stato presentato a Google I/O 2026, con la prima variante disponibile — Gemini Omni Flash — rilasciata lo stesso giorno (19 maggio 2026). Google lo descrive come un modello in grado di creare qualsiasi cosa da qualsiasi input, a partire dal video, combinando il ragionamento di Gemini con i media generativi per una migliore comprensione del mondo, multimodalità e modifica.

Al lancio, Gemini Omni Flash produce clip ad alta risoluzione da 10 secondi abbinati ad audio sincronizzato nativo — dialogo con sincronizzazione labiale, effetti sonori sincronizzati con l'azione sullo schermo e audio ambientale di sottofondo — il tutto generato in un unico passaggio. Google ha confermato che il limite di 10 secondi è una decisione di deployment e non un vincolo del modello. Una migliore comprensione della fisica, inclusa gravità, energia cinetica e dinamica dei fluidi, consente movimenti più realistici.

La funzionalità principale al lancio è la modifica conversazionale multi-turno. Una volta ottenuto un clip, si descrivono le modifiche in linguaggio naturale — "sposta l'angolazione della telecamera a sinistra", "fai la scultura di bolle", "quando la persona tocca lo specchio, fallo increspare come liquido" — e Omni rielabora l'elemento target mantenendo intatto il resto. Il reference stacking consente di combinare un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt, e la creazione basata su template con applicazione in un clic è integrata nell'app Gemini e in Google Flow.

Gemini Omni Flash è disponibile globalmente per gli abbonati Google AI Plus, Pro e Ultra tramite l'app Gemini e Google Flow, e gratuitamente per gli utenti dai 18 anni in su in YouTube Shorts Remix e nell'app YouTube Create. Ogni video generato porta un watermark SynthID impercettibile oltre a C2PA Content Credentials. L'accesso pubblico all'API per sviluppatori e aziende tramite Vertex AI è in fase di rollout nelle settimane successive a I/O; LoveGen AI integrerà Gemini Omni Flash non appena quell'API sarà pubblicamente disponibile.

Come usare Gemini Omni Flash

Passo 1: Scegli la modalità di creazione

Genera da un prompt testuale, anima un'immagine, combina più riferimenti (immagine, audio, stile) o scegli un template integrato per la creazione in un clic.

Passo 2: Descrivi il tuo video o la modifica

Scrivi un prompt dettagliato o descrivi una modifica in linguaggio naturale — Gemini Omni Flash comprende movimenti di telecamera, sostituzioni di oggetti, cambi di sfondo e variazioni di stile tramite chat.

Passo 3: Genera e raffina

Clicca su Genera. Gemini Omni Flash restituisce un clip ad alta risoluzione da 10 secondi con audio sincronizzato nativo. Usa la chat multi-turno per affinare elementi specifici senza ricominciare da capo.

Specifiche tecniche di Gemini Omni Flash

Fornitore	Google DeepMind
Data di rilascio	19 maggio 2026 (Google I/O 2026)
Variante	Gemini Omni Flash (primo modello disponibile della famiglia Omni)
Architettura	Modello omni unificato basato su transformer (input testo + immagine + audio + video → output video + audio)
Modalità di input	Testo, immagine, audio, video — incluso reference stacking multi-riferimento
Output	Video ad alta risoluzione con audio sincronizzato nativo
Durata massima	10 secondi per clip (limite di deployment, non vincolo del modello)
Audio nativo	Dialogo (sincronizzazione labiale), effetti sonori, audio ambientale — generati in un unico passaggio
Modifica	Conversazionale multi-turno — telecamera, sfondi, oggetti, azioni, stile
Fisica	Gravità, energia cinetica e dinamica dei fluidi migliorate
Provenienza	Watermark SynthID + C2PA Content Credentials (obbligatori)
Disponibilità	App Gemini & Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix & Create app (gratuito, 18+)
Accesso API	API pubblica Vertex AI in rollout nelle settimane successive a I/O 2026

Perché Gemini Omni Flash si distingue

Architettura modello omni unificato

Gemini Omni Flash è il primo modello video di Google costruito su un'architettura omni unificata basata su transformer — un unico modello che gestisce testo, immagine, audio e video in un unico passaggio, eliminando le giunture tra modalità che i sistemi a pipeline separata introducono. Il reference stacking consente di combinare un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt.

Modifica conversazionale multi-turno

Descrivi le modifiche in linguaggio naturale e Gemini Omni Flash le applica direttamente — sposta la telecamera, sostituisci un oggetto, riscrivi una scena o cambia uno sfondo — mantenendo intatto il resto del clip. Le modifiche multi-turno si basano sul contesto precedente per permettere l'iterazione senza ricominciare da capo.

Audio sincronizzato nativo + fisica migliorata

Dialogo con sincronizzazione labiale, effetti sonori sullo schermo e audio ambientale sono prodotti insieme al video in un unico passaggio — senza fase TTS o Foley separata. Una migliore comprensione di gravità, energia cinetica e dinamica dei fluidi offre movimenti più realistici, e ogni output porta la provenienza SynthID e C2PA.

Gemini Omni Flash vs altri generatori video IA

Feature	Gemini Omni Flash	Veo 3.1	Sora 2	Grok Imagine
Fornitore	Google DeepMind	Google DeepMind	OpenAI	xAI
Architettura	Modello transformer omni unificato	Diffusione	Diffusione	Aurora (autoregressivo)
Modifica conversazionale	Sì — multi-turno	No	No	No
Risoluzione massima	Alta risoluzione	1080p	1080p	720p
Durata massima	10s (limite di deployment)	8s (estendibile)	20s	15s
Audio nativo	Sì — passaggio singolo	Sì	Sì	Sì
Modalità di input	Testo, immagine, audio, video	Testo, immagine (fino a 3)	Testo, immagine + Cameos	Testo, 1 immagine
Template	Sì	No	No	No
Provenienza	SynthID + C2PA	SynthID	C2PA	—
Disponibilità	App Gemini, Flow, YouTube	Disponibile	Disponibile	Disponibile

Cosa puoi creare con Gemini Omni Flash

Modifica video conversazionale

Dimentica l'editor della timeline — descrivi la modifica desiderata in linguaggio naturale e Gemini Omni Flash la applica direttamente. Sposta angolazioni della telecamera, sostituisci oggetti, cambia sfondi o riscrivi un'intera azione con un unico prompt.

Contenuto social basato su template

Scegli un template integrato, inserisci il tuo prompt e ottieni un clip di 10 secondi completamente composto con audio sincronizzato — progettato per YouTube Shorts, Reels e formati TikTok senza esperienza produttiva richiesta.

Creazione di scene di dialogo

Genera scene di conversazione realistiche con sincronizzazione labiale precisa e audio ambientale in un unico passaggio — ideale per script di marketing, contenuti educativi o dialoghi di cortometraggi.

Generazione con reference stacking

Combina un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt per generare personaggi coerenti che corrispondano a un look, una voce e un'estetica specifici tra i clip.

Storyboarding di scene

Visualizza rapidamente i tempi dello script come clip brevi con audio nativo. Usa la chat multi-turno per regolare l'inquadratura, sostituire oggetti o riscrivere azioni tra le riprese senza rigenerare da zero.

Produzione video di brand

Usa i template per creare rapidamente video di brand, poi raffina con la modifica conversazionale — sostituisci riprese di prodotto, cambia sfondi o regola il tono visivo per abbinarlo al tuo brand.

Esplora generatori video IA correlati

Veo 3.1

Modello video 1080p di Google DeepMind con conversione frame a video e generazione audio nativa.

Sora 2

Generatore video cinematografico di OpenAI con movimento fisicamente preciso e durata di 20 secondi.

Grok Imagine

Modello video motore Aurora di xAI con modalità di stile Fun/Normal/Spicy e audio nativo.

Happy Horse 1.0

Il modello video meglio valutato di Alibaba con qualità di movimento cinematografico e sincronizzazione labiale in 7 lingue.

Seedance 2.0

Modello video di ByteDance con integrazione ricerca web e audio sincronizzato.

Kling 3.0

Video 4K di qualità registica con cinematografia AI multi-ripresa e audio nativo.

Domande frequenti su Gemini Omni Flash

Cos'è Gemini Omni Flash?

Gemini Omni Flash è il nuovo modello di generazione video unificato di Google DeepMind, annunciato e lanciato a Google I/O 2026 il 19 maggio 2026. È il primo modello disponibile della famiglia Gemini Omni — costruito su un'unica architettura omni basata su transformer che gestisce nativamente input di testo, immagine, audio e video, producendo video ad alta risoluzione con audio sincronizzato in un unico passaggio. Le funzionalità principali includono modifica conversazionale multi-turno, migliore comprensione della fisica e reference stacking.

In cosa si differenzia Gemini Omni Flash da Veo 3.1?

Veo 3.1 è un modello di diffusione video dedicato incentrato esclusivamente su testo-a-video e immagine-a-video. Gemini Omni Flash è costruito su un'architettura omni unificata basata su transformer — un unico modello che gestisce testo, immagine, audio e video in un unico passaggio, simile nel concetto a GPT-4o — e lega la generazione video al ragionamento di Gemini. Ciò consente la modifica conversazionale multi-turno, il reference stacking e la creazione basata su template che Veo 3.1 non offre. Veo 3.1 attualmente fornisce clip più lunghi e un controllo più ricco degli input multi-immagine.

Cos'è la modifica conversazionale in Gemini Omni Flash?

Una volta ottenuto un clip, si descrivono le modifiche in linguaggio naturale — "sposta l'angolazione della telecamera a sinistra", "fai la scultura di bolle", "sostituisci la tazza rossa con una tazza da caffè" o "riscrivi questa scena in modo che il personaggio sia all'esterno" — e Gemini Omni Flash rielabora l'elemento target mantenendo intatto il resto. Le modifiche multi-turno si basano sul contesto precedente per permettere l'iterazione senza ricominciare. La modifica dell'audio su video esistenti è deliberatamente esclusa al lancio.

Gemini Omni Flash genera audio sincronizzato?

Sì. Gemini Omni Flash produce audio sincronizzato nativo — dialogo con sincronizzazione labiale, effetti sonori sincronizzati con l'azione sullo schermo e audio ambientale di sottofondo — in un unico passaggio insieme al video, senza una fase separata TTS o Foley. Tutti gli output generati sono automaticamente contrassegnati con un watermark SynthID e C2PA Content Credentials.

Quando sarà disponibile Gemini Omni Flash su LoveGen AI?

Gemini Omni Flash è stato lanciato il 19 maggio 2026 nell'app Gemini, Google Flow, YouTube Shorts Remix e nell'app YouTube Create. L'accesso pubblico all'API per sviluppatori e aziende tramite Vertex AI è in fase di rollout nelle settimane successive a Google I/O 2026. LoveGen AI integrerà Gemini Omni Flash non appena quell'API sarà pubblicamente disponibile.

Quali template video include Gemini Omni Flash?

Gemini Omni Flash è dotato di creazione video basata su template, applicata con un clic nell'app Gemini e in Google Flow. I template gestiscono composizione, ritmo e audio per una generazione rapida, ed è disponibile anche un flusso di creazione avatar IA personalizzato. Il catalogo di template attuale si trova nelle superfici prodotto dell'app Gemini e di Flow.