Google DeepMind

Google DeepMind

Gemini Omni

In arrivo

API pubblica in rollout nelle settimane successive a Google I/O 2026

Gemini Omni Flash è stato lanciato il 19 maggio 2026. LoveGen AI lo integrerà non appena l'API pubblica Vertex AI sarà disponibile.

Generatore video IA Gemini Omni Flash

Crea e modifica video IA con il modello omni unificato di Google

Gemini Omni Flash è il nuovo modello di generazione video unificato di Google DeepMind, annunciato e lanciato a Google I/O 2026 il 19 maggio 2026. A differenza dei modelli Veo dedicati, Gemini Omni Flash è costruito su un'unica architettura omni basata su transformer che accetta nativamente input di testo, immagine, audio e video, producendo video ad alta risoluzione con audio sincronizzato in un unico passaggio. Supporta la modifica conversazionale multi-turno — cambiare l'angolazione della telecamera, sostituire oggetti, riscrivere scene o modificare sfondi usando prompt in linguaggio naturale.

Gemini Omni è stato presentato a Google I/O 2026, con la prima variante disponibile — Gemini Omni Flash — rilasciata lo stesso giorno (19 maggio 2026). Google lo descrive come un modello in grado di creare qualsiasi cosa da qualsiasi input, a partire dal video, combinando il ragionamento di Gemini con i media generativi per una migliore comprensione del mondo, multimodalità e modifica.

Al lancio, Gemini Omni Flash produce clip ad alta risoluzione da 10 secondi abbinati ad audio sincronizzato nativo — dialogo con sincronizzazione labiale, effetti sonori sincronizzati con l'azione sullo schermo e audio ambientale di sottofondo — il tutto generato in un unico passaggio. Google ha confermato che il limite di 10 secondi è una decisione di deployment e non un vincolo del modello. Una migliore comprensione della fisica, inclusa gravità, energia cinetica e dinamica dei fluidi, consente movimenti più realistici.

La funzionalità principale al lancio è la modifica conversazionale multi-turno. Una volta ottenuto un clip, si descrivono le modifiche in linguaggio naturale — "sposta l'angolazione della telecamera a sinistra", "fai la scultura di bolle", "quando la persona tocca lo specchio, fallo increspare come liquido" — e Omni rielabora l'elemento target mantenendo intatto il resto. Il reference stacking consente di combinare un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt, e la creazione basata su template con applicazione in un clic è integrata nell'app Gemini e in Google Flow.

Gemini Omni Flash è disponibile globalmente per gli abbonati Google AI Plus, Pro e Ultra tramite l'app Gemini e Google Flow, e gratuitamente per gli utenti dai 18 anni in su in YouTube Shorts Remix e nell'app YouTube Create. Ogni video generato porta un watermark SynthID impercettibile oltre a C2PA Content Credentials. L'accesso pubblico all'API per sviluppatori e aziende tramite Vertex AI è in fase di rollout nelle settimane successive a I/O; LoveGen AI integrerà Gemini Omni Flash non appena quell'API sarà pubblicamente disponibile.

Come usare Gemini Omni Flash

01

Passo 1: Scegli la modalità di creazione

Genera da un prompt testuale, anima un'immagine, combina più riferimenti (immagine, audio, stile) o scegli un template integrato per la creazione in un clic.

02

Passo 2: Descrivi il tuo video o la modifica

Scrivi un prompt dettagliato o descrivi una modifica in linguaggio naturale — Gemini Omni Flash comprende movimenti di telecamera, sostituzioni di oggetti, cambi di sfondo e variazioni di stile tramite chat.

03

Passo 3: Genera e raffina

Clicca su Genera. Gemini Omni Flash restituisce un clip ad alta risoluzione da 10 secondi con audio sincronizzato nativo. Usa la chat multi-turno per affinare elementi specifici senza ricominciare da capo.

Specifiche tecniche di Gemini Omni Flash

FornitoreGoogle DeepMind
Data di rilascio19 maggio 2026 (Google I/O 2026)
VarianteGemini Omni Flash (primo modello disponibile della famiglia Omni)
ArchitetturaModello omni unificato basato su transformer (input testo + immagine + audio + video → output video + audio)
Modalità di inputTesto, immagine, audio, video — incluso reference stacking multi-riferimento
OutputVideo ad alta risoluzione con audio sincronizzato nativo
Durata massima10 secondi per clip (limite di deployment, non vincolo del modello)
Audio nativoDialogo (sincronizzazione labiale), effetti sonori, audio ambientale — generati in un unico passaggio
ModificaConversazionale multi-turno — telecamera, sfondi, oggetti, azioni, stile
FisicaGravità, energia cinetica e dinamica dei fluidi migliorate
ProvenienzaWatermark SynthID + C2PA Content Credentials (obbligatori)
DisponibilitàApp Gemini & Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix & Create app (gratuito, 18+)
Accesso APIAPI pubblica Vertex AI in rollout nelle settimane successive a I/O 2026

Perché Gemini Omni Flash si distingue

Architettura modello omni unificato

Gemini Omni Flash è il primo modello video di Google costruito su un'architettura omni unificata basata su transformer — un unico modello che gestisce testo, immagine, audio e video in un unico passaggio, eliminando le giunture tra modalità che i sistemi a pipeline separata introducono. Il reference stacking consente di combinare un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt.

Modifica conversazionale multi-turno

Descrivi le modifiche in linguaggio naturale e Gemini Omni Flash le applica direttamente — sposta la telecamera, sostituisci un oggetto, riscrivi una scena o cambia uno sfondo — mantenendo intatto il resto del clip. Le modifiche multi-turno si basano sul contesto precedente per permettere l'iterazione senza ricominciare da capo.

Audio sincronizzato nativo + fisica migliorata

Dialogo con sincronizzazione labiale, effetti sonori sullo schermo e audio ambientale sono prodotti insieme al video in un unico passaggio — senza fase TTS o Foley separata. Una migliore comprensione di gravità, energia cinetica e dinamica dei fluidi offre movimenti più realistici, e ogni output porta la provenienza SynthID e C2PA.

Gemini Omni Flash vs altri generatori video IA

FeatureGemini Omni FlashVeo 3.1Sora 2Grok Imagine
FornitoreGoogle DeepMindGoogle DeepMindOpenAIxAI
ArchitetturaModello transformer omni unificatoDiffusioneDiffusioneAurora (autoregressivo)
Modifica conversazionaleSì — multi-turnoNoNoNo
Risoluzione massimaAlta risoluzione1080p1080p720p
Durata massima10s (limite di deployment)8s (estendibile)20s15s
Audio nativoSì — passaggio singolo
Modalità di inputTesto, immagine, audio, videoTesto, immagine (fino a 3)Testo, immagine + CameosTesto, 1 immagine
TemplateNoNoNo
ProvenienzaSynthID + C2PASynthIDC2PA
DisponibilitàApp Gemini, Flow, YouTubeDisponibileDisponibileDisponibile

Cosa puoi creare con Gemini Omni Flash

01

Modifica video conversazionale

Dimentica l'editor della timeline — descrivi la modifica desiderata in linguaggio naturale e Gemini Omni Flash la applica direttamente. Sposta angolazioni della telecamera, sostituisci oggetti, cambia sfondi o riscrivi un'intera azione con un unico prompt.

02

Contenuto social basato su template

Scegli un template integrato, inserisci il tuo prompt e ottieni un clip di 10 secondi completamente composto con audio sincronizzato — progettato per YouTube Shorts, Reels e formati TikTok senza esperienza produttiva richiesta.

03

Creazione di scene di dialogo

Genera scene di conversazione realistiche con sincronizzazione labiale precisa e audio ambientale in un unico passaggio — ideale per script di marketing, contenuti educativi o dialoghi di cortometraggi.

04

Generazione con reference stacking

Combina un'immagine di un personaggio, un file audio e un riferimento di stile in un unico prompt per generare personaggi coerenti che corrispondano a un look, una voce e un'estetica specifici tra i clip.

05

Storyboarding di scene

Visualizza rapidamente i tempi dello script come clip brevi con audio nativo. Usa la chat multi-turno per regolare l'inquadratura, sostituire oggetti o riscrivere azioni tra le riprese senza rigenerare da zero.

06

Produzione video di brand

Usa i template per creare rapidamente video di brand, poi raffina con la modifica conversazionale — sostituisci riprese di prodotto, cambia sfondi o regola il tono visivo per abbinarlo al tuo brand.

Esplora generatori video IA correlati

Domande frequenti su Gemini Omni Flash

Cos'è Gemini Omni Flash?

Gemini Omni Flash è il nuovo modello di generazione video unificato di Google DeepMind, annunciato e lanciato a Google I/O 2026 il 19 maggio 2026. È il primo modello disponibile della famiglia Gemini Omni — costruito su un'unica architettura omni basata su transformer che gestisce nativamente input di testo, immagine, audio e video, producendo video ad alta risoluzione con audio sincronizzato in un unico passaggio. Le funzionalità principali includono modifica conversazionale multi-turno, migliore comprensione della fisica e reference stacking.

In cosa si differenzia Gemini Omni Flash da Veo 3.1?

Veo 3.1 è un modello di diffusione video dedicato incentrato esclusivamente su testo-a-video e immagine-a-video. Gemini Omni Flash è costruito su un'architettura omni unificata basata su transformer — un unico modello che gestisce testo, immagine, audio e video in un unico passaggio, simile nel concetto a GPT-4o — e lega la generazione video al ragionamento di Gemini. Ciò consente la modifica conversazionale multi-turno, il reference stacking e la creazione basata su template che Veo 3.1 non offre. Veo 3.1 attualmente fornisce clip più lunghi e un controllo più ricco degli input multi-immagine.

Cos'è la modifica conversazionale in Gemini Omni Flash?

Una volta ottenuto un clip, si descrivono le modifiche in linguaggio naturale — "sposta l'angolazione della telecamera a sinistra", "fai la scultura di bolle", "sostituisci la tazza rossa con una tazza da caffè" o "riscrivi questa scena in modo che il personaggio sia all'esterno" — e Gemini Omni Flash rielabora l'elemento target mantenendo intatto il resto. Le modifiche multi-turno si basano sul contesto precedente per permettere l'iterazione senza ricominciare. La modifica dell'audio su video esistenti è deliberatamente esclusa al lancio.

Gemini Omni Flash genera audio sincronizzato?

Sì. Gemini Omni Flash produce audio sincronizzato nativo — dialogo con sincronizzazione labiale, effetti sonori sincronizzati con l'azione sullo schermo e audio ambientale di sottofondo — in un unico passaggio insieme al video, senza una fase separata TTS o Foley. Tutti gli output generati sono automaticamente contrassegnati con un watermark SynthID e C2PA Content Credentials.

Quando sarà disponibile Gemini Omni Flash su LoveGen AI?

Gemini Omni Flash è stato lanciato il 19 maggio 2026 nell'app Gemini, Google Flow, YouTube Shorts Remix e nell'app YouTube Create. L'accesso pubblico all'API per sviluppatori e aziende tramite Vertex AI è in fase di rollout nelle settimane successive a Google I/O 2026. LoveGen AI integrerà Gemini Omni Flash non appena quell'API sarà pubblicamente disponibile.

Quali template video include Gemini Omni Flash?

Gemini Omni Flash è dotato di creazione video basata su template, applicata con un clic nell'app Gemini e in Google Flow. I template gestiscono composizione, ritmo e audio per una generazione rapida, ed è disponibile anche un flusso di creazione avatar IA personalizzato. Il catalogo di template attuale si trova nelle superfici prodotto dell'app Gemini e di Flow.