Google DeepMind

Google DeepMind

Gemini Omni

Bientôt disponible

API publique déployée dans les semaines suivant Google I/O 2026

Gemini Omni Flash a été lancé le 19 mai 2026. LoveGen AI l'intégrera dès que l'API Vertex AI publique sera disponible.

Générateur vidéo IA Gemini Omni Flash

Créez et éditez des vidéos IA avec le modèle omni unifié de Google

Gemini Omni Flash est le nouveau modèle de génération vidéo unifié de Google DeepMind, annoncé et lancé à Google I/O 2026 le 19 mai 2026. Contrairement aux modèles Veo dédiés, Gemini Omni Flash repose sur une architecture omni unifiée basée sur un transformeur unique qui accepte nativement les entrées texte, image, audio et vidéo, et produit de la vidéo haute résolution avec audio synchronisé en un seul passage. Il prend en charge l'édition conversationnelle multi-tours — changer l'angle de caméra, remplacer des objets, réécrire des scènes ou modifier des arrière-plans à l'aide de prompts en langage naturel.

Gemini Omni a été dévoilé à Google I/O 2026, avec la première variante disponible — Gemini Omni Flash — déployée le même jour (19 mai 2026). Google le décrit comme un modèle capable de créer n'importe quoi à partir de n'importe quelle entrée, en commençant par la vidéo, combinant le raisonnement de Gemini avec les médias génératifs pour une meilleure compréhension du monde, la multimodalité et l'édition.

Au lancement, Gemini Omni Flash produit des clips haute résolution de 10 secondes accompagnés d'audio synchronisé natif — dialogue avec synchronisation labiale, effets sonores synchronisés avec l'action à l'écran et ambiance sonore — le tout généré en un seul passage. Google a confirmé que la limite de 10 secondes est une décision de déploiement et non une contrainte du modèle. Une meilleure compréhension de la physique, notamment la gravité, l'énergie cinétique et la dynamique des fluides, permet des mouvements plus réalistes.

La fonctionnalité phare est l'édition conversationnelle multi-tours. Une fois que vous avez un clip, vous décrivez les modifications en langage naturel — « décaler l'angle de caméra vers la gauche », « faire la sculpture en bulles », « quand la personne touche le miroir, le faire onduler comme du liquide » — et Omni retravaille l'élément ciblé en laissant le reste intact. L'empilement de références vous permet de combiner une image de personnage, un fichier audio et une référence de style dans un seul prompt, et la création basée sur des modèles avec application en un clic est intégrée dans l'application Gemini et Google Flow.

Gemini Omni Flash est déployé mondialement pour les abonnés Google AI Plus, Pro et Ultra via l'application Gemini et Google Flow, et gratuitement pour les utilisateurs de 18 ans et plus dans YouTube Shorts Remix et l'application YouTube Create. Chaque vidéo générée porte un filigrane SynthID imperceptible ainsi que des C2PA Content Credentials. L'accès public aux API pour développeurs et entreprises via Vertex AI est en cours de déploiement dans les semaines suivant I/O ; LoveGen AI intégrera Gemini Omni Flash dès que cette API sera publiquement disponible.

Comment utiliser Gemini Omni Flash

01

Étape 1 : Choisissez votre mode de création

Générez à partir d'un prompt texte, animez une image, combinez plusieurs références (image, audio, style) ou choisissez un modèle intégré pour une création en un clic.

02

Étape 2 : Décrivez votre vidéo ou modification

Rédigez un prompt détaillé ou décrivez une modification en langage naturel — Gemini Omni Flash comprend les mouvements de caméra, les remplacements d'objets, les changements d'arrière-plan et les changements de style par chat.

03

Étape 3 : Générez et affinez

Cliquez sur Générer. Gemini Omni Flash renvoie un clip haute résolution de 10 secondes avec audio synchronisé natif. Utilisez le chat multi-tours pour affiner des éléments spécifiques sans recommencer de zéro.

Spécifications techniques de Gemini Omni Flash

FournisseurGoogle DeepMind
Date de sortie19 mai 2026 (Google I/O 2026)
VarianteGemini Omni Flash (premier modèle disponible de la famille Omni)
ArchitectureModèle omni unifié basé sur un transformeur (entrées texte + image + audio + vidéo → sortie vidéo + audio)
Modes d'entréeTexte, image, audio, vidéo — y compris l'empilement multi-références
SortieVidéo haute résolution avec audio synchronisé natif
Durée maximale10 secondes par clip (limite de déploiement, pas une contrainte du modèle)
Audio natifDialogue (sync labiale), effets sonores, ambiance — générés en un seul passage
ÉditionConversationnelle multi-tours — caméra, arrière-plans, objets, actions, style
PhysiqueGravité, énergie cinétique et dynamique des fluides améliorées
ProvenanceFiligrane SynthID + C2PA Content Credentials (obligatoires)
DisponibilitéApplication Gemini & Google Flow (AI Plus/Pro/Ultra) ; YouTube Shorts Remix & Create app (gratuit, 18+)
Accès APIAPI Vertex AI publique déployée dans les semaines suivant I/O 2026

Pourquoi Gemini Omni Flash se démarque

Architecture de modèle omni unifié

Gemini Omni Flash est le premier modèle vidéo de Google construit sur une architecture omni unifiée basée sur un transformeur — un seul modèle gérant texte, image, audio et vidéo en un seul passage, éliminant les coutures entre modalités que laissent les systèmes à pipeline séparé. L'empilement de références vous permet de combiner une image de personnage, un fichier audio et une référence de style dans un seul prompt.

Édition conversationnelle multi-tours

Décrivez les modifications en langage naturel et Gemini Omni Flash les applique directement — décaler la caméra, remplacer un objet, réécrire une scène ou changer un arrière-plan — tout en laissant le reste du clip intact. Les modifications multi-tours s'appuient sur le contexte précédent pour que vous puissiez itérer sans recommencer de zéro.

Audio synchronisé natif + physique améliorée

Dialogue avec synchronisation labiale, effets sonores à l'écran et audio ambiant sont produits conjointement avec la vidéo en un seul passage — sans étape TTS ou Foley séparée. Une meilleure compréhension de la gravité, de l'énergie cinétique et de la dynamique des fluides offre des mouvements plus réalistes, et chaque sortie porte la provenance SynthID et C2PA.

Gemini Omni Flash vs autres générateurs vidéo IA

FeatureGemini Omni FlashVeo 3.1Sora 2Grok Imagine
FournisseurGoogle DeepMindGoogle DeepMindOpenAIxAI
ArchitectureModèle transformeur omni unifiéDiffusionDiffusionAurora (autoregressif)
Édition conversationnelleOui — multi-toursNonNonNon
Résolution maximaleHaute résolution1080p1080p720p
Durée maximale10s (limite de déploiement)8s (extensible)20s15s
Audio natifOui — passage uniqueOuiOuiOui
Modes d'entréeTexte, image, audio, vidéoTexte, image (jusqu'à 3)Texte, image + CameosTexte, 1 image
ModèlesOuiNonNonNon
ProvenanceSynthID + C2PASynthIDC2PA
DisponibilitéApp Gemini, Flow, YouTubeDisponibleDisponibleDisponible

Ce que vous pouvez créer avec Gemini Omni Flash

01

Édition vidéo conversationnelle

Oubliez l'éditeur de timeline — décrivez la modification souhaitée en langage naturel et Gemini Omni Flash l'applique directement. Déplacez les angles de caméra, remplacez des objets, changez les arrière-plans ou réécrivez une action entière avec un seul prompt.

02

Contenu social basé sur des modèles

Choisissez un modèle intégré, saisissez votre prompt et obtenez un clip de 10 secondes entièrement composé avec audio synchronisé — conçu pour YouTube Shorts, Reels et les formats TikTok sans expérience en production requise.

03

Création de scènes de dialogue

Générez des scènes de conversation réalistes avec synchronisation labiale précise et audio ambiant en un seul passage — idéal pour des scripts marketing, du contenu éducatif ou des dialogues de courts-métrages.

04

Génération par empilement de références

Combinez une image de personnage, un fichier audio et une référence de style dans un seul prompt pour générer des personnages cohérents correspondant à un look, une voix et une esthétique spécifiques à travers les clips.

05

Storyboarding de scènes

Visualisez rapidement les temps forts d'un script sous forme de courts clips avec audio natif. Utilisez le chat multi-tours pour ajuster le cadrage, remplacer des objets ou réécrire des actions entre les plans sans régénérer depuis le début.

06

Production vidéo de marque

Utilisez des modèles pour créer rapidement des vidéos de marque, puis affinez avec l'édition conversationnelle — remplacez des visuels produit, changez les arrière-plans ou ajustez le ton visuel pour correspondre à votre marque.

Explorer les générateurs vidéo IA associés

Questions fréquentes sur Gemini Omni Flash

Qu'est-ce que Gemini Omni Flash ?

Gemini Omni Flash est le nouveau modèle de génération vidéo unifié de Google DeepMind, annoncé et lancé à Google I/O 2026 le 19 mai 2026. C'est le premier modèle disponible de la famille Gemini Omni — construit sur une architecture omni unique basée sur un transformeur qui gère nativement les entrées texte, image, audio et vidéo, et produit de la vidéo haute résolution avec audio synchronisé en un seul passage. Les fonctionnalités phares incluent l'édition conversationnelle multi-tours, une meilleure compréhension de la physique et l'empilement de références.

En quoi Gemini Omni Flash diffère-t-il de Veo 3.1 ?

Veo 3.1 est un modèle de diffusion vidéo dédié axé uniquement sur le texte-vers-vidéo et l'image-vers-vidéo. Gemini Omni Flash repose sur une architecture omni unifiée basée sur un transformeur — un seul modèle gérant texte, image, audio et vidéo en un seul passage, similaire dans le concept à GPT-4o — et il lie la génération vidéo au raisonnement de Gemini. Cela permet l'édition conversationnelle multi-tours, l'empilement de références et la création par modèles que Veo 3.1 ne propose pas. Veo 3.1 offre actuellement des clips plus longs et un contrôle plus riche des entrées multi-images.

Qu'est-ce que l'édition conversationnelle dans Gemini Omni Flash ?

Une fois que vous avez un clip, vous décrivez les modifications en langage naturel — « décaler l'angle de caméra vers la gauche », « faire la sculpture en bulles », « remplacer la tasse rouge par un mug à café » ou « réécrire cette scène pour que le personnage soit en extérieur » — et Gemini Omni Flash retravaille l'élément ciblé en laissant le reste intact. Les modifications multi-tours s'appuient sur le contexte précédent pour que vous puissiez itérer sans recommencer. L'édition audio des vidéos existantes est délibérément absente au lancement.

Gemini Omni Flash génère-t-il un audio synchronisé ?

Oui. Gemini Omni Flash produit un audio synchronisé natif — dialogue avec synchronisation labiale, effets sonores synchronisés avec l'action à l'écran et ambiance sonore — en un seul passage aux côtés de la vidéo, sans étape TTS ou Foley séparée. Toutes les sorties générées sont automatiquement marquées d'un filigrane SynthID et de C2PA Content Credentials.

Quand Gemini Omni Flash sera-t-il disponible sur LoveGen AI ?

Gemini Omni Flash a été lancé le 19 mai 2026 dans l'application Gemini, Google Flow, YouTube Shorts Remix et l'application YouTube Create. L'accès public aux API pour développeurs et entreprises via Vertex AI est en cours de déploiement dans les semaines suivant Google I/O 2026. LoveGen AI intégrera Gemini Omni Flash dès que cette API sera publiquement disponible.

Quels modèles vidéo Gemini Omni Flash inclut-il ?

Gemini Omni Flash est livré avec une création vidéo basée sur des modèles, appliquée en un seul clic dans l'application Gemini et Google Flow. Les modèles gèrent la composition, le rythme et l'audio pour une génération rapide, et un flux de création d'avatar IA personnalisé est également disponible. Le catalogue de modèles actuel se trouve dans l'application Gemini et les surfaces produit Flow.