
Google DeepMind
Gemini Omni
API publique déployée dans les semaines suivant Google I/O 2026
Gemini Omni Flash a été lancé le 19 mai 2026. LoveGen AI l'intégrera dès que l'API Vertex AI publique sera disponible.
Générateur vidéo IA Gemini Omni Flash
Créez et éditez des vidéos IA avec le modèle omni unifié de Google
Gemini Omni Flash est le nouveau modèle de génération vidéo unifié de Google DeepMind, annoncé et lancé à Google I/O 2026 le 19 mai 2026. Contrairement aux modèles Veo dédiés, Gemini Omni Flash repose sur une architecture omni unifiée basée sur un transformeur unique qui accepte nativement les entrées texte, image, audio et vidéo, et produit de la vidéo haute résolution avec audio synchronisé en un seul passage. Il prend en charge l'édition conversationnelle multi-tours — changer l'angle de caméra, remplacer des objets, réécrire des scènes ou modifier des arrière-plans à l'aide de prompts en langage naturel.
Gemini Omni a été dévoilé à Google I/O 2026, avec la première variante disponible — Gemini Omni Flash — déployée le même jour (19 mai 2026). Google le décrit comme un modèle capable de créer n'importe quoi à partir de n'importe quelle entrée, en commençant par la vidéo, combinant le raisonnement de Gemini avec les médias génératifs pour une meilleure compréhension du monde, la multimodalité et l'édition.
Au lancement, Gemini Omni Flash produit des clips haute résolution de 10 secondes accompagnés d'audio synchronisé natif — dialogue avec synchronisation labiale, effets sonores synchronisés avec l'action à l'écran et ambiance sonore — le tout généré en un seul passage. Google a confirmé que la limite de 10 secondes est une décision de déploiement et non une contrainte du modèle. Une meilleure compréhension de la physique, notamment la gravité, l'énergie cinétique et la dynamique des fluides, permet des mouvements plus réalistes.
La fonctionnalité phare est l'édition conversationnelle multi-tours. Une fois que vous avez un clip, vous décrivez les modifications en langage naturel — « décaler l'angle de caméra vers la gauche », « faire la sculpture en bulles », « quand la personne touche le miroir, le faire onduler comme du liquide » — et Omni retravaille l'élément ciblé en laissant le reste intact. L'empilement de références vous permet de combiner une image de personnage, un fichier audio et une référence de style dans un seul prompt, et la création basée sur des modèles avec application en un clic est intégrée dans l'application Gemini et Google Flow.
Gemini Omni Flash est déployé mondialement pour les abonnés Google AI Plus, Pro et Ultra via l'application Gemini et Google Flow, et gratuitement pour les utilisateurs de 18 ans et plus dans YouTube Shorts Remix et l'application YouTube Create. Chaque vidéo générée porte un filigrane SynthID imperceptible ainsi que des C2PA Content Credentials. L'accès public aux API pour développeurs et entreprises via Vertex AI est en cours de déploiement dans les semaines suivant I/O ; LoveGen AI intégrera Gemini Omni Flash dès que cette API sera publiquement disponible.
Comment utiliser Gemini Omni Flash
Étape 1 : Choisissez votre mode de création
Générez à partir d'un prompt texte, animez une image, combinez plusieurs références (image, audio, style) ou choisissez un modèle intégré pour une création en un clic.
Étape 2 : Décrivez votre vidéo ou modification
Rédigez un prompt détaillé ou décrivez une modification en langage naturel — Gemini Omni Flash comprend les mouvements de caméra, les remplacements d'objets, les changements d'arrière-plan et les changements de style par chat.
Étape 3 : Générez et affinez
Cliquez sur Générer. Gemini Omni Flash renvoie un clip haute résolution de 10 secondes avec audio synchronisé natif. Utilisez le chat multi-tours pour affiner des éléments spécifiques sans recommencer de zéro.
Spécifications techniques de Gemini Omni Flash
| Fournisseur | Google DeepMind |
| Date de sortie | 19 mai 2026 (Google I/O 2026) |
| Variante | Gemini Omni Flash (premier modèle disponible de la famille Omni) |
| Architecture | Modèle omni unifié basé sur un transformeur (entrées texte + image + audio + vidéo → sortie vidéo + audio) |
| Modes d'entrée | Texte, image, audio, vidéo — y compris l'empilement multi-références |
| Sortie | Vidéo haute résolution avec audio synchronisé natif |
| Durée maximale | 10 secondes par clip (limite de déploiement, pas une contrainte du modèle) |
| Audio natif | Dialogue (sync labiale), effets sonores, ambiance — générés en un seul passage |
| Édition | Conversationnelle multi-tours — caméra, arrière-plans, objets, actions, style |
| Physique | Gravité, énergie cinétique et dynamique des fluides améliorées |
| Provenance | Filigrane SynthID + C2PA Content Credentials (obligatoires) |
| Disponibilité | Application Gemini & Google Flow (AI Plus/Pro/Ultra) ; YouTube Shorts Remix & Create app (gratuit, 18+) |
| Accès API | API Vertex AI publique déployée dans les semaines suivant I/O 2026 |
Pourquoi Gemini Omni Flash se démarque
Architecture de modèle omni unifié
Gemini Omni Flash est le premier modèle vidéo de Google construit sur une architecture omni unifiée basée sur un transformeur — un seul modèle gérant texte, image, audio et vidéo en un seul passage, éliminant les coutures entre modalités que laissent les systèmes à pipeline séparé. L'empilement de références vous permet de combiner une image de personnage, un fichier audio et une référence de style dans un seul prompt.
Édition conversationnelle multi-tours
Décrivez les modifications en langage naturel et Gemini Omni Flash les applique directement — décaler la caméra, remplacer un objet, réécrire une scène ou changer un arrière-plan — tout en laissant le reste du clip intact. Les modifications multi-tours s'appuient sur le contexte précédent pour que vous puissiez itérer sans recommencer de zéro.
Audio synchronisé natif + physique améliorée
Dialogue avec synchronisation labiale, effets sonores à l'écran et audio ambiant sont produits conjointement avec la vidéo en un seul passage — sans étape TTS ou Foley séparée. Une meilleure compréhension de la gravité, de l'énergie cinétique et de la dynamique des fluides offre des mouvements plus réalistes, et chaque sortie porte la provenance SynthID et C2PA.
Gemini Omni Flash vs autres générateurs vidéo IA
| Feature | Gemini Omni Flash | Veo 3.1 | Sora 2 | Grok Imagine |
|---|---|---|---|---|
| Fournisseur | Google DeepMind | Google DeepMind | OpenAI | xAI |
| Architecture | Modèle transformeur omni unifié | Diffusion | Diffusion | Aurora (autoregressif) |
| Édition conversationnelle | Oui — multi-tours | Non | Non | Non |
| Résolution maximale | Haute résolution | 1080p | 1080p | 720p |
| Durée maximale | 10s (limite de déploiement) | 8s (extensible) | 20s | 15s |
| Audio natif | Oui — passage unique | Oui | Oui | Oui |
| Modes d'entrée | Texte, image, audio, vidéo | Texte, image (jusqu'à 3) | Texte, image + Cameos | Texte, 1 image |
| Modèles | Oui | Non | Non | Non |
| Provenance | SynthID + C2PA | SynthID | C2PA | — |
| Disponibilité | App Gemini, Flow, YouTube | Disponible | Disponible | Disponible |
Ce que vous pouvez créer avec Gemini Omni Flash
Édition vidéo conversationnelle
Oubliez l'éditeur de timeline — décrivez la modification souhaitée en langage naturel et Gemini Omni Flash l'applique directement. Déplacez les angles de caméra, remplacez des objets, changez les arrière-plans ou réécrivez une action entière avec un seul prompt.
Contenu social basé sur des modèles
Choisissez un modèle intégré, saisissez votre prompt et obtenez un clip de 10 secondes entièrement composé avec audio synchronisé — conçu pour YouTube Shorts, Reels et les formats TikTok sans expérience en production requise.
Création de scènes de dialogue
Générez des scènes de conversation réalistes avec synchronisation labiale précise et audio ambiant en un seul passage — idéal pour des scripts marketing, du contenu éducatif ou des dialogues de courts-métrages.
Génération par empilement de références
Combinez une image de personnage, un fichier audio et une référence de style dans un seul prompt pour générer des personnages cohérents correspondant à un look, une voix et une esthétique spécifiques à travers les clips.
Storyboarding de scènes
Visualisez rapidement les temps forts d'un script sous forme de courts clips avec audio natif. Utilisez le chat multi-tours pour ajuster le cadrage, remplacer des objets ou réécrire des actions entre les plans sans régénérer depuis le début.
Production vidéo de marque
Utilisez des modèles pour créer rapidement des vidéos de marque, puis affinez avec l'édition conversationnelle — remplacez des visuels produit, changez les arrière-plans ou ajustez le ton visuel pour correspondre à votre marque.
Explorer les générateurs vidéo IA associés

Veo 3.1
Modèle vidéo 1080p de Google DeepMind avec conversion d'images en vidéo et génération audio native.

Sora 2
Générateur vidéo cinématographique d'OpenAI avec mouvement physiquement précis et durée de 20 secondes.

Grok Imagine
Modèle vidéo moteur Aurora de xAI avec modes Fun/Normal/Spicy et audio natif.
Happy Horse 1.0
Modèle vidéo le mieux noté d'Alibaba avec qualité de mouvement cinématographique et synchronisation labiale en 7 langues.

Seedance 2.0
Modèle vidéo de ByteDance avec intégration de recherche web et audio synchronisé.
Kling 3.0
Vidéo 4K de qualité réalisateur avec cinématographie IA multi-plans et audio natif.
Questions fréquentes sur Gemini Omni Flash
Qu'est-ce que Gemini Omni Flash ?
Gemini Omni Flash est le nouveau modèle de génération vidéo unifié de Google DeepMind, annoncé et lancé à Google I/O 2026 le 19 mai 2026. C'est le premier modèle disponible de la famille Gemini Omni — construit sur une architecture omni unique basée sur un transformeur qui gère nativement les entrées texte, image, audio et vidéo, et produit de la vidéo haute résolution avec audio synchronisé en un seul passage. Les fonctionnalités phares incluent l'édition conversationnelle multi-tours, une meilleure compréhension de la physique et l'empilement de références.
En quoi Gemini Omni Flash diffère-t-il de Veo 3.1 ?
Veo 3.1 est un modèle de diffusion vidéo dédié axé uniquement sur le texte-vers-vidéo et l'image-vers-vidéo. Gemini Omni Flash repose sur une architecture omni unifiée basée sur un transformeur — un seul modèle gérant texte, image, audio et vidéo en un seul passage, similaire dans le concept à GPT-4o — et il lie la génération vidéo au raisonnement de Gemini. Cela permet l'édition conversationnelle multi-tours, l'empilement de références et la création par modèles que Veo 3.1 ne propose pas. Veo 3.1 offre actuellement des clips plus longs et un contrôle plus riche des entrées multi-images.
Qu'est-ce que l'édition conversationnelle dans Gemini Omni Flash ?
Une fois que vous avez un clip, vous décrivez les modifications en langage naturel — « décaler l'angle de caméra vers la gauche », « faire la sculpture en bulles », « remplacer la tasse rouge par un mug à café » ou « réécrire cette scène pour que le personnage soit en extérieur » — et Gemini Omni Flash retravaille l'élément ciblé en laissant le reste intact. Les modifications multi-tours s'appuient sur le contexte précédent pour que vous puissiez itérer sans recommencer. L'édition audio des vidéos existantes est délibérément absente au lancement.
Gemini Omni Flash génère-t-il un audio synchronisé ?
Oui. Gemini Omni Flash produit un audio synchronisé natif — dialogue avec synchronisation labiale, effets sonores synchronisés avec l'action à l'écran et ambiance sonore — en un seul passage aux côtés de la vidéo, sans étape TTS ou Foley séparée. Toutes les sorties générées sont automatiquement marquées d'un filigrane SynthID et de C2PA Content Credentials.
Quand Gemini Omni Flash sera-t-il disponible sur LoveGen AI ?
Gemini Omni Flash a été lancé le 19 mai 2026 dans l'application Gemini, Google Flow, YouTube Shorts Remix et l'application YouTube Create. L'accès public aux API pour développeurs et entreprises via Vertex AI est en cours de déploiement dans les semaines suivant Google I/O 2026. LoveGen AI intégrera Gemini Omni Flash dès que cette API sera publiquement disponible.
Quels modèles vidéo Gemini Omni Flash inclut-il ?
Gemini Omni Flash est livré avec une création vidéo basée sur des modèles, appliquée en un seul clic dans l'application Gemini et Google Flow. Les modèles gèrent la composition, le rythme et l'audio pour une génération rapide, et un flux de création d'avatar IA personnalisé est également disponible. Le catalogue de modèles actuel se trouve dans l'application Gemini et les surfaces produit Flow.
