Google DeepMind

Google DeepMind

Gemini Omni

Demnächst

Öffentliche API wird in den Wochen nach Google I/O 2026 ausgerollt

Gemini Omni Flash wurde am 19. Mai 2026 gestartet. LoveGen AI wird es integrieren, sobald die öffentliche Vertex AI API verfügbar ist.

Gemini Omni Flash KI-Videogenerator

KI-Videos mit Googles einheitlichem Omni-Modell erstellen und bearbeiten

Gemini Omni Flash ist Google DeepMinds neues einheitliches Videogenerierungsmodell, angekündigt und gestartet auf Google I/O 2026 am 19. Mai 2026. Im Gegensatz zu den dedizierten Veo-Modellen basiert Gemini Omni Flash auf einer einzigen Transformer-basierten Omni-Architektur, die nativ Text-, Bild-, Audio- und Videoeingaben akzeptiert und in einem einzigen Durchgang hochauflösende Videos mit synchronisierter Audio erzeugt. Es unterstützt konversationsbasierte Mehrrunden-Bearbeitung — Kamerawinkel ändern, Objekte austauschen, Szenen umschreiben oder Hintergründe mithilfe von Alltagssprache anpassen.

Gemini Omni wurde auf Google I/O 2026 vorgestellt, wobei die erste Auslieferungsvariante — Gemini Omni Flash — noch am selben Tag (19. Mai 2026) ausgerollt wurde. Google beschreibt es als ein Modell, das aus jeder Eingabe alles erschaffen kann, beginnend mit Video, das Geminis Reasoning mit generativen Medien für ein besseres Weltverständnis, Multimodalität und Bearbeitung verbindet.

Zum Launch erzeugt Gemini Omni Flash 10-Sekunden-Hochauflösungsclips mit nativer synchronisierter Audio — Dialoge mit Lippensynchronisation, auf Bildschirmaktionen abgestimmte Soundeffekte und Umgebungsgeräusche — alles in einem einzigen Vorwärtsdurchgang generiert. Google hat bestätigt, dass die 10-Sekunden-Grenze eine Deployment-Entscheidung und keine Modellbeschränkung ist. Verbessertes Verständnis von Physik, einschließlich Schwerkraft, kinetischer Energie und Fluiddynamik, ermöglicht realistischere Bewegungen.

Die herausragende Auslieferungsfunktion ist die konversationsbasierte Mehrrunden-Bearbeitung. Sobald Sie einen Clip haben, beschreiben Sie Änderungen in Alltagssprache — „Kamerawinkel nach links verschieben“, „die Skulptur aus Blasen machen“, „wenn die Person den Spiegel berührt, soll er wie Flüssigkeit kräuseln“ — und Omni überarbeitet das Zielelement, während der Rest unverändert bleibt. Referenz-Stacking ermöglicht es, ein Charakterbild, eine Audiodatei und eine Stilreferenz in einem einzigen Prompt zu kombinieren, und vorlagenbasierte Erstellung mit Einzel-Klick-Anwendung ist in der Gemini-App und Google Flow integriert.

Gemini Omni Flash wird weltweit an Google AI Plus-, Pro- und Ultra-Abonnenten über die Gemini-App und Google Flow ausgerollt, und kostenlos für Nutzer ab 18 Jahren in YouTube Shorts Remix und der YouTube Create App. Jedes generierte Video trägt ein unsichtbares SynthID-Wasserzeichen sowie C2PA Content Credentials. Der öffentliche Entwickler- und Enterprise-API-Zugang über Vertex AI wird in den Wochen nach I/O ausgerollt; LoveGen AI wird Gemini Omni Flash integrieren, sobald diese API öffentlich verfügbar ist.

Wie man Gemini Omni Flash verwendet

01

Schritt 1: Erstellungsmodus wählen

Aus einem Text-Prompt generieren, ein Bild animieren, mehrere Referenzen (Bild, Audio, Stil) kombinieren oder eine integrierte Vorlage für die Einzel-Klick-Erstellung auswählen.

02

Schritt 2: Video oder Bearbeitung beschreiben

Schreiben Sie einen detaillierten Prompt oder beschreiben Sie eine Bearbeitung in Alltagssprache — Gemini Omni Flash versteht Kamerabewegungen, Objekttausch, Hintergrundwechsel und Stilverschiebungen per Chat.

03

Schritt 3: Generieren und verfeinern

Klicken Sie auf Generieren. Gemini Omni Flash liefert einen 10-Sekunden-Hochauflösungsclip mit nativer synchronisierter Audio. Verwenden Sie den Mehrrunden-Chat, um bestimmte Elemente zu verfeinern, ohne von vorne zu beginnen.

Gemini Omni Flash Technische Spezifikationen

AnbieterGoogle DeepMind
Veröffentlichungsdatum19. Mai 2026 (Google I/O 2026)
VarianteGemini Omni Flash (erstes Auslieferungsmodell der Omni-Familie)
ArchitekturEinheitliches Transformer-basiertes Omni-Modell (Text + Bild + Audio + Video → Video + Audio Ausgabe)
EingabemodiText, Bild, Audio, Video — einschließlich Multi-Referenz-Stacking
AusgabeHochauflösendes Video mit nativer synchronisierter Audio
Maximale Dauer10 Sekunden pro Clip (Deployment-Grenze, keine Modellbeschränkung)
Native AudioDialog (Lippensync), Soundeffekte, Umgebungsaudio — in einem einzigen Durchgang generiert
BearbeitungKonversationsbasierte Mehrrunden-Bearbeitung — Kamera, Hintergründe, Objekte, Aktionen, Stil
PhysikVerbesserte Schwerkraft, kinetische Energie und Fluiddynamik
HerkunftsnachweisSynthID-Wasserzeichen + C2PA Content Credentials (obligatorisch)
VerfügbarkeitGemini-App & Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix & Create App (kostenlos, 18+)
API-ZugangÖffentliche Vertex AI API wird in den Wochen nach I/O 2026 ausgerollt

Warum Gemini Omni Flash heraussticht

Einheitliche Omni-Modell-Architektur

Gemini Omni Flash ist Googles erstes Auslieferungs-Videomodell auf Basis einer einheitlichen Transformer-basierten Omni-Architektur — ein Modell verarbeitet Text, Bild, Audio und Video in einem einzigen Durchgang und beseitigt die Nahtlösungen zwischen Modalitäten, die Separate-Pipeline-Systeme hinterlassen. Referenz-Stacking ermöglicht es, ein Charakterbild, eine Audiodatei und eine Stilreferenz in einem einzigen Prompt zu kombinieren.

Konversationsbasierte Mehrrunden-Bearbeitung

Beschreiben Sie Änderungen in Alltagssprache und Gemini Omni Flash wendet sie direkt an — Kamera verschieben, Objekt austauschen, Szene umschreiben oder Hintergrund wechseln — während der Rest des Clips unverändert bleibt. Mehrrunden-Bearbeitungen bauen auf dem vorherigen Kontext auf, sodass Sie iterieren können, ohne von vorne zu beginnen.

Native synchronisierte Audio + verbesserte Physik

Dialog mit Lippensync, auf Bildschirmaktionen abgestimmte Soundeffekte und Umgebungsaudio werden gemeinsam mit dem Video in einem einzigen Vorwärtsdurchgang erzeugt — kein separater TTS- oder Foley-Schritt. Verbessertes Verständnis von Schwerkraft, kinetischer Energie und Fluiddynamik liefert realistischere Bewegungen, und jede Ausgabe trägt SynthID- und C2PA-Herkunftsnachweise.

Gemini Omni Flash vs. andere KI-Videogeneratoren

FeatureGemini Omni FlashVeo 3.1Sora 2Grok Imagine
AnbieterGoogle DeepMindGoogle DeepMindOpenAIxAI
ArchitekturEinheitliches Transformer-Omni-ModellDiffusionDiffusionAurora (autoregressiv)
Konversationsbasierte BearbeitungJa — MehrrundenNeinNeinNein
Maximale AuflösungHochauflösend1080p1080p720p
Maximale Dauer10s (Deployment-Grenze)8s (erweiterbar)20s15s
Native AudioJa — einmaliger DurchgangJaJaJa
EingabemodiText, Bild, Audio, VideoText, Bild (bis zu 3)Text, Bild + CameosText, 1 Bild
VorlagenJaNeinNeinNein
HerkunftsnachweisSynthID + C2PASynthIDC2PA
VerfügbarkeitGemini-App, Flow, YouTubeVerfügbarVerfügbarVerfügbar

Was Sie mit Gemini Omni Flash erstellen können

01

Konversationsbasierte Videobearbeitung

Überspringen Sie den Timeline-Editor vollständig — beschreiben Sie die gewünschte Änderung in Alltagssprache und Gemini Omni Flash wendet sie direkt an. Kamerawinkel verschieben, Objekte austauschen, Hintergründe wechseln oder eine gesamte Aktion mit einem einzigen Prompt umschreiben.

02

Vorlagengesteuerter Social-Content

Wählen Sie eine integrierte Vorlage, geben Sie einen Prompt ein und erhalten Sie einen vollständig komponierten 10-Sekunden-Clip mit synchronisierter Audio — geeignet für YouTube Shorts, Reels und TikTok-Formate ohne Produktionserfahrung.

03

Erstellung von Dialogszenen

Generieren Sie realistische Gesprächsszenen mit präziser Lippensynchronisation und Umgebungsaudio in einem einzigen Durchgang — ideal für Marketingskripte, Bildungsinhalte oder Kurzfilm-Dialoge.

04

Referenz-gestützte Generierung

Kombinieren Sie ein Charakterbild, eine Audiodatei und eine Stilreferenz in einem einzigen Prompt, um konsistente Charaktere zu generieren, die über Clips hinweg einem bestimmten Look, einer Stimme und einer Ästhetik entsprechen.

05

Szenen-Storyboarding

Visualisieren Sie Skriptszenen schnell als kurze Clips mit nativer Audio. Verwenden Sie den Mehrrunden-Chat, um Bildausschnitt anzupassen, Objekte auszutauschen oder Aktionen über Shots hinweg umzuschreiben, ohne von Grund auf neu zu generieren.

06

Marken-Videoproduktion

Verwenden Sie Vorlagen für schnelle Markenvideoerstellung und verfeinern Sie dann mit konversationsbasierter Bearbeitung — Produktaufnahmen austauschen, Hintergründe wechseln oder den visuellen Ton an Ihre Marke anpassen.

Verwandte KI-Videogeneratoren entdecken

Häufig gestellte Fragen zu Gemini Omni Flash

Was ist Gemini Omni Flash?

Gemini Omni Flash ist Google DeepMinds neues einheitliches Videogenerierungsmodell, angekündigt und gestartet auf Google I/O 2026 am 19. Mai 2026. Es ist das erste Auslieferungsmodell der Gemini Omni-Familie — basierend auf einer einzigen Transformer-basierten Omni-Architektur, die nativ Text, Bild, Audio und Video verarbeitet und in einem einzigen Durchgang hochauflösende Videos mit synchronisierter Audio erzeugt. Zu den Hauptfunktionen gehören konversationsbasierte Mehrrunden-Bearbeitung, verbessertes Physikverständnis und Referenz-Stacking.

Wie unterscheidet sich Gemini Omni Flash von Veo 3.1?

Veo 3.1 ist ein dediziertes Video-Diffusionsmodell, das ausschließlich auf Text- und Bild-zu-Video fokussiert ist. Gemini Omni Flash basiert auf einer einheitlichen Transformer-basierten Omni-Architektur — ein Modell verarbeitet Text, Bild, Audio und Video in einem einzigen Durchgang, ähnlich im Konzept wie GPT-4o — und verbindet Videogenerierung mit Geminis Reasoning. Das ermöglicht konversationsbasierte Mehrrunden-Bearbeitung, Referenz-Stacking und vorlagenbasierte Erstellung, die Veo 3.1 nicht bietet. Veo 3.1 bietet derzeit längere Clips und reichhaltigere Multi-Bild-Eingabesteuerung.

Was ist konversationsbasierte Bearbeitung in Gemini Omni Flash?

Sobald Sie einen Clip haben, beschreiben Sie Änderungen in Alltagssprache — „Kamerawinkel nach links verschieben“, „die Skulptur aus Blasen machen“, „roten Becher gegen Kaffeebecher austauschen“ oder „diese Szene umschreiben, sodass der Charakter draußen ist“ — und Gemini Omni Flash überarbeitet das Zielelement, während der Rest des Clips unverändert bleibt. Mehrrunden-Bearbeitungen bauen auf dem vorherigen Kontext auf, sodass Sie iterieren können, ohne neu zu starten. Die Audiobearbeitung bestehender Videos ist beim Launch bewusst nicht enthalten.

Erzeugt Gemini Omni Flash synchronisierte Audio?

Ja. Gemini Omni Flash erzeugt native synchronisierte Audio — Dialoge mit Lippensynchronisation, auf Bildschirmaktionen abgestimmte Soundeffekte und Umgebungsgeräusche — in einem einzigen Vorwärtsdurchgang zusammen mit dem Video, ohne separaten TTS- oder Foley-Schritt. Alle generierten Ausgaben werden automatisch mit einem SynthID-Wasserzeichen und C2PA Content Credentials versehen.

Wann wird Gemini Omni Flash auf LoveGen AI verfügbar sein?

Gemini Omni Flash wurde am 19. Mai 2026 in der Gemini-App, Google Flow, YouTube Shorts Remix und der YouTube Create App gestartet. Der öffentliche Entwickler- und Enterprise-API-Zugang über Vertex AI wird in den Wochen nach Google I/O 2026 ausgerollt. LoveGen AI wird Gemini Omni Flash integrieren, sobald diese API öffentlich verfügbar ist.

Welche Videovorlagen enthält Gemini Omni Flash?

Gemini Omni Flash wird mit vorlagenbasierter Videoerstellung geliefert, die mit einem einzigen Klick in der Gemini-App und Google Flow angewendet wird. Vorlagen übernehmen Komposition, Tempo und Audio für schnelle Generierung, und ein benutzerdefinierter KI-Avatar-Erstellungsablauf ist ebenfalls verfügbar. Der aktuelle Vorlagenkatalog befindet sich in der Gemini-App und den Flow-Produktoberflächen.