Google DeepMind

Gemini Omni

Скоро

Публичный API открывается в течение нескольких недель после Google I/O 2026

Gemini Omni Flash запущена 19 мая 2026 года. LoveGen AI добавит её, как только откроется публичный Vertex AI API.

Published May 12, 2026Updated May 12, 2026

AI-генератор видео Gemini Omni Flash

Создавайте и редактируйте AI-видео с единой omni-моделью Google

Gemini Omni Flash — новая единая модель генерации видео от Google DeepMind, объявленная и запущенная на Google I/O 2026 19 мая 2026 года. В отличие от специализированных моделей Veo, Gemini Omni Flash построена на единой трансформерной omni-архитектуре, которая нативно принимает текстовые, изображения, аудио и видеовходы и за один проход создаёт высококачественное видео с синхронизированным аудио. Поддерживается диалоговое многоходовое редактирование — меняйте угол камеры, заменяйте объекты, переписывайте сцены или изменяйте фоны с помощью обычных языковых запросов.

Gemini Omni была представлена на Google I/O 2026, а первый выпущенный вариант — Gemini Omni Flash — поступил в обращение в тот же день (19 мая 2026 года). Google описывает её как модель, способную создавать что угодно из любых входных данных, начиная с видео: в ней сочетаются рассуждения Gemini и генеративные медиа для более глубокого понимания мира, мультимодальности и редактирования.

При запуске Gemini Omni Flash создаёт 10-секундные высококачественные клипы с нативным синхронизированным аудио — диалоги с синхронизацией губ, звуковые эффекты, привязанные к происходящему на экране, и фоновый амбиентный звук — всё за один прямой проход. Google подтвердила, что ограничение в 10 секунд является решением при развёртывании, а не ограничением самой модели. Улучшенное понимание физики, включая гравитацию, кинетическую энергию и гидродинамику, обеспечивает более реалистичное движение.

Ключевая функция — диалоговое многоходовое редактирование. Имея клип, описывайте изменения обычным языком — «сдвинь камеру влево», «сделай скульптуру из пузырей», «когда человек касается зеркала, пусть оно рябит как жидкость» — и Omni переработает нужный элемент, оставив остальное нетронутым. Стекирование референсов позволяет объединить изображение персонажа, аудиофайл и референс стиля в одном промпте; создание на основе шаблонов с применением в один клик встроено в приложение Gemini и Google Flow.

Gemini Omni Flash поступает в глобальное распространение для подписчиков Google AI Plus, Pro и Ultra через приложение Gemini и Google Flow, а также бесплатно для пользователей от 18 лет в YouTube Shorts Remix и приложении YouTube Create. Каждое сгенерированное видео несёт невидимый водяной знак SynthID и метаданные C2PA Content Credentials. Публичный доступ для разработчиков и корпоративных клиентов через Vertex AI откроется в течение нескольких недель после I/O; LoveGen AI интегрирует Gemini Omni Flash, как только этот API станет общедоступным.

Как использовать Gemini Omni Flash

Шаг 1: Выберите режим создания

Генерируйте по текстовому промпту, анимируйте изображение, объединяйте несколько референсов (изображение, аудио, стиль) или выберите встроенный шаблон для создания в один клик.

Шаг 2: Опишите видео или правку

Напишите подробный промпт или опишите правку обычным языком — Gemini Omni Flash понимает движения камеры, замену объектов, изменение фонов и смену стиля через чат.

Шаг 3: Сгенерируйте и уточните

Нажмите «Сгенерировать». Gemini Omni Flash вернёт 10-секундный высококачественный клип с нативным синхронизированным аудио. Используйте многоходовой чат для уточнения отдельных элементов без перезапуска.

Технические характеристики Gemini Omni Flash

Разработчик	Google DeepMind
Дата релиза	19 мая 2026 года (Google I/O 2026)
Вариант	Gemini Omni Flash (первая выпущенная модель семейства Omni)
Архитектура	Единая трансформерная omni-модель (текст + изображение + аудио + видео → видео + аудио)
Режимы ввода	Текст, изображение, аудио, видео — включая стекирование нескольких референсов
Вывод	Высококачественное видео с нативным синхронизированным аудио
Макс. длительность	10 секунд на клип (ограничение при развёртывании, не модели)
Нативное аудио	Диалоги (синхронизация губ), SFX, амбиентный звук — за один проход
Редактирование	Диалоговое многоходовое — камера, фоны, объекты, действия, стиль
Физика	Улучшенные гравитация, кинетическая энергия и гидродинамика
Происхождение	Водяной знак SynthID + C2PA Content Credentials (обязательно)
Доступность	Приложение Gemini и Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix и приложение Create (бесплатно, 18+)
Доступ через API	Публичный API Vertex AI открывается в течение нескольких недель после I/O 2026

Почему Gemini Omni Flash выделяется

Единая omni-архитектура

Gemini Omni Flash — первая выпущенная Google видеомодель, построена на единой трансформерной omni-архитектуре: одна модель обрабатывает текст, изображение, аудио и видео за один проход, устраняя разрывы между модальностями, которые характерны для систем с раздельными конвейерами. Стекирование референсов позволяет объединить изображение персонажа, аудиофайл и референс стиля в одном промпте.

Диалоговое многоходовое редактирование

Описывайте изменения обычным языком — и Gemini Omni Flash применяет их напрямую: сдвигайте камеру, заменяйте объект, переписывайте сцену или меняйте фон, не затрагивая остальное. Многоходовые правки основываются на предыдущем контексте, поэтому можно итерировать без перезапуска.

Нативное синхронизированное аудио и улучшенная физика

Диалоги с синхронизацией губ, звуковые эффекты на экране и фоновый амбиентный звук создаются совместно с видео за один прямой проход — без отдельного этапа TTS или Foley. Улучшенное понимание гравитации, кинетической энергии и гидродинамики обеспечивает более реалистичное движение; каждый выход несёт атрибуцию SynthID и C2PA.

Gemini Omni Flash vs другие AI-генераторы видео

Feature	Gemini Omni Flash	Veo 3.1	Sora 2	Grok Imagine
Разработчик	Google DeepMind	Google DeepMind	OpenAI	xAI
Архитектура	Единая трансформерная omni-модель	Диффузионная	Диффузионная	Aurora (авторегрессивная)
Диалоговое редактирование	Да — многоходовое	Нет	Нет	Нет
Макс. разрешение	Высокое разрешение	1080p	1080p	720p
Макс. длительность	10 с (ограничение развёртывания)	8 с (расширяемо)	20 с	15 с
Нативное аудио	Да — за один проход	Да	Да	Да
Режимы ввода	Текст, изображение, аудио, видео	Текст, изображение (до 3)	Текст, изображение + Cameos	Текст, 1 изображение
Шаблоны	Да	Нет	Нет	Нет
Происхождение	SynthID + C2PA	SynthID	C2PA	—
Доступность	Gemini app, Flow, YouTube	Доступна	Доступна	Доступна

Что можно создать с Gemini Omni Flash

Диалоговое редактирование видео

Забудьте о редакторе таймлайна — опишите нужное изменение обычным языком и Gemini Omni Flash применит его напрямую. Меняйте углы камеры, заменяйте объекты, изменяйте фоны или переписывайте целые действия одним промптом.

Контент для соцсетей на основе шаблонов

Выберите встроенный шаблон, введите промпт и получите полностью скомпонованный 10-секундный клип с синхронизированным аудио — для форматов YouTube Shorts, Reels и TikTok без опыта в производстве.

Создание диалоговых сцен

Генерируйте реалистичные разговорные сцены с точной синхронизацией губ и амбиентным звуком за один проход — идеально для маркетинговых сценариев, образовательного контента или диалогов короткометражных фильмов.

Генерация со стекированием референсов

Объедините изображение персонажа, аудиофайл и референс стиля в одном промпте для создания последовательных персонажей, соответствующих заданному образу, голосу и эстетике в разных клипах.

Сторибординг сцен

Быстро визуализируйте биты сценария как короткие клипы с нативным аудио. Используйте многоходовое редактирование через чат для корректировки кадрирования, замены объектов или переписывания действий между планами без повторной генерации с нуля.

Производство брендового видео

Используйте шаблоны для быстрого создания брендового видео, затем уточняйте диалоговым редактированием — меняйте съёмки продукта, изменяйте фоны или корректируйте визуальный тон под бренд.

Другие AI-генераторы видео

Veo 3.1

Видеомодель Google DeepMind 1080p с генерацией по кадрам и нативным звуком.

Sora 2

Кинематографический видеогенератор OpenAI с физически точным движением и длительностью 20 секунд.

Grok Imagine

Видеомодель xAI на движке Aurora с режимами Fun/Normal/Spicy и нативным звуком.

Happy Horse 1.0

Видеомодель №1 с кинематографическим движением и синхронизацией губ на 7 языках.

Seedance 2.0

Видеомодель ByteDance с веб-поиском и синхронизированным аудио.

Kling 3.0

Режиссёрский 4K-видеоролик с мультиплановой AI-кинематографией и нативным звуком.

Часто задаваемые вопросы о Gemini Omni Flash

Что такое Gemini Omni Flash?

Gemini Omni Flash — новая единая модель генерации видео от Google DeepMind, объявленная и запущенная на Google I/O 2026 19 мая 2026 года. Это первая выпущенная модель семейства Gemini Omni — построена на единой трансформерной omni-архитектуре, которая нативно обрабатывает текстовые, графические, аудио и видеовходы и создаёт высококачественное видео с синхронизированным аудио за один проход. Ключевые функции: диалоговое многоходовое редактирование, улучшенное понимание физики и стекирование референсов.

Чем Gemini Omni Flash отличается от Veo 3.1?

Veo 3.1 — специализированная диффузионная видеомодель, ориентированная исключительно на генерацию видео из текста и изображений. Gemini Omni Flash построена на единой трансформерной omni-архитектуре — одна модель обрабатывает текст, изображение, аудио и видео за один проход, аналогично GPT-4o, — и связывает генерацию видео с рассуждениями Gemini. Это открывает диалоговое многоходовое редактирование, стекирование референсов и создание на основе шаблонов, которые недоступны в Veo 3.1. Veo 3.1 в настоящее время обеспечивает более длинные клипы и более широкий контроль над вводом нескольких изображений.

Что такое диалоговое редактирование в Gemini Omni Flash?

Имея клип, описывайте изменения обычным языком — «сдвинь камеру влево», «сделай скульптуру из пузырей», «замени красную кружку на кофейную» или «перепиши эту сцену так, чтобы персонаж был на улице» — и Gemini Omni Flash переработает нужный элемент, оставив остальное нетронутым. Многоходовые правки основываются на предыдущем контексте, так что вы можете итерировать без перезапуска. Редактирование аудио в существующих видео намеренно недоступно при запуске.

Генерирует ли Gemini Omni Flash синхронизированное аудио?

Да. Gemini Omni Flash создаёт нативное синхронизированное аудио — диалоги с синхронизацией губ, звуковые эффекты, привязанные к действиям на экране, и фоновый амбиентный звук — за один прямой проход вместе с видео, без отдельного этапа TTS или Foley. Все сгенерированные выходные данные автоматически помечаются водяным знаком SynthID и метаданными C2PA Content Credentials.

Когда Gemini Omni Flash появится на LoveGen AI?

Gemini Omni Flash запущена 19 мая 2026 года в приложении Gemini, Google Flow, YouTube Shorts Remix и приложении YouTube Create. Публичный доступ для разработчиков и корпоративных клиентов через Vertex AI открывается в течение нескольких недель после Google I/O 2026. LoveGen AI интегрирует Gemini Omni Flash, как только этот API станет общедоступным.

Какие видеошаблоны включает Gemini Omni Flash?

Gemini Omni Flash поставляется с созданием видео на основе шаблонов, применяемых одним кликом в приложении Gemini и Google Flow. Шаблоны управляют композицией, темпом и аудио для быстрой генерации; также доступен процесс создания персонального AI-аватара. Актуальный каталог шаблонов находится в приложении Gemini и в Google Flow.