La familia de modelos de IA de video Veo de Google ha evolucionado rápidamente: desde Veo 1 en mayo de 2024 hasta el actual Veo 3.1, que ya ofrece video nativo en 4K a 60 fps con audio sincronizado. Ahora, todas las miradas están puestas en Veo 4, el esperado modelo de próxima generación que, según las previsiones generales, debutará en el Google I/O 2026 entre el 19 y el 20 de mayo.
Veo 4 aún no ha sido anunciado oficialmente por Google. Sin embargo, basándonos en filtraciones, solicitudes de patentes y fuentes fiables de la industria, tenemos una idea bastante clara de lo que podemos esperar. Esta guía cubre las características que se rumorean, cómo Veo 4 desarrolla lo que Veo 3.1 ya ofrece, y cómo podría compararse con competidores como Runway Gen-4.5 y Kling 3.0.
Lo que sabemos sobre Veo 4 hasta ahora
Se espera que Veo 4 sea la cuarta generación de la familia de modelos de IA de texto a video Veo de Google DeepMind. Aunque Google no ha confirmado ninguna especificación, múltiples fuentes fidedignas apuntan a varias capacidades muy probables.
Especificaciones esperadas según filtraciones y análisis de la industria:
- Duración: Hasta 30 segundos por clip (un aumento respecto a los ~15 segundos de Veo 3.1), con encadenamiento de guiones gráficos (storyboards) para narrativas más largas.
- Resolución: 4K nativo (continuando con el soporte 4K de Veo 3.1).
- Storyboarding (Guion gráfico): Planificación nativa de múltiples escenas manteniendo la consistencia de los personajes a lo largo de las tomas.
- Anclaje de personajes: Mejora significativa en la consistencia de rostros y ropa durante los movimientos y cambios de ángulo.
- Audio: Voz sincronizada, sonido ambiental y diseño de sonido mejorados (basándose en el audio nativo de Veo 3).
- Avatares zero-shot: Generación de video de una persona a partir de una sola foto de referencia, sin necesidad de entrenamiento adicional (fine-tuning).
- Artefactos: Reducción estimada del 70% en los artefactos o defectos comunes de los videos generados por IA.
- Parámetros: Se rumorea que tendrá el triple de parámetros que Veo 3.
Importante: Ninguna de estas características ha sido confirmada por Google. Este artículo se actualizará una vez que se anuncien los detalles oficiales.
La situación actual de Veo 3.1
Para entender lo que podría aportar Veo 4, es útil saber en qué destaca ya el modelo actual, Veo 3.1. Veo 3.1 está disponible ahora en LoveGen AI y a través de las plataformas de Google.
Capacidades de Veo 3.1 (confirmadas):
- Resolución 4K real (3840x2160) a un máximo de 60 fps: el primer modelo de video de IA generalista con 4K nativo.
- Video vertical 9:16 nativo para TikTok y YouTube Shorts.
- Generación de audio sincronizado, incluyendo diálogos, sonido ambiental y efectos.
- "Ingredients to Video" (Ingredientes a video): permite usar hasta 4 imágenes de referencia para mantener la consistencia del personaje.
- Extensión de escenas para videos de más de 1 minuto de duración.
- Disponible a través de Google Flow, Gemini, YouTube Shorts y vía API en Vertex AI.
- Acceso gratuito mediante Google Vids (hasta 12 videos al día).
Si deseas empezar a crear videos con IA ahora mismo, puedes probar Veo 3.1 en LoveGen AI sin tener que esperar a Veo 4.
Nuevas funciones esperadas en Veo 4
Según las filtraciones, estas son las características con mayor probabilidad de definir a Veo 4:
Storyboarding nativo
Esta es la capacidad nueva más esperada. Los modelos de video de IA actuales generan clips aislados. Se espera que Veo 4 te permita definir secuencias de escenas con diferentes prompts, ángulos de cámara y acciones, todo mientras el modelo mantiene la consistencia visual y de los personajes a lo largo de todas las escenas.
Para cineastas y anunciantes, esto podría eliminar el mayor cuello de botella en el video con IA: unir clips aislados que no encajan entre sí.
Clips de 30 segundos de duración
Veo 3 generaba clips de 8 segundos. Veo 3.1 amplió esto a aproximadamente 15 segundos gracias a su soporte para extender escenas. Se espera que Veo 4 lleve la generación nativa a 30 segundos, suficiente para un anuncio completo en redes sociales o una escena narrativa en una sola generación.
Anclaje avanzado de personajes
Lograr que los rostros, la ropa y los rasgos físicos se mantengan consistentes a través del movimiento y los cambios de ángulo ha sido uno de los problemas más difíciles en la IA de video. La función "Ingredients to Video" de Veo 3.1 abordó esto mediante imágenes de referencia, pero se rumorea que Veo 4 lo manejará de forma nativa a través de una arquitectura de modelo mejorada, sin necesidad de imágenes de referencia.
Avatares de video Zero-Shot
Se dice que, con solo subir una foto de un rostro, Veo 4 generará un video de esa persona hablando, moviéndose y expresando emociones. A diferencia de los enfoques actuales que requieren fine-tuning o entrenamiento LoRA, esto funcionaría a partir de una sola imagen en un solo intento (zero-shot).
Audio y sincronización labial mejorados
Veo 3 introdujo la generación de audio nativo, una característica que ningún competidor igualaba en ese momento. Se espera que Veo 4 mejore esto con un habla más expresiva, mejor sincronización de labios (lip sync) en varios idiomas y un diseño de sonido en capas que fluya de manera natural a través de los cortes de escena.
La evolución de Veo: De Veo 1 a Veo 4
| Versión | Lanzamiento | Duración Máx. | Resolución | Audio | Característica Clave |
|---|---|---|---|---|---|
| Veo 1 | Mayo de 2024 | ~4 seg | 1080p | No | Primer modelo Veo |
| Veo 2 | Dic de 2024 | ~8 seg | 4K | No | Introducción del soporte 4K |
| Veo 3 | Mayo de 2025 | 8 seg | 1080p | Sí | Generación de audio nativo |
| Veo 3.1 | Oct de 2025 | 15+ seg | 4K a 60fps | Sí | 4K + vertical + ingredientes |
| Veo 4 (esperado) | ¿Mayo de 2026? | 30 seg | 4K | Mejorado | Storyboarding + avatares |
Cómo se compararía Veo 4 con sus competidores
El panorama de la generación de video por IA ha cambiado drásticamente a principios de 2026. Así es como se posicionarían las capacidades esperadas de Veo 4 frente a lo que hay disponible hoy en día:
| Característica | Veo 4 (esperado) | Runway Gen-4.5 | Kling 3.0 | Pika 2.5 |
|---|---|---|---|---|
| Duración máx. del clip | ~30 seg | 60 seg | 5 min | 10 seg |
| Resolución | 4K | 4K | 4K a 60fps | 1080p |
| Storyboarding | Nativo (esperado) | No disponible | Dirección multitoma (6 cortes) | No disponible |
| Generación de audio | Mejorada (esperado) | No disponible | Sincronización de audio nativa | Limitada |
| Consistencia del personaje | Excelente (esperado) | Buena (imágenes de ref.) | Buena (rastreo de 3 personas) | Aceptable |
| Precio inicial | Por determinar | $12/mes | ~$0.07/seg | $8/mes |
Runway Gen-4.5: El líder en flujos de trabajo profesionales
Runway lanzó Gen-4.5 en diciembre de 2025 junto con su Modelo Mundial General (GWM-1). Actualmente lidera en la duración de clips con 60 segundos y destaca en los flujos de trabajo de posproducción profesional: composición de video de IA sobre metraje existente y control preciso de la cámara y el movimiento. En febrero de 2026, Runway también comenzó a integrar modelos de terceros, incluido Kling 3.0, en su plataforma.
Kling 3.0: El mejor valor y los videos más largos
Kling 3.0, lanzado por Kuaishou en febrero de 2026, genera videos de hasta 5 minutos de duración, superando con creces a cualquier competidor. Ofrece 4K nativo a 60 fps, dirección multitoma con hasta 6 cortes de cámara, sincronización de audio nativa y puede rastrear hasta a 3 personas de forma independiente en la misma escena. Con un costo aproximado de $0.07/segundo, también es la opción más rentable para los creadores de alto volumen.
Pika 2.5: Prioridad en la velocidad para contenido social
Pika ocupa el nicho de la velocidad, generando clips de 5 a 10 segundos en solo 15 a 30 segundos. A $8/mes, es el punto de entrada más económico para los creadores que necesitan iterar rápidamente contenido social corto en lugar de calidad cinematográfica.
Dónde podría ganar Veo 4
Si las filtraciones resultan ser precisas, los diferenciadores de Veo 4 serían el storyboarding nativo (ningún competidor ofrece esto de forma nativa), los avatares zero-shot y la integración más profunda con el ecosistema de Google (Gemini, YouTube, Google Ads). Para los creadores que ya están en el flujo de trabajo de Google, Veo 4 podría convertirse en la opción predeterminada.
¿Qué está pasando con Sora?
Sora se está cerrando por fases por parte de OpenAI. La versión web se eliminó para los usuarios de EE. UU. el 13 de marzo de 2026. La aplicación Sora se suspenderá el 26 de abril de 2026 y el acceso a la API finalizará el 24 de septiembre de 2026.
El cierre fue impulsado por costos insostenibles (supuestamente alrededor de $1 millón de dólares diarios en computación), con una adopción de usuarios que alcanzó su punto máximo en alrededor de 1 millón antes de caer a menos de 500,000. El colapso de una asociación de $150 millones con Disney aceleró la decisión. OpenAI está reasignando recursos de GPU a sus productos de codificación y razonamiento, que son más rentables.
Para los creadores que dependían de Sora, las alternativas son Veo 3.1 (disponible ahora), Kling 3.0, Runway, o esperar a Veo 4. Puedes explorar todos los modelos de video de IA disponibles en LoveGen AI.
Precios actuales de Veo (Veo 3.1)
Los precios de Veo 4 no han sido anunciados. Esta es la estructura de precios actual de Veo 3.1, que es probable que Veo 4 siga o tome como base:
| Plan | Precio | Qué obtienes |
|---|---|---|
| Google Vids (Gratis) | $0 | Veo 3.1, hasta 12 videos/día |
| Google AI Pro | $19.99/mes | Acceso y límites mejorados |
| Google AI Ultra | $49.99/mes | Límites superiores + acceso prioritario |
| Google AI Studio API | Pago por uso | Acceso para desarrolladores |
| Vertex AI (Empresarial) | Pago por uso | Acceso empresarial respaldado por SLA |
| LoveGen AI | Ver planes | Acceso a Veo 3.1 + otros modelos de IA |
También puedes acceder a Veo 3.1 y a otros modelos de generación de video con IA a través de los planes de precios de LoveGen AI.
Limitaciones conocidas que debemos esperar
Incluso con las mejoras esperadas, es probable que ciertos desafíos de la generación de video con IA persistan en Veo 4:
Renderización de texto en fotogramas
El texto legible dentro del video (letreros, etiquetas, texto en pantalla) sigue siendo uno de los problemas más difíciles en todos los modelos de video de IA. Es de esperar que tengas que añadir superposiciones de texto en la posproducción.
Coreografías complejas con varias personas
Los movimientos intrincados como el breakdance, los gestos detallados de las manos o las coreografías grupales complejas todavía producen resultados poco naturales en toda la industria. Veo 4 puede mejorar esto, pero es poco probable que lo resuelva por completo.
Precisión del prompt
Los modelos de video de IA a veces interpretan los prompts de manera laxa. Las posiciones exactas de la cámara, las poses específicas de los personajes y las composiciones precisas de las escenas son difíciles de controlar de manera confiable, aunque el storyboarding podría ayudar a reducir esta brecha.
Tiempo de generación
La generación de video por IA sigue consumiendo muchos recursos computacionales. Si bien se esperan mejoras en la velocidad, la generación de video en tiempo real todavía está a años de distancia.
Cómo prepararse para Veo 4
Mientras esperas el anuncio oficial, aquí te mostramos cómo prepararte:
Empieza con Veo 3.1 ahora
La mejor manera de prepararse para Veo 4 es ganar experiencia con Veo 3.1. Las habilidades para redactar prompts, la comprensión de las fortalezas y limitaciones del video con IA y la integración en el flujo de trabajo se transfieren directamente. Pruébalo en LoveGen AI.
Aprende a crear prompts efectivos
Los prompts de video para IA se benefician de la especificidad. En lugar de "una mujer caminando por una ciudad", escribe: "Una mujer con una gabardina azul marino camina por una calle de Tokio empapada por la lluvia al anochecer. Los letreros de neón se reflejan en los charcos. La cámara la sigue a la altura de los ojos, con poca profundidad de campo".
Usa términos cinematográficos que los modelos entiendan: dolly in (acercamiento), plano de seguimiento (tracking shot), toma de grúa, cámara en mano, cambio de enfoque (rack focus) en primer plano. Define la iluminación de manera explícita: "contraluz de la hora dorada", "fluorescente cenital intenso", "tonos cálidos a la luz de las velas".
Explora otras herramientas de video con IA
El panorama es competitivo. Prueba diferentes modelos para entender sus puntos fuertes:
- Veo 3.1 para video 4K con audio integrado.
- Kling 3.0 para clips más largos y rentabilidad.
- Seedance 2 para efectos de movimiento creativos.
- Herramientas de imagen a video para convertir tus imágenes existentes en video.
Explora todas las opciones disponibles en nuestra página de Modelos de Video de IA.
Combina el video con imágenes de IA
El video generado por IA y la generación de imágenes por IA funcionan muy bien juntos. Genera primero imágenes de referencia de personajes con herramientas como Nano Banana Pro o Imagen 4, y luego úsalas como entradas (inputs) para la generación de video con "Ingredients to Video" en Veo 3.1. Este flujo de trabajo probablemente será aún más poderoso con Veo 4.
Explora todos los modelos de imágenes de IA para encontrar el que mejor se adapte a tus necesidades de imágenes de referencia.
A qué prestar atención en el Google I/O 2026
El Google I/O 2026 se llevará a cabo del 19 al 20 de mayo. Según los patrones pasados, espera ver:
- Anuncio oficial de Veo 4 con demostraciones de sus funciones y precios.
- Detalles de integración para Gemini, YouTube, Google Ads y Flow.
- Cronograma de disponibilidad de la API para desarrolladores en Vertex AI y AI Studio.
- Demostraciones comparativas posicionando a Veo 4 frente a la competencia.
Actualizaremos este artículo con información confirmada tan pronto como Google haga el anuncio oficial. Suscríbete al blog de LoveGen AI para recibir notificaciones.
