Multimodal references to video
Gemini Omni Flash es un modelo multimodal de generación de vídeo que reúne varios tipos de entrada creativa para producir vídeos terminados con sonido incluido. En lugar de partir de una única fuente, acepta texto, imágenes, audio y vídeo conjuntamente, utilizando cada una de estas referencias para definir el sujeto, el movimiento, el estilo visual e incluso el audio del resultado final. Esto lo convierte en una herramienta versátil para creadores que desean combinar sus activos existentes — una ilustración de personaje, una foto, un clip de referencia o un sonido — y dejar que el modelo los integre en una imagen en movimiento coherente.
En su esencia, el modelo funciona a partir de una descripción escrita junto con una o más imágenes de referencia. Describes la escena, acción o ambiente que tienes en mente — por ejemplo, "Un gato jugando con una madeja de lana en un salón soleado" — y adjuntas las imágenes que quieres incorporar. El modelo genera un vídeo que refleja tanto tus palabras como tus referencias visuales. Puedes incluir hasta diez imágenes de referencia en una sola generación, lo que te da margen de sobra para guiar el aspecto y contenido de tu vídeo. El modelo también permite vincular imágenes de referencia concretas a roles específicos directamente en tu prompt, para precisar qué imagen influye en cada elemento de la escena. Esto ofrece a los creadores un control detallado sobre cómo aparecen personajes, objetos y escenarios de sus referencias en la pieza final.
Como Gemini Omni Flash comprende texto, imágenes, audio y vídeo como entradas y genera vídeo con audio como salida, es ideal para una amplia variedad de tareas creativas. El modelo está optimizado para transformaciones estilizadas y trabajo de lipsync, lo que significa que puede reinterpretar tus referencias en estilos visuales distintivos y sincronizar audio hablado o cantado con el movimiento de la boca en pantalla. Cineastas y animadores pueden utilizarlo para dar vida a personajes estáticos con diálogos coincidentes, mientras que músicos y creadores de contenido pueden asociar audio e imagen para crear clips al estilo de una actuación. Diseñadores e ilustradores pueden transformar sus obras en breves animaciones, y creadores para redes sociales pueden convertir rápidamente ideas en vídeos listos para compartir.
El modelo te da controles creativos sencillos para personalizar cada generación. Puedes elegir la relación de aspecto de tu vídeo: formato panorámico 16:9, ideal para narrativas en paisaje, escenas cinematográficas y visualización en escritorio; o formato vertical 9:16, ideal para plataformas móviles y contenido social de formato corto. También puedes ajustar la duración de tu vídeo, eligiendo cualquier valor entre tres y diez segundos, con un valor predeterminado de ocho segundos. Este rango es perfecto para bucles rápidos, clips sociales, teasers y otros vídeos cortos donde importa más un momento concreto que la duración.
Una de las cualidades destacadas de Gemini Omni Flash es que genera audio junto con la imagen. Muchas herramientas de vídeo producen material sin sonido, pero este modelo crea el vídeo con sonido en un solo proceso, aprovechando el audio o las referencias que aportas para guiar el resultado sonoro. Combinado con su capacidad de lipsync, esto lo hace especialmente valioso para contenido de personajes parlantes, escenas de diálogo y cualquier proyecto donde sonido y movimiento deben estar conectados. El resultado es un clip más completo, listo para usar, que requiere menos trabajo de audio adicional.
El modelo genera vídeo hasta 720p, ofreciendo una imagen clara y de alta calidad adecuada para redes sociales, presentaciones y proyectos creativos. El vídeo final se entrega como archivo descargable para que puedas llevarlo directamente a tu flujo de edición o compartirlo tal cual.
¿Quién saca más partido de Gemini Omni Flash? Artistas e ilustradores que quieren ver cómo sus creaciones estáticas se mueven y hablan, así como animadores que buscan prototipos rápidos a partir de arte de referencia. Cineastas y creadores de vídeo pueden usarlo para tomas estilizadas, momentos de personajes y breves piezas narrativas. Músicos y creadores de audio pueden combinar su sonido con imágenes adecuadas, y profesionales de marketing o gestores de redes sociales generan clips cortos impactantes tanto en formato horizontal como vertical. Al aceptar tantos tipos de entrada a la vez, premia a los creadores que ya tienen una biblioteca de imágenes, sonido o metraje de referencia y desean combinarlos en algo nuevo.
Para obtener los mejores resultados, ayuda escribir prompts claros y descriptivos que detallen el sujeto, la acción, el escenario y el ambiente deseados. Proporcionar imágenes de referencia de calidad da al modelo más con lo que trabajar, y vincular imágenes concretas a roles en tu prompt permite dirigir cómo contribuye cada referencia. Dado que las generaciones son breves — hasta diez segundos — es mejor centrarse en un solo momento, acción o idea por clip en lugar de intentar capturar una secuencia larga. Elegir la relación de aspecto adecuada desde el principio para tu plataforma de destino también te ahorrará tiempo, ya que 9:16 es ideal para feeds móviles verticales, mientras que 16:9 funciona mejor para visualización panorámica.
Como ocurre con cualquier herramienta de vídeo breve, hay algunas consideraciones que tener en cuenta. El modelo produce clips de entre tres y diez segundos, por lo que está diseñado para momentos concisos e impactantes, no para narrativas largas. La resolución máxima es 720p, perfectamente adecuada para compartir en línea y trabajo creativo. Los dos formatos de aspecto cubren las necesidades más comunes en horizontal y vertical, así que planifica la composición según el encuadre panorámico o vertical. En conjunto, Gemini Omni Flash ofrece un enfoque flexible y multimodal para la creación de vídeo corto, permitiéndote fusionar palabras, imágenes, sonido y metraje en vídeos pulidos con audio sincronizado — una opción potente para creadores que quieren transformar sus referencias en imágenes vivas y sonoras.
Add the image that you want change
Añade una imagen opcional para guiar el aspecto, el personaje o el entorno
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Escribe un prompt: el modelo entiende la física, la iluminación y la intención emocional de tu escena
Haz clic para generar tu resultado final y descargar un vídeo de calidad profesional
Demuestra la animación de paisajes cinematográficos con movimiento atmosférico y sonido ambiente generado para narrativas en formato panorámico.
Presenta animación de producto premium combinando imágenes de referencia con iluminación y sonido dinámicos para reels comerciales de lujo.
“Animate as a smooth 360-degree rotation on an invisible turntable. Rotate slowly and continuously, taking 6 seconds for full rotation. Light reflections should shift naturally across the metal case and crystal. Maintain consistent dramatic lighting throughout rotation. Add subtle sparkle on diamond indices as they catch light. Keep the background static and dark. Professional product video quality.”

Pásate hoy a la síntesis guiada por razonamiento