Multimodal references to video
Gemini Omni Flash é um modelo multimodal de geração de vídeo que reúne diferentes tipos de entrada criativa para produzir vídeos completos com som. Em vez de trabalhar a partir de uma única fonte, ele aceita texto, imagens, áudio e vídeo simultaneamente, usando cada uma dessas referências para moldar o tema, o movimento, o estilo visual e até mesmo o áudio do resultado final. Isso o torna uma ferramenta versátil para criadores que desejam combinar seus próprios ativos — uma ilustração de personagem, uma foto, um clipe de referência ou um som — e deixar o modelo transformar tudo em uma imagem animada coesa.
No seu núcleo, o modelo trabalha a partir de uma descrição escrita combinada com uma ou mais imagens de referência. Você descreve a cena, a ação ou o clima desejado — por exemplo, "Um gato brincando com um novelo de lã em uma sala ensolarada" — e fornece as imagens que deseja incorporar. O modelo então gera um vídeo que reflete tanto as suas palavras quanto as referências visuais enviadas. É possível incluir até dez imagens de referência em uma única geração, dando muita liberdade para direcionar a aparência e o conteúdo do vídeo. O modelo também permite vincular imagens específicas a papéis determinados diretamente no prompt, permitindo precisão sobre qual imagem influencia cada elemento da cena. Isso dá ao criador um controle apurado sobre como personagens, objetos e cenários das referências irão aparecer no vídeo final.
Como o Gemini Omni Flash compreende texto, imagens, áudio e vídeo como entrada e produz vídeo com som como saída, ele é ideal para uma ampla variedade de tarefas criativas. O modelo é indicado para transformação estilizada e trabalho de sincronização labial, ou seja, ele pode reinterpretar as referências em estilos visuais únicos e alinhar áudio falado ou cantado com o movimento da boca na tela. Cineastas e animadores podem utilizá-lo para dar vida a personagens estáticos com diálogo sincronizado; músicos e criadores de conteúdo podem parear áudio com imagens para criar clipes de performance; designers e ilustradores podem transformar suas artes em pequenas animações, e criadores de redes sociais podem transformar ideias rapidamente em vídeos compartilháveis.
O modelo oferece controles criativos simples para personalizar cada geração. É possível escolher a proporção do vídeo, selecionando entre o formato widescreen 16:9 para histórias em paisagem, cenas cinematográficas e visualização em desktop, ou o formato vertical 9:16 ideal para plataformas mobile-first e conteúdo social de curta duração. Também é possível definir o tempo do vídeo, indo de três a dez segundos, com oito segundos como padrão. Esta faixa é ideal para loops rápidos, clipes para redes sociais, teasers e outros vídeos breves onde o momento é mais importante que o tempo de duração.
Uma das principais qualidades do Gemini Omni Flash é a geração de áudio junto com a imagem. Muitos geradores de vídeo produzem apenas imagens estáticas, mas este modelo cria vídeos já com som integrado, usando o áudio e demais referências fornecidas para guiar o resultado sonoro. Com a sincronização labial, ele se torna especialmente útil para conteúdos de personagens falando, cenas de diálogo ou qualquer projeto onde som e movimento precisam estar conectados. O resultado é um clipe mais completo e pronto para uso, exigindo menos trabalho de áudio separado depois.
O modelo entrega vídeos de até 720p, garantindo uma imagem limpa e de alta qualidade, adequada para redes sociais, apresentações e projetos criativos. O vídeo final é entregue como um arquivo para download, pronto para usar na sua edição ou compartilhar direto.
Quem mais se beneficia do Gemini Omni Flash? Artistas e ilustradores que desejam ver suas criações estáticas ganharem movimento e voz, ou animadores que querem prototipar cenas rapidamente a partir de arte de referência. Cineastas e criadores de vídeo podem usá-lo para takes estilizados, momentos de personagem e pequenas sequências narrativas. Músicos e criadores de áudio podem combinar som e visual com precisão, enquanto profissionais de marketing ou social media geram clipes cativantes tanto em horizontal quanto vertical. Como aceita vários tipos de entrada ao mesmo tempo, é perfeito para criadores que já têm uma biblioteca de imagens, sons ou clipes de referência e querem combinar tudo em algo novo.
Para obter os melhores resultados, escreva prompts claros e descritivos, indicando o tema, a ação, o cenário e o clima desejados. Imagens de referência bem escolhidas ajudam o modelo a entregar resultados superiores, e usar a possibilidade de atrelar imagens a funções específicas no prompt permite direcionar diretamente como cada referência contribui para o resultado. Como as gerações são curtas — até dez segundos —, é melhor focar cada vídeo em um momento, ação ou ideia específica, e não tentar criar sequências longas. Escolher desde o início o formato ideal para a plataforma onde vai publicar também economiza tempo, já que 9:16 é ideal para feeds verticais e 16:9 para visualização widescreen.
Como qualquer ferramenta de vídeo curto, há pontos importantes a considerar. O modelo produz clipes entre três e dez segundos, ideal para momentos concisos e impactantes em vez de narrativas longas. A resolução de saída é até 720p, adequada para compartilhamento online e projetos criativos. Os dois formatos disponíveis cobrem as necessidades mais comuns em horizontal ou vertical, então vale planejar a composição do vídeo já pensando nisso. No geral, o Gemini Omni Flash oferece uma abordagem multimodal e flexível para criação de vídeos curtos, permitindo unir palavras, imagens, som e clipes em vídeos polidos com áudio sincronizado — uma alternativa poderosa para quem quer transformar referências em conteúdo animado e sonoro.
Add the image that you want change
Adicione uma imagem opcional para orientar o visual, o personagem ou o ambiente
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Digite um prompt - o modelo compreende a física, a iluminação e a intenção emocional da sua cena
Clique para gerar o resultado final e baixe um vídeo com qualidade de produção
Demonstra animação de paisagem cinematográfica com movimentos atmosféricos e som ambiente de natureza para narrativas em formato amplo.
Apresenta animação premium de produto, combinando imagens de referência com iluminação e som dinâmicos para reels comerciais de luxo.
“Animate as a smooth 360-degree rotation on an invisible turntable. Rotate slowly and continuously, taking 6 seconds for full rotation. Light reflections should shift naturally across the metal case and crystal. Maintain consistent dramatic lighting throughout rotation. Add subtle sparkle on diamond indices as they catch light. Keep the background static and dark. Professional product video quality.”

Mude para a síntese guiada por raciocínio hoje mesmo