Multimodal references to video
O Gemini Omni Flash é um modelo multimodal de geração de vídeo que reúne vários tipos de input criativo para produzir vídeos completos com som. Em vez de trabalhar a partir de uma única fonte, aceita texto, imagens, áudio e vídeo em simultâneo, utilizando cada uma destas referências para moldar o tema, o movimento, o estilo visual e até o áudio do resultado final. Isto faz dele uma ferramenta versátil para criadores que pretendem combinar os seus ativos existentes — uma ilustração de personagem, uma fotografia, um clip de referência ou um som — e deixar o modelo interligá-los numa imagem em movimento coesa.
No seu núcleo, o modelo parte de uma descrição escrita acompanhada de uma ou mais imagens de referência. Descreva a cena, a ação ou o ambiente que pretende — por exemplo, "Um gato a brincar com um novelo de lã numa sala iluminada pelo sol" — e forneça as imagens que quer incorporar. O modelo gera depois um vídeo que reflete tanto as suas palavras como as suas referências visuais. Pode incluir até dez imagens de referência numa única geração, dando-lhe margem para direcionar o aspeto e conteúdo do vídeo. O modelo também permite atribuir imagens de referência específicas a papéis particulares diretamente no seu prompt, para que possa ser preciso quanto à influência de cada imagem em cada elemento da cena. Isto oferece aos criadores um controlo detalhado sobre a forma como personagens, objetos e ambientes das referências surgem no resultado final.
Como o Gemini Omni Flash compreende texto, imagens, áudio e vídeo como inputs e produz vídeo com áudio como output, é indicado para uma ampla gama de tarefas criativas. O modelo foi concebido para transformação estilizada e sincronização labial, conseguindo reinterpretar as suas referências em estilos visuais distintos e alinhar áudio falado ou cantado com o movimento dos lábios no ecrã. Realizadores e animadores podem utilizá-lo para dar vida a personagens estáticas com diálogos correspondentes, enquanto músicos e criadores de conteúdo podem combinar áudio e imagem para criar clips em formato de performance. Designers e ilustradores podem transformar as suas ilustrações em pequenas animações e criadores de redes sociais podem transformar rapidamente conceitos em vídeos partilháveis.
O modelo oferece controlos criativos diretos para personalizar cada geração. Pode escolher a proporção do vídeo, com o formato panorâmico 16:9, ideal para narrativa em paisagem, cenas cinematográficas e visualização em desktop, ou o formato vertical 9:16, perfeito para plataformas mobile-first e conteúdo social em formato curto. Também pode definir o tempo de duração do vídeo, entre três e dez segundos, sendo oito segundos o valor padrão. Este intervalo faz do modelo uma excelente escolha para loops curtos, clips para redes sociais, teasers e outros vídeos de curta duração onde um momento focado é mais importante que o comprimento.
Uma das características de destaque do Gemini Omni Flash é a geração de áudio juntamente com a imagem. Muitas ferramentas de vídeo produzem imagens sem som, mas este modelo cria vídeo com áudio integrado, recorrendo às referências de som que fornece para orientar o resultado final. Combinado com a sua capacidade de sincronização labial, é especialmente útil para conteúdos com personagens a falar, cenas de diálogo e qualquer projeto em que uma ligação entre som e movimento seja essencial. O resultado é um clip mais completo e pronto a usar, com menos necessidade de trabalho áudio separado.
O modelo gera vídeo até 720p, apresentando uma imagem nítida e de alta qualidade, ideal para plataformas sociais, apresentações e projetos criativos. O vídeo final é devolvido como um ficheiro descarregável que pode importar diretamente para o seu fluxo de edição ou partilhar tal como está.
Quem mais beneficia do Gemini Omni Flash? Artistas e ilustradores que desejem ver as suas criações estáticas a mover-se e a falar, assim como animadores que querem prototipar rapidamente cenas a partir de arte de referência. Realizadores e criadores de vídeo podem utilizá-lo para cenas estilizadas, momentos de personagem e pequenos excertos narrativos. Músicos e criadores de áudio podem sincronizar o seu som com visuais adequados, e marketers ou gestores de redes sociais podem gerar clips curtos e impactantes em formatos horizontal e vertical. Como aceita vários tipos de input em simultâneo, é especialmente indicado para criadores que já têm uma coleção de imagens, áudio ou clips de referência e querem fundi-los num novo resultado.
Para obter os melhores resultados, escreva prompts claros e descritivos detalhando o tema, a ação, o ambiente e o mood pretendido. Forneça imagens de referência fortes e use a capacidade de atribuir imagens específicas a papéis no prompt para direcionar exatamente como cada referência contribui. Como as gerações são curtas — até dez segundos —, o ideal é focar cada clip num único momento, ação ou ideia, em vez de tentar captar uma sequência longa. Escolher à partida a proporção certa para a sua plataforma de destino também poupará tempo: o 9:16 é perfeito para feeds verticais de dispositivos móveis e o 16:9 resulta melhor para visualização panorâmica.
Tal como acontece com qualquer ferramenta de vídeo curta, há considerações a ter em conta. O modelo produz clips entre três e dez segundos, por isso é pensado para momentos concisos e impactantes em vez de storytelling longo. A resolução máxima é 720p, indicada para partilha online e projetos criativos. As duas proporções suportadas cobrem as necessidades horizontais e verticais mais comuns; por isso, planeie a composição à volta do formato panorâmico ou vertical. No geral, o Gemini Omni Flash oferece uma abordagem multimodal flexível para criar vídeos curtos, permitindo-lhe combinar palavras, imagens, som e clips de referência em vídeos polidos com áudio sincronizado — uma opção poderosa para criadores que pretendem transformar as suas referências em vídeo vivo e sonoro.
Add the image that you want change
Adicione uma imagem opcional para orientar o aspeto, a personagem ou o ambiente
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Escreva um prompt - O modelo compreende a física, a iluminação e a intenção emocional da sua cena
Clique para gerar o resultado final e transferir um vídeo de qualidade profissional
Demonstra animação de paisagem cinematográfica com movimento atmosférico e som ambiente natural gerado, ideal para storytelling em formato panorâmico.
Mostra animação de produtos premium, combinando imagens de referência com iluminação e som dinâmico para reels comerciais de luxo.
“Animate as a smooth 360-degree rotation on an invisible turntable. Rotate slowly and continuously, taking 6 seconds for full rotation. Light reflections should shift naturally across the metal case and crystal. Maintain consistent dramatic lighting throughout rotation. Add subtle sparkle on diamond indices as they catch light. Keep the background static and dark. Professional product video quality.”

Mude hoje para a síntese guiada por raciocínio