Multimodal references to video
Gemini Omni Flash és un model multimodal de generació de vídeo que combina diversos tipus d'entrada creativa per produir un vídeo acabat complet amb so. En lloc de treballar a partir d'una sola font, accepta text, imatges, àudio i vídeo junts, utilitzant cadascuna d'aquestes referències per modelar el subjecte, el moviment, l'estil visual i fins i tot l'àudio del resultat final. Això el converteix en una eina versàtil per a creadors que vulguin combinar els seus actius existents —una il·lustració de personatge, una foto, un clip de referència o un so— i deixar que el model els teixi en una imatge en moviment cohesionada.
Al seu nucli, el model funciona a partir d'una descripció escrita acompanyada d'una o més imatges de referència. Descriu l'escena, l'acció o l'ànim que tens al cap —per exemple, «Un gat jugant amb una madeixa de llana en un saló il·luminat pel sol»— i proporciona les imatges que vols incorporar. El model genera llavors un vídeo que reflecteix tant les teves paraules com les teves referències visuals. Pots incloure fins a deu imatges de referència en una sola generació, donant-te molt d'espai per guiar l'aspecte i el contingut del teu vídeo. El model també admet vincular imatges de referència específiques a rols particulars directament dins del teu prompt, perquè puguis ser precís sobre quina imatge influeix en quin element de l'escena. Això dóna als creadors un control fi sobre com apareixen els personatges, objectes i escenaris de les seves referències en l'obra acabada.
Com que Gemini Omni Flash entén text, imatges, àudio i vídeo com a entrades i produeix vídeo amb àudio com a sortida, està ben adaptat a una àmplia gamma de tasques creatives. El model està etiquetat per a transformacions estilitzades i treball de lip-sync, cosa que significa que pot reinterpretar les teves referències en estils visuals distintius i alinear àudio parlat o cantat amb el moviment de la boca a la pantalla. Cineastes i animadors poden utilitzar-lo per donar vida a personatges estàtics amb diàlegs que coincideixin, mentre que músics i creadors de contingut poden combinar àudio amb visuals per crear clips d'estil actuació. Dissenyadors i il·lustradors poden transformar les seves obres en peces animades curtes, i creadors de xarxes socials poden convertir ràpidament conceptes en vídeos compartibles.
El model et proporciona controls creatius senzills per personalitzar cada generació. Pots triar la relació d'aspecte del teu vídeo, seleccionant entre un format panoràmic 16:9 que s'adapta a narracions horitzontals, escenes cinematogràfiques i visualització d'escriptori, o un format vertical 9:16 ideal per a plataformes mòbils i contingut social de curta durada. També pots establir la durada del teu vídeo, triant qualsevol longitud de tres a deu segons, amb un valor predeterminat de vuit segons. Aquest rang fa que el model sigui ideal per a bucles ràpids, clips socials, teasers i altres vídeos de curta durada on un moment centrat importa més que la longitud.
Una de les qualitats destacades de Gemini Omni Flash és que genera àudio acompanyant la imatge. Moltes eines de vídeo produeixen metratges silenciós, però aquest model crea vídeo amb so com a part d'un únic procés, aprofitant l'àudio i altres referències que proporcions per guiar el resultat sonor. Combinat amb la seva capacitat de lip-sync, això el fa especialment valuós per a contingut de personatges parlants, escenes de diàleg i qualsevol projecte on el so i el moviment hagin de sentir-se connectats. El resultat és un clip més complet i llest per utilitzar que requereix menys treball d'àudio separat.
El model genera vídeo amb una qualitat d' fins a 720p, oferint una imatge neta i d'alta qualitat adequada per a plataformes socials, presentacions i projectes creatius. El vídeo acabat es retorna com un fitxer descarregable que pots incorporar directament al teu flux de treball d'edició o compartir tal com està.
Qui se'n beneficia més amb Gemini Omni Flash? Artistes i il·lustradors que vulguin veure les seves creacions estàtiques moure's i parlar trobaran que s'hi adapta de manera natural, així com animadors que vulguin prototipar escenes ràpidament a partir d'art de referència. Cineastes i creadors de vídeo poden utilitzar-lo per a plans estilitzats, moments de personatges i beats narratius curts. Músics i creadors d'àudio poden combinar els seus sons amb visuals que coincideixin, i màrqueters o gestors de xarxes socials poden generar clips curts atractius en formats horitzontals i verticals. Com que accepta tants tipus d'entrada alhora, recompensa els creadors que ja tinguin una biblioteca d'imatges, sons o metratge de referència i vulguin combinar-los en alguna cosa nova.
Per obtenir els millors resultats, ajuda escriure prompts clars i descriptius que detallen el subjecte, l'acció, l'escenari i l'ànim que vols. Proporcionar imatges de referència fortes dóna al model més material amb què treballar, i utilitzar la capacitat de vincular imatges específiques a rols en el teu prompt et permet dirigir exactament com contribueix cada referència. Com que les generacions són curtes —fins a deu segons—, és millor centrar cada clip en un sol moment, acció o idea en lloc d'intentar capturar una seqüència llarga. Triar la relació d'aspecte correcta per a la teva plataforma de destinació des del principi també estalviarà temps, ja que 9:16 s'adapta a feed verticals mòbils mentre que 16:9 funciona millor per a visualització panoràmica.
Com amb qualsevol eina de vídeo de curta durada, hi ha algunes consideracions a tenir en compte. El model produeix clips en l'interval de tres a deu segons, per la qual cosa està dissenyat per a moments concisos i impactants en lloc de narracions de llarga durada. La resolució de sortida arriba a 720p, que està ben adaptada a l'intercanvi en línia i treballs creatius. Les dues relacions d'aspecte suportades cobreixen les necessitats horitzontals i verticals més comunes, així que planeja la teva composició al voltant d'un enquadrament panoràmic o vertical. En general, Gemini Omni Flash ofereix un enfocament flexible i multimodal per a la creació de vídeos curts, permetent-te fusionar paraules, imatges, so i metratge en clips polits amb àudio sincronitzat —una opció poderosa per a creadors que vulguin transformar les seves referències en vídeo viu i sonor.
Add the image that you want change
Afegeix una imatge opcional per guiar l'estètica, el personatge o l'entorn
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Escriu una indicació: el model entén la física, la il·luminació i la intenció emocional de la teva escena
Fes clic per generar el resultat final i descarregar un vídeo de qualitat professional
Demostra animació cinematogràfica de paisatges amb moviment atmosfèric i so ambiental de natura generat per a narracions en format ample.
Mostra animació premium de productes combinant imatges de referència amb il·luminació dinàmica i so per a reels comercials de luxe.
“Animate as a smooth 360-degree rotation on an invisible turntable. Rotate slowly and continuously, taking 6 seconds for full rotation. Light reflections should shift naturally across the metal case and crystal. Maintain consistent dramatic lighting throughout rotation. Add subtle sparkle on diamond indices as they catch light. Keep the background static and dark. Professional product video quality.”

Passa't avui a la síntesi guiada per raonament