Cinematic video from references
Seedance 2.0 Fast Reference to Video est le modèle de génération vidéo le plus avancé de ByteDance, conçu spécifiquement pour les créateurs qui ont besoin de vidéos de qualité cinématographique avec un audio riche et synchronisé — le tout généré à partir d'une combinaison flexible de prompts textuels, d'images de référence, de vidéos de référence et même d'entrées audio. Que vous soyez un cinéaste qui prévisualise une scène, un designer qui anime un concept ou un créateur de contenu qui produit des clips percutants pour les médias sociaux, ce modèle offre un contrôle de niveau réalisateur sur votre narration visuelle.
Au cœur de Seedance 2.0 Fast Reference to Video, votre vision créative est transformée en une sortie vidéo polie avec une physique réaliste, un mouvement naturel et une génération audio native. Ce qui le distingue, c'est son système de références multimodales : vous pouvez fournir jusqu'à neuf images de référence, jusqu'à trois vidéos de référence et jusqu'à trois fichiers audio, puis les intégrer directement dans votre prompt textuel pour guider la génération. Par exemple, vous pourriez télécharger un portrait de personnage, une photo d'environnement de fond et un clip de voix off, puis rédiger un prompt qui indique au modèle exactement comment les combiner — en référant chaque entrée de manière naturelle dans votre description. Cela en fait un outil extrêmement puissant pour donner vie aux storyboards, créer des animations stylisées et produire des vidéos de têtes parlantes avec synchronisation labiale.
La génération audio native du modèle est activée par défaut et produit des effets sonores synchronisés, des paysages sonores ambiants et une parole synchronisée labialement qui correspondent à l'action visuelle à l'écran. Cela signifie que vos vidéos générées sont prêtes à l'emploi — pas besoin de sourcer ou de synchroniser manuellement l'audio en post-production. Si vous préférez une vidéo silencieuse ou prévoyez d'ajouter votre propre piste audio, vous pouvez simplement désactiver la génération audio.
Seedance 2.0 offre une gamme polyvalente de contrôles créatifs qui vous permettent de façonner la sortie selon vos besoins exacts. Vous pouvez choisir parmi sept options de ratios d'aspect : 16:9 pour du contenu paysage standard et grand écran, 9:16 pour des vidéos verticales et portrait parfaites pour les plateformes sociales comme TikTok ou Instagram Reels, 1:1 pour les formats carrés, 4:3 et 3:4 pour des compositions classiques et hautes, 21:9 pour des formats cinématographiques ultra-larges idéaux pour des séquences de style film, ou auto pour laisser le modèle décider intelligemment en fonction de votre prompt. La durée de la vidéo est tout aussi flexible, allant de 4 à 15 secondes, avec une option auto qui permet au modèle de déterminer la longueur idéale en fonction de la narration décrite dans votre prompt. La résolution peut être définie à 720p pour un équilibre entre qualité et vitesse de génération, ou 480p lorsque vous voulez des résultats plus rapides — utile pour une itération rapide et une prévisualisation d'idées avant de finaliser un rendu.
Le flux de travail basé sur les références est là où ce modèle brille vraiment pour les professionnels créatifs. En téléchargeant des images de référence (JPEG, PNG ou WebP, jusqu'à 30 MB chacune), vous pouvez guider le style visuel du modèle, l'apparence des personnages ou la composition de la scène. Les vidéos de référence (MP4 ou MOV, avec une durée combinée entre 2 et 15 secondes) vous permettent de fournir des références de mouvement, des indices de rythme ou des séquences existantes à développer. Les fichiers audio de référence (MP3 ou WAV, jusqu'à 15 secondes combinées) peuvent piloter l'animation de synchronisation labiale ou définir le ton sonore d'une scène — bien que les entrées audio nécessitent au moins une image ou vidéo de référence en accompagnement. Vous pouvez combiner jusqu'à 12 fichiers au total pour tous les types d'entrées, vous offrant une grande latitude créative. Dans votre prompt, vous référencez simplement ces entrées en utilisant des étiquettes naturelles comme @Image1, @Video2 ou @Audio1 pour indiquer au modèle comment chaque référence doit influencer la sortie finale.
Ce modèle est particulièrement adapté à l'animation de personnages, à la prévisualisation d'effets visuels, aux concepts de clips musicaux, aux démonstrations de produits, au contenu pour médias sociaux et aux courts métrages narratifs. Ses forces en contenu stylisé, en transformation et en capacités de synchronisation labiale en font un choix exceptionnel pour les créateurs travaillant dans ces genres. La simulation de physique du monde réel signifie que les objets tombent, l'eau coule et les personnages se déplacent avec un poids et un élan crédibles, ajoutant une finition cinématographique qui élève le contenu généré au-delà de la vidéo AI typique.
Pour la reproductibilité, vous pouvez définir une valeur de seed pour générer des résultats similaires sur plusieurs exécutions, ce qui est utile lors de l'itération sur un concept et pour obtenir des sorties cohérentes. Notez que même avec le même seed, de légères variations peuvent survenir entre les générations.
Quelques considérations pratiques à garder en tête : les vidéos de référence devraient être entre environ 480p et 720p de résolution pour de meilleurs résultats. Les fichiers d'images individuels peuvent atteindre 30 MB, tandis que la taille totale de toutes les références vidéo devrait rester sous 50 MB, et chaque fichier audio ne devrait pas dépasser 15 MB. Le nombre total de fichiers pour les images, vidéos et audio combinés ne doit pas excéder 12. Respecter ces directives garantit que le modèle peut traiter vos références efficacement et produire la sortie de la plus haute qualité.
Seedance 2.0 Fast Reference to Video représente un bond significatif dans la génération vidéo accessible et de haute qualité. Il réunit la flexibilité des entrées multimodales, la qualité visuelle cinématographique, l'audio natif avec synchronisation labiale et des contrôles créatifs intuitifs en un seul outil puissant — conçu pour les créateurs qui exigent des résultats professionnels sans la complexité des flux de travail de production traditionnels.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Décrivez votre scène vidéo avec mouvement, angles de caméra et ambiance
Le modèle crée un mouvement cinématographique avec une physique et un éclairage naturels
Téléchargez et partagez votre vidéo prête pour la production
Démontre la simulation de physique du monde réel du modèle et les dynamiques atmosphériques — rendant des systèmes météo crédibles, du mouvement animal et des transformations environnementales dramatiques avec un langage cinématographique de qualité Netflix et audio natif.
Met en valeur la précision de Seedance 2.0 avec la physique des objets, les dynamiques liquides, les détails macro et des transitions stylisées fluides — idéal pour une cinématographie de produits de luxe avec foley synchronisé et audio atmosphérique.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Passez à la synthèse guidée par le raisonnement dès aujourd'hui

Smooth, coherent AI video generation
2 crédits

Film-grade video with audio
0.1 crédits

Stylish text-to-video generation
0.1 crédits
![Kling Video v3 Text to Video [Standard]](/marketing-assets/_next/image?url=https%3A%2F%2Fv3b.fal.media%2Ffiles%2Fb%2F0a8cfc9f%2Fdei5OqFRB9HK8AgSHwk8f_9a5eea197b3045d1be55aedb0213f6f9.jpg&w=3840&q=75)
Cinematic text-to-video with audio
4.2 crédits

High-quality, fast video generation
2 crédits

Fast balanced text-to-video generation
1.6 crédits

Fast cinematic video with audio
0.1 crédits

Fast, high-quality text-to-video
2.1 crédits
![Kling Video v3 Text to Video [Pro]](/marketing-assets/_next/image?url=https%3A%2F%2Fv3b.fal.media%2Ffiles%2Fb%2F0a8cfd13%2Ft6TSkWzl6cFAzvO1PCdDu_f38263f637d245929f03881454951540.jpg&w=3840&q=75)
Cinematic video, fluid motion, audio
4 crédits