Cinematic video from references
Seedance 2.0 Fast Reference to Video är ByteDances mest avancerade videogenreringsmodell, speciellt utvecklad för skapare som behöver cineastisk kvalitet på video med rikt, synkroniserat ljud — allt genererat från en flexibel kombination av textprompts, referensbilder, referensvideor och till och med ljudinmatningar. Oavsett om du är en filmskapare som förhandsgranskar en scen, en designer som animerar ett koncept eller en innehållsskapare som producerar scroll-stoppende sociala medieklipp, ger denna modell regissörsnivå kontroll över din visuella berättelse.
I grunden omvandlar Seedance 2.0 Fast Reference to Video din kreativa vision till polerad video med verklighetsnära fysik, naturlig rörelse och inbyggd ljudgenerering. Det som utmärker den är det multimodala referenssystemet: du kan ladda upp upp till nio referensbilder, upp till tre referensvideor och upp till tre ljudfiler, och sedan väva in dem direkt i din textprompt för att styra genereringen. Till exempel kan du ladda upp ett karaktärsporträtt, en bakgrundsbild av en miljö och ett voiceover-klipp, och sedan skriva en prompt som berättar exakt för modellen hur de ska kombineras — med naturlig referens till varje inmatning i din beskrivning. Detta gör den till ett oerhört kraftfullt verktyg för att ge liv åt storyboards, skapa stiliserade animationer och producera läppsynkade talking head-videor.
Modellens inbyggda ljudgenerering är aktiverad som standard och producerar synkroniserade ljudeffekter, omgivande ljudlandskap och läppsynkat tal som matchar den visuella handlingen på skärmen. Det betyder att dina genererade videor kommer fram redo att användas — ingen behov av att skaffa eller manuellt synkronisera ljud i efterbearbetning. Om du föredrar en tyst video eller planerar att lägga till ditt eget ljudspår kan du enkelt stänga av ljudgenereringen.
Seedance 2.0 erbjuder ett mångsidigt utbud av kreativa kontroller som låter dig forma utdata exakt efter dina behov. Du kan välja bland sju aspektförhållanden: 16:9 för standard landskaps- och bredbildsinnehåll, 9:16 för vertikala och porträttorienterade videor perfekta för sociala plattformar som TikTok eller Instagram Reels, 1:1 för kvadratiska format, 4:3 och 3:4 för klassiska och höga kompositioner, 21:9 för ultrabreda cineastiska format idealiska för filmsekvenser, eller auto för att låta modellen intelligent välja baserat på din prompt. Videolängd är lika flexibel, från 4 till 15 sekunder, med ett auto-alternativ som låter modellen bestämma idealisk längd baserat på narrativet i din prompt. Upplösning kan ställas in på 720p för en balans mellan kvalitet och genereringshastighet, eller 480p när du vill ha snabbare resultat — användbart för snabb iteration och förhandsgranskning av idéer innan du kör en slutgiltig render.
Den referensbaserade arbetsflödet är där denna modell verkligen lyser för kreativa proffs. Genom att ladda upp referensbilder (JPEG, PNG eller WebP, upp till 30 MB vardera) kan du styra modellens visuella stil, karaktärsutseende eller scenkomposition. Referensvideor (MP4 eller MOV, med kombinerad längd mellan 2 och 15 sekunder) låter dig ge rörelsemallar, tempoklipp eller befintligt material att bygga vidare på. Referensljudfiler (MP3 eller WAV, upp till 15 sekunder kombinerat) kan driva läppsynkanimation eller sätta den soniska tonen för en scen — även om ljudinmatningar kräver minst en referensbild eller video bredvid. Du kan kombinera upp till 12 filer totalt över alla inmatningstyper, vilket ger dig enorm kreativ frihet. I din prompt refererar du helt enkelt till dessa inmatningar med naturliga taggar som @Image1, @Video2 eller @Audio1 för att berätta för modellen hur varje referens ska påverka slutresultatet.
Denna modell är särskilt väl lämpad för karaktärsanimation, förhandsvisualisering av visuella effekter, musikvideokoncept, produktdemonstrationer, sociala medieinnehåll och narrativa kortfilmer. Dess styrkor inom stiliserat innehåll, transformation och läppsynk gör den till ett framstående val för skapare inom dessa genrer. Den verklighetsnära fysiksimuleringen innebär att objekt faller, vatten flyter och karaktärer rör sig med trovärdig vikt och momentum, vilket ger en cineastisk polering som höjer genererat innehåll över typisk AI-video.
För reproducerbarhet kan du ange ett seed-värde för att generera liknande resultat över flera körningar, vilket är hjälpsamt vid iteration på ett koncept och önskan om konsekventa utdata. Notera att även med samma seed kan små variationer uppstå mellan genereringar.
Några praktiska överväganden att ha i åtanke: referensvideor bör vara mellan ungefär 480p och 720p upplösning för bästa resultat. Enskilda bildfiler kan vara upp till 30 MB, medan totalstorleken för alla videoreferenser bör hållas under 50 MB, och varje ljudfil får inte vara större än 15 MB. Det totala antalet filer över bilder, videor och ljud tillsammans får inte överstiga 12. Att arbeta inom dessa riktlinjer säkerställer att modellen kan bearbeta dina referenser effektivt och leverera högsta kvalitet på utdata.
Seedance 2.0 Fast Reference to Video representerar ett stort steg framåt inom tillgänglig, högkvalitativ videogenrering. Den kombinerar multimodal inmatningsflexibilitet, cineastisk visuell kvalitet, inbyggt ljud med läppsynk och intuitiva kreativa kontroller i ett enda kraftfullt kreativt verktyg — utformat för skapare som kräver professionella resultat utan komplexiteten i traditionella produktionsarbetsflöden.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Beskriv din videoscen med rörelser, kameravinklar och stämning
Modellen skapar filmisk rörelse med naturlig fysik och belysning
Ladda ner och dela din produktionsredo video
Demonstrerar modellens verklighetsnära fysiksimulering och atmosfäriska dynamik — återger trovärdiga vädersystem, djurrörelser och dramatiska miljötransformationer med Netflix-kvalitet cineastiskt språk och inbyggt ljud.
Visar Seedance 2.0:s precision med objektsfysik, vätskedynamik, makrodetaljer och sömlösa stiliserade övergångar — idealiskt för lyxproduktcineamatografi med synkroniserad foley och atmosfäriskt ljud.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Byt till resonemangsstyrd syntes idag

Stylish text-to-video generation
0.1 krediter

Fast cinematic video with audio
0.1 krediter
![Kling Video v3 Text to Video [Pro]](/marketing-assets/_next/image?url=https%3A%2F%2Fv3b.fal.media%2Ffiles%2Fb%2F0a8cfd13%2Ft6TSkWzl6cFAzvO1PCdDu_f38263f637d245929f03881454951540.jpg&w=3840&q=75)
Cinematic video, fluid motion, audio
4 krediter

Cinematic video with native audio
1.4 krediter

Fast balanced text-to-video generation
1.6 krediter

High-quality, fast video generation
2 krediter

Film-grade video with audio
0.1 krediter

Smooth, coherent AI video generation
2 krediter

Fast, high-quality text-to-video
2.1 krediter