Cinematic video from references
Seedance 2.0 Fast Reference to Video adalah model generasi video paling canggih dari ByteDance, dirancang khusus untuk kreator yang membutuhkan video berkualitas sinematik dengan audio sinkron yang kaya — semuanya dihasilkan dari kombinasi fleksibel teks prompt, gambar referensi, video referensi, dan bahkan input audio. Baik Anda seorang pembuat film yang mempratinya sebuah adegan, desainer yang menganimasikan konsep, atau kreator konten yang memproduksi klip media sosial yang menarik perhatian, model ini memberikan kontrol tingkat sutradara atas cerita visual Anda.
Pada intinya, Seedance 2.0 Fast Reference to Video mengubah visi kreatif Anda menjadi output video yang dipoles dengan fisika dunia nyata, gerakan alami, dan generasi audio native. Yang membedakannya adalah sistem referensi multi-modal: Anda dapat menyediakan hingga sembilan gambar referensi, hingga tiga video referensi, dan hingga tiga file audio, kemudian menyatukannya langsung ke dalam teks prompt Anda untuk memandu generasi. Misalnya, Anda mungkin mengunggah potret karakter, foto lingkungan latar belakang, dan klip voiceover, kemudian menulis prompt yang memberi tahu model secara tepat bagaimana menggabungkannya — merujuk setiap input secara alami dalam deskripsi Anda. Ini menjadikannya alat yang sangat kuat untuk menghidupkan storyboard, membuat animasi bergaya, dan memproduksi video talking head dengan lip-sync.
Generasi audio native model ini diaktifkan secara default dan menghasilkan efek suara sinkron, lanskap suara ambient, dan ucapan lip-sync yang cocok dengan aksi visual di layar. Ini berarti video yang dihasilkan siap digunakan — tidak perlu mencari atau menyinkronkan audio secara manual di pasca-produksi. Jika Anda lebih suka video tanpa suara atau berencana menambahkan trek audio sendiri, Anda cukup menonaktifkan generasi audio.
Seedance 2.0 menawarkan berbagai kontrol kreatif yang serbaguna yang memungkinkan Anda membentuk output sesuai kebutuhan tepat. Anda dapat memilih dari tujuh opsi rasio aspek: 16:9 untuk konten landscape dan widescreen standar, 9:16 untuk video vertikal dan potret yang sempurna untuk platform sosial seperti TikTok atau Instagram Reels, 1:1 untuk format persegi, 4:3 dan 3:4 untuk komposisi klasik dan tinggi, 21:9 untuk format sinematik ultrawide ideal untuk urutan gaya film, atau auto agar model memutuskan secara cerdas berdasarkan prompt Anda. Durasi video juga fleksibel, berkisar dari 4 hingga 15 detik, dengan opsi auto yang memungkinkan model menentukan panjang ideal berdasarkan narasi yang dijelaskan dalam prompt Anda. Resolusi dapat diatur ke 720p untuk keseimbangan kualitas dan kecepatan generasi, atau 480p saat Anda menginginkan hasil lebih cepat — berguna untuk iterasi cepat dan mempratinya ide sebelum berkomitmen pada render akhir.
Alur kerja berbasis referensi adalah tempat model ini benar-benar bersinar untuk profesional kreatif. Dengan mengunggah gambar referensi (JPEG, PNG, atau WebP, hingga 30 MB setiap file), Anda dapat memandu gaya visual model, penampilan karakter, atau komposisi adegan. Video referensi (MP4 atau MOV, dengan durasi gabungan antara 2 dan 15 detik) memungkinkan Anda menyediakan referensi gerakan, petunjuk tempo, atau footage yang ada untuk dibangun. File audio referensi (MP3 atau WAV, hingga 15 detik gabungan) dapat mendorong animasi lip-sync atau menetapkan nada sonik untuk adegan — meskipun input audio memerlukan setidaknya satu gambar atau video referensi di sampingnya. Anda dapat menggabungkan hingga 12 file total di semua jenis input, memberikan kebebasan kreatif yang luar biasa. Dalam prompt Anda, Anda cukup merujuk input ini menggunakan tag alami seperti @Image1, @Video2, atau @Audio1 untuk memberi tahu model bagaimana setiap referensi harus memengaruhi output akhir.
Model ini sangat cocok untuk animasi karakter, previsualisasi efek visual, konsep video musik, demonstrasi produk, konten media sosial, dan film pendek naratif. Kekuatannya dalam konten bergaya, transformasi, dan kemampuan lip-sync menjadikannya pilihan unggul untuk kreator yang bekerja di berbagai genre ini. Simulasi fisika dunia nyata berarti objek jatuh, air mengalir, dan karakter bergerak dengan berat dan momentum yang meyakinkan, memberikan polesan sinematik yang meningkatkan konten yang dihasilkan di luar video AI biasa.
Untuk reproduktibilitas, Anda dapat mengatur nilai seed untuk menghasilkan hasil serupa di beberapa run, yang membantu saat mengiterasi konsep dan menginginkan output konsisten. Perhatikan bahwa bahkan dengan seed yang sama, variasi kecil mungkin terjadi antar generasi.
Beberapa pertimbangan praktis yang perlu diingat: video referensi sebaiknya antara resolusi 480p dan 720p untuk hasil terbaik. File gambar individual bisa hingga 30 MB, sementara ukuran total semua referensi video harus di bawah 50 MB, dan setiap file audio tidak boleh lebih besar dari 15 MB. Jumlah total file di gambar, video, dan audio gabungan tidak boleh melebihi 12. Bekerja dalam pedoman ini memastikan model dapat memproses referensi Anda secara efektif dan memberikan output berkualitas tertinggi.
Seedance 2.0 Fast Reference to Video mewakili lompatan signifikan dalam generasi video berkualitas tinggi yang mudah diakses. Ini menggabungkan fleksibilitas input multimodal, kualitas visual sinematik, audio native dengan lip-sync, dan kontrol kreatif intuitif menjadi satu alat kreatif yang kuat — dirancang untuk kreator yang menuntut hasil profesional tanpa kompleksitas alur kerja produksi tradisional.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Jelaskan adegan video Anda dengan gerakan, sudut kamera, dan suasana
Model menciptakan gerakan sinematik dengan fisika dan pencahayaan alami
Unduh dan bagikan video siap produksi Anda
Mendemonstrasikan simulasi fisika dunia nyata model dan dinamika atmosferik — merender sistem cuaca meyakinkan, gerakan hewan, dan transformasi lingkungan dramatis dengan bahasa sinematik kualitas Netflix dan audio native.
Menampilkan presisi Seedance 2.0 dengan fisika objek, dinamika cairan, detail makro, dan transisi bergaya mulus — ideal untuk sinematografi produk mewah dengan foley sinkron dan audio atmosferik.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Beralih ke sintesis berpandu penalaran hari ini

Stylish text-to-video generation
0.1 kredit

Character-driven video from references
2 kredit

Fast cinematic video with audio
0.1 kredit

Cinematic video from references
10 kredit

Cinematic video with native audio
1.4 kredit
![Kling Video v3 Text to Video [Standard]](/marketing-assets/_next/image?url=https%3A%2F%2Fv3b.fal.media%2Ffiles%2Fb%2F0a8cfc9f%2Fdei5OqFRB9HK8AgSHwk8f_9a5eea197b3045d1be55aedb0213f6f9.jpg&w=3840&q=75)
Cinematic text-to-video with audio
4.2 kredit

Fast, high-quality text-to-video
2.1 kredit

High-quality, fast video generation
2 kredit

Fast balanced text-to-video generation
1.6 kredit