Cinematic video from references
Seedance 2.0 Fast Reference to Video 是 ByteDance 最先进的视频生成模型,专为需要电影品质视频和丰富同步音频的创作者量身打造——全部从文本提示、参考图像、参考视频甚至音频输入的灵活组合中生成。无论您是电影制作人预览场景、设计师动画化概念,还是内容创作者制作引人驻足的社交媒体短片,此模型为您提供导演级别的视觉叙事控制。
在其核心,Seedance 2.0 Fast Reference to Video 将您的创意愿景转化为带有真实物理、自然运动和原生音频生成的精致视频输出。其独特之处在于多模态参考系统:您可以提供最多 9 张参考图像、最多 3 个参考视频和最多 3 个音频文件,然后直接将它们融入文本提示中来指导生成。例如,您可以上传人物肖像、背景环境照片和画外音片段,然后编写提示告诉模型如何精确组合它们——在描述中自然引用每个输入。这使其成为将故事板变为现实、创建风格化动画以及制作唇同步说话头视频的极其强大的工具。
模型的原生音频生成默认启用,并产生与屏幕视觉动作匹配的同步音效、环境音景和唇同步语音。这意味着您的生成视频开箱即用——无需后期寻找或手动同步音频。如果您偏好无声视频或计划添加自己的音频轨道,只需关闭音频生成即可。
Seedance 2.0 提供多样的创意控制选项,让您根据确切需求塑造输出。您可以从七种宽高比选项中选择:16:9 用于标准横屏和宽屏内容,9:16 用于竖屏和肖像导向视频,完美适用于 TikTok 或 Instagram Reels 等社交平台,1:1 用于方形格式,4:3 和 3:4 用于经典和长形构图,21:9 用于超宽电影格式,适合电影风格序列,或 auto 让模型根据您的提示智能决定。视频时长同样灵活,从 4 到 15 秒不等,并有 auto 选项让模型根据提示中描述的叙事确定理想长度。分辨率可设置为 720p 以平衡品质和生成速度,或 480p 以获得更快结果——适用于快速迭代和预览想法,然后再进行最终渲染。
基于参考的工作流程是此模型真正闪耀的地方,专为创意专业人士设计。通过上传参考图像(JPEG、PNG 或 WebP,每张最多 30 MB),您可以指导模型的视觉风格、人物外观或场景构图。参考视频(MP4 或 MOV,总时长 2 到 15 秒)让您提供运动参考、节奏提示或现有素材来构建。参考音频文件(MP3 或 WAV,总计最多 15 秒)可以驱动唇同步动画或为场景设定声音基调——不过音频输入需要至少搭配一张参考图像或视频。您可以跨所有输入类型组合最多 12 个文件,赋予您极大的创意自由度。在提示中,您只需使用自然标签如 @Image1、@Video2 或 @Audio1 来引用这些输入,告诉模型每个参考如何影响最终输出。
此模型特别适合人物动画、视觉效果预可视化、音乐视频概念、产品演示、社交媒体内容和叙事短片。其在风格化内容、转换和唇同步方面的优势,使其成为这些类型创作者的首选。真实世界物理模拟意味着物体下落、水流淌,人物以可信重量和动量移动,为生成内容增添电影级光泽,超越典型 AI 视频。
为确保可重复性,您可以设置种子值来生成多次运行的相似结果,这在迭代概念并希望输出一致时非常有用。请注意,即使使用相同种子,不同生成间也可能有细微变化。
几点实用注意事项:参考视频分辨率最好在 480p 到 720p 之间。单个图像文件最多 30 MB,所有视频参考总大小应保持在 50 MB 以下,每个音频文件不超过 15 MB。图像、视频和音频总文件数不得超过 12 个。遵守这些指南可确保模型有效处理您的参考并交付最高品质输出。
Seedance 2.0 Fast Reference to Video 代表了可访问、高品质视频生成的重大飞跃。它将多模态输入灵活性、电影级视觉品质、原生唇同步音频和直观创意控制融为一体,成为一款强大的创意工具——专为追求专业效果而无需传统制作流程复杂性的创作者设计。
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
描述您的视频场景,包括动作、相机角度和氛围
模型创建具有自然物理和光照的电影化动作
下载并分享您的生产就绪视频
演示模型的真实物理模拟和氛围动态——渲染可信天气系统、动物运动和戏剧性环境转变,带有 Netflix 品质电影语言和原生音频。
展示 Seedance 2.0 在物体物理、液体动态、宏观细节和无缝风格化过渡方面的精确性——理想用于奢侈产品电影摄影,带同步 Foley 和氛围音频。
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
立即切换到推理引导合成

Smooth, coherent AI video generation
2 积分

Film-grade video with audio
0.1 积分

Fast balanced text-to-video generation
1.6 积分
![Kling Video v3 Text to Video [Pro]](/marketing-assets/_next/image?url=https%3A%2F%2Fv3b.fal.media%2Ffiles%2Fb%2F0a8cfd13%2Ft6TSkWzl6cFAzvO1PCdDu_f38263f637d245929f03881454951540.jpg&w=3840&q=75)
Cinematic video, fluid motion, audio
4 积分
![Kling Video v3 Text to Video [Standard]](/marketing-assets/_next/image?url=https%3A%2F%2Fv3b.fal.media%2Ffiles%2Fb%2F0a8cfc9f%2Fdei5OqFRB9HK8AgSHwk8f_9a5eea197b3045d1be55aedb0213f6f9.jpg&w=3840&q=75)
Cinematic text-to-video with audio
4.2 积分

High-quality, fast video generation
2 积分

Fast, high-quality text-to-video
2.1 积分

Stylish text-to-video generation
0.1 积分

Character-driven video from references
2 积分