ShortGenius
隆重推出 Gemini Omni Flash

Gemini Omni Flash

让图像活起来

Multimodal references to video

人像唇同步

美妆动画

时尚人像

Gemini Omni Flash 是一种多模态视频生成模型,它将多种创意输入整合在一起,生成带有声音的完整视频。它不依赖单一来源,而是同时接受文本、图像、音频和视频,使用这些参考素材来塑造最终结果的主题、动作、视觉风格,甚至音频。这使其成为创作者的多功能工具,他们可以结合现有资产——如角色插图、照片、参考片段或声音——让模型将它们编织成连贯的动态图像。

在核心机制上,该模型基于书面描述结合一张或多张参考图像工作。您描述想要的场景、动作或氛围——例如“一只猫在阳光明媚的客厅里嬉戏地拍打一团毛线”——并提供要融入的图像。模型随后生成反映您的文字和视觉参考的视频。您可以在一次生成中包含最多十张参考图像,为视频的外观和内容提供充足的指导空间。模型还支持在提示中直接将特定参考图像绑定到特定角色,从而精确控制哪张图像影响场景的哪个元素。这赋予创作者精细控制,使参考中的角色、物体和环境在最终作品中呈现出精确的样子。

由于 Gemini Omni Flash 能理解文本、图像、音频和视频作为输入,并输出带有音频的视频,它非常适合广泛的创意任务。该模型专为风格化转换和唇同步工作而标记,意味着它能将您的参考重新诠释为独特的视觉风格,并将口语或歌唱音频与屏幕上的嘴部动作对齐。电影制作人和动画师可以使用它为静态角色注入生命并匹配对话,而音乐家和内容创作者可以将音频与视觉配对,制作表演式片段。设计师和插画家可以将作品转化为短动画,社交媒体创作者则能快速将概念转化为可分享视频。

该模型提供直观的创意控制,让您定制每次生成。您可以选择视频的宽高比,在宽屏 16:9 格式(适合横向叙事、电影场景和桌面观看)和竖屏 9:16 格式(理想用于移动优先平台和短视频社交内容)之间切换。您还可以设置视频长度,从 3 秒到 10 秒任意选择,默认 8 秒。这种范围使其非常适合快速循环、社交片段、预告片和其他注重关键时刻而非长度的短视频形式。

Gemini Omni Flash 的突出特性之一是它与画面同时生成音频。许多视频工具仅产生无声素材,但该模型在单一流程中创建带有声音的视频,利用您提供的音频和其他参考来指导声音结果。结合其唇同步能力,这使其特别适用于对话角色内容、对话场景以及任何声音与动作需紧密连接的项目。结果是一个更完整、即用型的片段,减少了单独音频工作的需求。

该模型输出高达 720p 的视频,提供清晰、高质量画面,适合社交平台、演示和创意项目。最终视频以可下载文件形式返回,您可以直接导入编辑流程或原样分享。

谁能从 Gemini Omni Flash 中获益最多?希望看到静态创作动起来并发声的艺术家和插画家会发现它非常契合,同样适合希望从参考艺术快速原型化场景的动画师。电影制作人和视频创作者可用于风格化镜头、角色瞬间和短叙事片段。音乐家和音频创作者可以将声音与匹配视觉配对,营销人员或社交媒体管理者则能生成横竖屏眼-catching 短片。由于它能同时接受多种输入,它特别奖励那些已有图像、声音或参考素材库并想将它们组合成新内容的创作者。

要获得最佳效果,请编写清晰、描述性的提示,明确说明主题、动作、环境和氛围。提供强有力的参考图像能给模型更多素材,利用在提示中绑定特定图像到角色的功能,能精确指导每个参考的贡献。由于生成时长较短——最多 10 秒——最好将每个片段聚焦于单一时刻、动作或想法,而非长序列。提前为目标平台选择合适的宽高比也能节省时间,因为 9:16 适合竖屏移动 feed,而 16:9 更适宽屏观看。

与其他短视频工具一样,有几点需注意。该模型生成 3 至 10 秒的片段,因此设计用于简洁、有冲击力的瞬间而非长篇叙事。输出分辨率达 720p,非常适合在线分享和创意工作。两种支持的宽高比覆盖常见横竖需求,因此围绕宽屏或竖屏构图规划。总体而言,Gemini Omni Flash 提供灵活的多模态短视频创作方式,让您将文字、图像、声音和素材融合成带有同步音频的精炼片段——这是创作者将参考转化为生动、有声视频的强大选择。

使用最先进的视频模型进行生成

你的图片

Add the image that you want change

第 1 步

上传图片

可选添加一张图片,用于引导画面风格、角色或环境

A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.

第 2 步

写下你的场景

输入提示词 - 模型能理解你场景中的物理效果、光线和情感意图

第 3 步

开始分享

点击生成最终成果,下载制作级视频

超越提示词:全新的掌控维度

自然摄影

自然摄影

展示电影化景观动画,带有大气动作和生成的自然环境音,适用于宽幅叙事。

产品动态

产品动态

展示高端产品动画,结合参考图像与动态光照和声音,适用于奢侈商业卷轴。

与同类模型对比

Animate as a smooth 360-degree rotation on an invisible turntable. Rotate slowly and continuously, taking 6 seconds for full rotation. Light reflections should shift naturally across the metal case and crystal. Maintain consistent dramatic lighting throughout rotation. Add subtle sparkle on diamond indices as they catch light. Keep the background static and dark. Professional product video quality.

等待终于结束

用 Gemini Omni Flash 体验极致完美

立即切换至推理引导式生成

常见问题

Gemini Omni Flash 可以同时接受多种输入——文本、图像、音频和视频——来指导结果。最低要求是提供描述视频的书面提示和至少一张参考图像,一次生成中可包含最多十张参考图像。这些综合参考塑造最终视频的主题、动作、风格和声音。