Text to video with audio
LTX-2.3 22B est un puissant modèle texte-vidéo qui transforme des descriptions écrites en clips vidéo entièrement réalisés — avec un audio synchronisé. Il suffit de décrire la scène que vous imaginez, et le modèle la fait vivre sous forme de séquences animées, générant à la fois les visuels et une bande-son correspondante en une seule passe. Cela en fait un partenaire créatif idéal pour les cinéastes, les motion designers, les publicitaires, les créateurs de contenu social et les conteurs visuels qui souhaitent passer de l'idée au clip final sans jongler avec des outils séparés pour l'image et le son.
Au cœur du modèle se trouve sa capacité à interpréter des prompts riches et cinématographiques. Une description comme « Un cow-boy marchant dans une ville poussiéreuse à midi pile, caméra suivant de derrière, profondeur cinématographique, éclairage réaliste, ambiance western, grain de film 4K » donne au modèle tout ce dont il a besoin pour composer un plan cohérent et atmosphérique. Plus votre prompt est descriptif et intentionnel — couvrant l'ambiance, l'éclairage, le comportement de la caméra et le style visuel —, plus le résultat se rapprochera de votre vision. Une fonction d'expansion de prompt intégrée peut enrichir automatiquement vos descriptions, aidant les prompts plus courts à produire des résultats plus détaillés et polis.
LTX-2.3 22B vous offre un contrôle significatif sur la longueur et la forme de vos vidéos. Vous pouvez générer des clips très courts de seulement quelques images jusqu'à des séquences longues de plusieurs centaines d'images, vous permettant de créer tout, des boucles rapides et extraits sociaux aux plans narratifs étendus. Le taux d'images par seconde est entièrement ajustable, afin que vous puissiez régler un mouvement fluide et cinématographique ou un timing stylisé selon votre projet. Le paramètre par défaut produit un clip de 121 images à 24 images par seconde — un rythme naturel, semblable à celui du film. Vous pouvez également choisir votre ratio d'aspect, avec un format paysage large 16:9 défini par défaut, facilitant la production de séquences adaptées au cinéma, au web et aux plateformes sociales.
L'une des fonctionnalités phares du modèle est la génération audio intégrée. Par défaut, chaque vidéo est accompagnée de sa propre bande-son générée, de sorte que le son est créé pour s'adapter à la scène plutôt qu'ajouté après coup. Vous disposez d'un contrôle créatif séparé sur la forme de l'audio, et vous pouvez équilibrer l'importance accordée par le modèle aux visuels par rapport au son. Si vous préférez des séquences muettes pour des projets où vous ajouterez votre propre musique ou voix off, la génération audio peut simplement être désactivée.
Pour les créateurs soucieux du langage caméra, LTX-2.3 22B inclut des contrôles dédiés de mouvement de caméra qui vont au-delà de ce que le prompting seul peut accomplir. Vous pouvez choisir des mouvements spécifiques tels que dolly in, dolly out, dolly left, dolly right, jib up, jib down, ou un plan statique verrouillé — et ajuster l'intensité de ce mouvement. Cela vous offre un contrôle fiable et reproductible sur le comportement de la caméra, invaluable pour faire correspondre des plans, construire des séquences ou obtenir une sensation cinématographique particulière.
Le modèle propose également une approche de génération multi-échelle activée par défaut. Avec cela, le modèle génère d'abord une version plus petite de la vidéo, puis l'utilise pour guider un rendu final plus grand et plus raffiné. Le résultat est une meilleure cohérence globale et des détails plus riches dans votre clip final. Des contrôles de raffinage supplémentaires vous permettent d'ajuster à quel point la sortie suit fidèlement votre prompt, à quel point le contenu reste focalisé et cohérent, et le niveau de détail global du rendu. Il existe aussi un amélioration d'échantillonnage optionnelle qui introduit une variation subtile pendant la génération pour aider à améliorer la qualité.
Les options d'accélération vous permettent de choisir comment le modèle équilibre vitesse et qualité, allant de aucune accélération à une accélération complète, afin que vous puissiez décider si vous voulez une fidélité maximale ou un traitement plus rapide. Vous pouvez également définir le niveau de qualité de sortie — de faible à maximum — et choisir comment le fichier final est écrit, avec des options favorisant un traitement plus rapide, des résultats équilibrés ou des tailles de fichiers plus petites.
Pour livrer votre travail finalisé, LTX-2.3 22B prend en charge plusieurs formats de sortie adaptés à différents workflows. Vous pouvez exporter en vidéo MP4 standard, WebM, ProRes haute qualité pour les pipelines d'édition professionnels, ou GIF animés pour un partage léger. Cette flexibilité signifie que le modèle s'intègre parfaitement, que vous postiez un clip directement sur les réseaux sociaux ou que vous importiez des séquences dans une suite d'édition professionnelle.
Pour aider à orienter les résultats loin des apparences indésirables, le modèle utilise par défaut un prompt négatif qui décourage des éléments comme le style de diffusion d'actualités, l'animation 3D, les esthétiques de jeux vidéo et de dessins animés, les filigranes, le texte à l'écran, les sous-titres, et les séquences trop statiques ou en slow-motion. Ce paramètre par défaut pousse la sortie vers des résultats naturels, cinématographiques, style prises de vue réelles. Vous pouvez ajuster cette guidance pour correspondre à votre direction créative. Un vérificateur de sécurité est également activé par défaut pour aider à maintenir un contenu généré approprié. Pour la cohérence, vous pouvez définir une valeur de seed, qui vous permet de reproduire ou d'itérer sur un résultat particulier.
LTX-2.3 22B est idéal pour les créateurs qui veulent une solution unique et rationalisée pour produire des vidéos cinématographiques courtes avec son — films conceptuels, pièces d'ambiance, plans publicitaires, visuels pilotés par la musique, animatiques, contenu social et expériences narratives. Comme il répond si bien aux prompts détaillés et évocateurs, il récompense une écriture réfléchie : décrire l'éclairage, l'atmosphère, le mouvement de caméra et le comportement des sujets produira systématiquement des séquences plus fortes et intentionnelles. Avec son mélange de génération audio-visuelle, ses formats flexibles, ses options d'export professionnelles et ses contrôles précis de caméra et de raffinage, il offre une boîte à outils polyvalente pour amener des scènes imaginées à l'écran.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Décrivez votre scène vidéo avec le mouvement, les angles de caméra et l'ambiance
Le modèle crée un mouvement cinématographique avec une physique et un éclairage naturels
Téléchargez et partagez votre vidéo prête à la diffusion
Overhead shot of a sizzling cast iron skillet on gas flame. Fresh vegetables being tossed into the pan creating steam burst. Chef's hands flip ingredients with professional technique. Oil splatters catch the light. Flames briefly flare up. Aromatic herbs sprinkled from above floating down in slow motion. Camera slowly zooms in on the cooking action. Warm kitchen lighting, steam rising. 6 seconds, dynamic motion, appetizing colors.
Tracking shot through a rain-soaked city street at night. Neon signs in Japanese and English reflect in puddles and wet pavement. Camera moves forward at walking pace, passing pedestrians with umbrellas. Steam rises from street vents. Raindrops fall through colorful light beams. Shop windows glow with warm light. Occasional car passes creating light trails. Cyberpunk aesthetic, rich saturated colors. 8 seconds, smooth forward tracking, cinematic atmosphere.
Slow motion fashion video of model walking toward camera on minimalist runway. Dramatic side lighting creates strong shadows on flowing fabric. Hair and dress move elegantly with each step. Camera dollies backward maintaining distance as model approaches. Fabric ripples and catches light. Confident, powerful stride. Shallow depth of field with clean background. Gradual zoom to face reveal. 6 seconds, 60fps slow motion, high fashion aesthetic.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Passez dès aujourd'hui à la synthèse guidée par le raisonnement

Fast balanced text-to-video generation
1.6 crédits

Multi-shot cinematic text-to-video
4 crédits

Film-grade video with audio
0.1 crédits

Cinematic video with native audio
1.4 crédits

Cinematic video from references
0.4 crédits

Cinematic video from references
10 crédits

Fast cinematic video with audio
0.1 crédits