Text to video with audio
LTX-2.3 22B es un potente modelo de texto a vídeo que convierte descripciones escritas en clips de vídeo completamente realizados —completos con audio sincronizado. Solo describe la escena que imaginas, y el modelo la da vida como imágenes en movimiento, generando tanto las visuales como una banda sonora coincidente en un solo paso. Esto lo convierte en un compañero creativo ideal para cineastas, diseñadores de motion graphics, anunciantes, creadores de contenido social y narradores visuales que quieran pasar de la idea al clip terminado sin malabarismos con herramientas separadas para imagen y sonido.
En el núcleo del modelo está su capacidad para interpretar prompts ricos y cinematográficos. Una descripción como "A cowboy walking through a dusty town at high noon, camera following from behind, cinematic depth, realistic lighting, western mood, 4K film grain" le da al modelo todo lo que necesita para componer un plano coherente y atmosférico. Cuanto más descriptivo e intencional sea tu prompt —cubriendo estado de ánimo, iluminación, comportamiento de la cámara y estilo visual—, más se acercará el resultado a tu visión. Una función integrada de expansión de prompts puede enriquecer automáticamente tus descripciones, ayudando a que prompts más cortos produzcan resultados más detallados y pulidos.
LTX-2.3 22B te ofrece un control significativo sobre la longitud y la forma de tus vídeos. Puedes generar desde clips muy cortos de solo unos pocos fotogramas hasta secuencias largas de varios cientos de fotogramas, lo que te permite crear desde bucles rápidos y fragmentos para redes sociales hasta planos narrativos extendidos. La tasa de fotogramas también es completamente ajustable, por lo que puedes configurar un movimiento suave y cinematográfico o un tiempo estilizado según tu proyecto. La configuración predeterminada produce un clip de 121 fotogramas a 24 fotogramas por segundo —un ritmo natural, similar al del cine. También puedes elegir tu relación de aspecto, con un formato panorámico 16:9 en orientación horizontal como predeterminado, lo que facilita producir material adecuado para cine, web y plataformas sociales.
Una de las características destacadas del modelo es la generación integrada de audio. Por defecto, cada vídeo viene con su propia banda sonora generada, por lo que el sonido se crea para adaptarse a la escena en lugar de añadirse después. Tienes un control creativo separado sobre cómo se moldea el audio, y puedes equilibrar cuánto énfasis pone el modelo en las visuales frente al sonido. Si prefieres material silencioso para proyectos en los que añadirás tu propia música o voz en off, la generación de audio se puede desactivar simplemente.
Para creadores que se preocupan por el lenguaje de cámara, LTX-2.3 22B incluye controles dedicados de movimiento de cámara que van más allá de lo que se puede lograr solo con prompts. Puedes elegir movimientos específicos como dolly in, dolly out, dolly left, dolly right, jib up, jib down o un plano estático fijo —y ajustar qué tan fuerte se aplica ese movimiento. Esto te da un control fiable y repetible sobre el comportamiento de la cámara, lo cual es invaluable para emparejar planos, construir secuencias o lograr una sensación cinematográfica particular.
El modelo también ofrece un enfoque de generación multi-escala que está activado por defecto. Con esto, el modelo genera primero una versión más pequeña del vídeo y luego la usa para guiar un render final más grande y refinado. El resultado es una mayor coherencia general y más detalles ricos en tu clip final. Controles adicionales de refinamiento te permiten ajustar qué tan fielmente sigue la salida tu prompt, qué tan enfocado y consistente permanece el contenido, y el nivel general de detalle del render. También hay una mejora opcional de muestreo que introduce variaciones sutiles durante la generación para ayudar a mejorar la calidad.
Las opciones de aceleración te permiten elegir cómo equilibra el modelo velocidad y calidad, desde ninguna aceleración hasta aceleración completa, por lo que puedes decidir si quieres la máxima fidelidad o un tiempo de entrega más rápido. También puedes establecer el nivel de calidad de salida —desde bajo hasta máximo— y elegir cómo se escribe el archivo final, con opciones que priorizan procesamiento más rápido, resultados equilibrados o tamaños de archivo más pequeños.
Cuando se trata de entregar tu trabajo terminado, LTX-2.3 22B soporta varios formatos de salida para adaptarse a diferentes flujos de trabajo. Puedes exportar vídeo MP4 estándar, WebM, ProRes de alta calidad para pipelines de edición profesional o GIFs animados para compartir ligero. Esta flexibilidad significa que el modelo encaja cómodamente ya sea que estés soltando un clip directamente en una publicación social o llevando material a un suite de edición profesional.
Para ayudar a dirigir los resultados lejos de apariencias no deseadas, el modelo usa un prompt negativo por defecto que desaconseja elementos como estilos de emisión de noticias, animación 3D, estéticas de videojuegos y dibujos animados, marcas de agua, texto en pantalla, subtítulos y material excesivamente estático o en cámara lenta. Esta configuración predeterminada ayuda a impulsar la salida hacia resultados naturales, cinematográficos y de acción real. Puedes ajustar esta guía para adaptarla a tu dirección creativa propia. Un verificador de seguridad también está activado por defecto para ayudar a mantener el contenido generado apropiado. Para consistencia, puedes establecer un valor de semilla, que te permite reproducir o iterar en un resultado particular.
LTX-2.3 22B está especialmente indicado para creadores que quieren una forma única y optimizada de producir vídeos cinematográficos cortos con sonido —películas conceptuales, piezas de ambiente, planos publicitarios, visuales impulsados por música, animáticas, contenido social y experimentos narrativos. Como responde tan bien a prompts detallados y evocadores, recompensa la escritura reflexiva: describir iluminación, atmósfera, movimiento de cámara y comportamiento del sujeto producirá consistentemente material más fuerte e intencional. Con su combinación de generación audiovisual, formatos flexibles, opciones de exportación profesional y controles precisos de cámara y refinamiento, ofrece un kit de herramientas versátil para llevar escenas imaginadas a la pantalla.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Describe la escena de tu vídeo con movimiento, ángulos de cámara y ambiente
El modelo crea movimiento cinematográfico con física e iluminación naturales
Descarga y comparte tu vídeo listo para producción
Overhead shot of a sizzling cast iron skillet on gas flame. Fresh vegetables being tossed into the pan creating steam burst. Chef's hands flip ingredients with professional technique. Oil splatters catch the light. Flames briefly flare up. Aromatic herbs sprinkled from above floating down in slow motion. Camera slowly zooms in on the cooking action. Warm kitchen lighting, steam rising. 6 seconds, dynamic motion, appetizing colors.
Tracking shot through a rain-soaked city street at night. Neon signs in Japanese and English reflect in puddles and wet pavement. Camera moves forward at walking pace, passing pedestrians with umbrellas. Steam rises from street vents. Raindrops fall through colorful light beams. Shop windows glow with warm light. Occasional car passes creating light trails. Cyberpunk aesthetic, rich saturated colors. 8 seconds, smooth forward tracking, cinematic atmosphere.
Slow motion fashion video of model walking toward camera on minimalist runway. Dramatic side lighting creates strong shadows on flowing fabric. Hair and dress move elegantly with each step. Camera dollies backward maintaining distance as model approaches. Fabric ripples and catches light. Confident, powerful stride. Shallow depth of field with clean background. Gradual zoom to face reveal. 6 seconds, 60fps slow motion, high fashion aesthetic.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Pásate hoy a la síntesis guiada por razonamiento

Fast cinematic video with audio
0.1 créditos

Cinematic video with native audio
1.4 créditos

Film-grade video with audio
0.1 créditos

Fast balanced text-to-video generation
1.6 créditos

Cinematic video from references
0.4 créditos

Cinematic video from references
10 créditos

Multi-shot cinematic text-to-video
4 créditos