Text to video with audio
LTX-2.3 22B é um poderoso modelo text-to-video que transforma descrições escritas em clipes de vídeo totalmente realizados — completos com áudio sincronizado. Basta descrever a cena que você imagina, e o modelo a traz à vida como imagens em movimento, gerando tanto os visuais quanto uma trilha sonora correspondente em uma única passagem. Isso o torna um parceiro criativo ideal para cineastas, designers de motion, anunciantes, criadores de conteúdo social e contadores de histórias visuais que desejam ir da ideia ao clipe final sem gerenciar ferramentas separadas para imagem e som.
No coração do modelo está sua capacidade de interpretar prompts ricos e cinematográficos. Uma descrição como "A cowboy walking through a dusty town at high noon, camera following from behind, cinematic depth, realistic lighting, western mood, 4K film grain" dá ao modelo tudo o que precisa para compor um take coerente e atmosférico. Quanto mais descritivo e intencional for seu prompt — cobrindo humor, iluminação, comportamento da câmera e estilo visual —, mais próximo o resultado ficará da sua visão. Um recurso integrado de expansão de prompt pode enriquecer automaticamente suas descrições, ajudando prompts mais curtos a produzirem resultados mais detalhados e polidos.
LTX-2.3 22B oferece controle significativo sobre o comprimento e o formato dos seus vídeos. Você pode gerar desde clipes muito curtos com apenas alguns frames até sequências longas de várias centenas de frames, permitindo criar tudo, desde loops rápidos e trechos para redes sociais até takes narrativos estendidos. A taxa de frames também é totalmente ajustável, para que você possa configurar movimentos suaves e cinematográficos ou temporizações estilizadas dependendo do seu projeto. A configuração padrão produz um clipe de 121 frames a 24 frames por segundo — um ritmo natural, como em filme. Você também pode escolher a proporção de aspecto, com o formato widescreen 16:9 em paisagem como padrão, facilitando a produção de material adequado para cinema, web e plataformas sociais.
Uma das características de destaque do modelo é a geração de áudio integrada. Por padrão, todo vídeo vem com sua própria trilha sonora gerada, de modo que o som é criado para se adequar à cena, em vez de ser adicionado depois. Você tem controle criativo separado sobre como o áudio é moldado, e pode equilibrar o quanto o modelo enfatiza os visuais em relação ao som. Se preferir imagens mudas para projetos em que você adicionará sua própria música ou narração, a geração de áudio pode ser simplesmente desativada.
Para criadores que se importam com a linguagem da câmera, LTX-2.3 22B inclui controles dedicados de movimento de câmera que vão além do que o prompt sozinho pode alcançar. Você pode escolher movimentos específicos, como dolly in, dolly out, dolly left, dolly right, jib up, jib down ou um take estático fixo — e ajustar a intensidade desse movimento. Isso dá controle confiável e repetível sobre o comportamento da câmera, o que é inestimável para combinar takes, construir sequências ou alcançar uma sensação cinematográfica particular.
O modelo também oferece uma abordagem de geração multi-escala ativada por padrão. Com isso, o modelo primeiro gera uma versão menor do vídeo e depois a usa para guiar um render final maior e mais refinado. O resultado é maior coerência geral e detalhes mais ricos no clipe final. Controles adicionais de refinamento permitem ajustar o quão fielmente a saída segue seu prompt, o quão focado e consistente o conteúdo permanece, e o nível geral de detalhe do render. Há também uma melhoria opcional de amostragem que introduz variação sutil durante a geração para ajudar a melhorar a qualidade.
Opções de aceleração permitem escolher como o modelo equilibra velocidade e qualidade, desde nenhuma aceleração até aceleração total, para que você decida se quer fidelidade máxima ou processamento mais rápido. Você também pode definir o nível de qualidade da saída — de baixo até máximo — e escolher como o arquivo final é gravado, com opções que priorizam processamento mais rápido, resultados equilibrados ou tamanhos de arquivo menores.
Ao entregar seu trabalho finalizado, LTX-2.3 22B suporta vários formatos de saída para se adequar a diferentes fluxos de trabalho. Você pode exportar vídeo MP4 padrão, WebM, ProRes de alta qualidade para pipelines de edição profissional ou GIFs animados para compartilhamento leve. Essa flexibilidade significa que o modelo se adapta perfeitamente, seja você soltando um clipe diretamente em uma postagem social ou levando material para uma suíte de edição profissional.
Para ajudar a direcionar os resultados para longe de aparências indesejadas, o modelo usa um prompt negativo por padrão que desencoraja elementos como estilo de transmissão de notícias, animação 3D, estética de videogame e cartoon, marcas d'água, texto na tela, legendas e imagens excessivamente estáticas ou em câmera lenta. Esse padrão ajuda a empurrar a saída para resultados naturais, cinematográficos e em live-action. Você pode ajustar essa orientação para se adequar à sua direção criativa. Um verificador de segurança também está ativado por padrão para ajudar a manter o conteúdo gerado apropriado. Para consistência, você pode definir um valor de seed, que permite reproduzir ou iterar em um resultado particular.
LTX-2.3 22B é mais adequado para criadores que querem uma forma única e simplificada de produzir vídeos cinematográficos curtos com som — filmes conceituais, peças de humor, takes publicitários, visuais impulsionados por música, animatics, conteúdo social e experimentos narrativos. Como responde tão bem a prompts detalhados e evocativos, recompensa a escrita pensada: descrever iluminação, atmosfera, movimento de câmera e comportamento do sujeito consistentemente produzirá imagens mais fortes e intencionais. Com sua combinação de geração audiovisual, formatos flexíveis, opções de exportação profissional e controles precisos de câmera e refinamento, oferece uma caixa de ferramentas versátil para trazer cenas imaginadas à tela.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Descreva a cena do seu vídeo com movimento, ângulos de câmera e clima
O modelo cria movimento cinematográfico com física e iluminação naturais
Baixe e compartilhe seu vídeo pronto para produção
Overhead shot of a sizzling cast iron skillet on gas flame. Fresh vegetables being tossed into the pan creating steam burst. Chef's hands flip ingredients with professional technique. Oil splatters catch the light. Flames briefly flare up. Aromatic herbs sprinkled from above floating down in slow motion. Camera slowly zooms in on the cooking action. Warm kitchen lighting, steam rising. 6 seconds, dynamic motion, appetizing colors.
Tracking shot through a rain-soaked city street at night. Neon signs in Japanese and English reflect in puddles and wet pavement. Camera moves forward at walking pace, passing pedestrians with umbrellas. Steam rises from street vents. Raindrops fall through colorful light beams. Shop windows glow with warm light. Occasional car passes creating light trails. Cyberpunk aesthetic, rich saturated colors. 8 seconds, smooth forward tracking, cinematic atmosphere.
Slow motion fashion video of model walking toward camera on minimalist runway. Dramatic side lighting creates strong shadows on flowing fabric. Hair and dress move elegantly with each step. Camera dollies backward maintaining distance as model approaches. Fabric ripples and catches light. Confident, powerful stride. Shallow depth of field with clean background. Gradual zoom to face reveal. 6 seconds, 60fps slow motion, high fashion aesthetic.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Mude para a síntese guiada por raciocínio hoje mesmo

Fast cinematic video with audio
0.1 créditos

Cinematic video from references
10 créditos

Multi-shot cinematic text-to-video
4 créditos

Cinematic video with native audio
1.4 créditos

Fast balanced text-to-video generation
1.6 créditos

Cinematic video from references
0.4 créditos

Film-grade video with audio
0.1 créditos