Text to video with audio
O LTX-2.3 22B é um poderoso modelo text-to-video que transforma descrições escritas em clipes de vídeo totalmente realizados — completos com áudio sincronizado. Basta descrever a cena que imagina, e o modelo dá-lhe vida como imagens em movimento, gerando tanto as visuais como uma banda sonora correspondente numa única passada. Isto torna-o um parceiro criativo ideal para cineastas, designers de movimento, anunciantes, criadores de conteúdo social e contadores de histórias visuais que querem ir da ideia ao clipe finalizado sem gerir ferramentas separadas para imagem e som.
No coração do modelo está a sua capacidade de interpretar prompts ricos e cinematográficos. Uma descrição como "A cowboy walking through a dusty town at high noon, camera following from behind, cinematic depth, realistic lighting, western mood, 4K film grain" dá ao modelo tudo o que precisa para compor um plano coerente e atmosférico. Quanto mais descritivo e intencional for o seu prompt — abrangendo humor, iluminação, comportamento da câmara e estilo visual —, mais próximo o resultado estará da sua visão. Uma funcionalidade integrada de expansão de prompts pode enriquecer automaticamente as suas descrições, ajudando prompts mais curtos a produzir resultados mais detalhados e polidos.
O LTX-2.3 22B dá-lhe controlo significativo sobre a duração e o formato dos seus vídeos. Pode gerar desde clipes muito curtos de apenas algumas dezenas de frames até sequências longas de várias centenas de frames, permitindo criar tudo, desde loops rápidos e snippets sociais a planos narrativos alargados. A taxa de frames é totalmente ajustável, pelo que pode definir movimento suave e cinematográfico ou temporização estilizada consoante o seu projeto. A configuração predefinida produz um clipe de 121 frames a 24 frames por segundo — um ritmo natural, semelhante ao de um filme. Pode também escolher a proporção do ecrã, com um formato landscape widescreen 16:9 definido como predefinido, facilitando a produção de imagens adequadas a plataformas de cinema, web e redes sociais.
Uma das funcionalidades mais destacadas do modelo é a geração de áudio integrada. Por predefinição, todos os vídeos vêm com uma banda sonora gerada, pelo que o som é criado para se adequar à cena em vez de ser adicionado depois. Tem controlo criativo separado sobre a forma como o áudio é moldado, e pode equilibrar a ênfase que o modelo coloca nas visuais versus o som. Se preferir imagens sem som para projetos onde adicionará a sua própria música ou voiceover, a geração de áudio pode ser simplesmente desligada.
Para criadores que se preocupam com a linguagem da câmara, o LTX-2.3 22B inclui controlos dedicados de movimento da câmara que vão além do que os prompts sozinhos podem conseguir. Pode escolher movimentos específicos como dolly in, dolly out, dolly left, dolly right, jib up, jib down ou um plano estático bloqueado — e ajustar quão fortemente esse movimento é aplicado. Isto dá-lhe um controlo fiável e repetível sobre o comportamento da câmara, o que é inestimável para combinar planos, construir sequências ou alcançar uma sensação cinematográfica particular.
O modelo oferece também uma abordagem de geração multi-escala ativada por predefinição. Com esta, o modelo gera primeiro uma versão menor do vídeo e depois usa-a para guiar um render final maior e mais refinado. O resultado é uma maior coerência geral e mais detalhes ricos no clipe final. Controlos adicionais de refinamento permitem ajustar quão de perto a saída segue o seu prompt, quão focado e consistente o conteúdo permanece, e o nível geral de detalhe do render. Há também uma melhoria de amostragem opcional que introduz variação subtil durante a geração para ajudar a melhorar a qualidade.
Opções de aceleração permitem-lhe escolher como o modelo equilibra velocidade e qualidade, desde nenhuma aceleração até aceleração total, pelo que pode decidir se quer fidelidade máxima ou tempos de viragem mais rápidos. Pode também definir o nível de qualidade de saída — desde baixo até máximo — e escolher como o ficheiro final é escrito, com opções que favorecem processamento mais rápido, resultados equilibrados ou tamanhos de ficheiro mais pequenos.
No que diz respeito à entrega do seu trabalho finalizado, o LTX-2.3 22B suporta vários formatos de saída para se adequar a fluxos de trabalho diferentes. Pode exportar vídeo MP4 standard, WebM, ProRes de alta qualidade para pipelines de edição profissional, ou GIFs animados para partilha leve. Esta flexibilidade significa que o modelo se adapta confortavelmente, quer esteja a inserir um clipe diretamente num post social quer a levar imagens para um suite de edição profissional.
Para ajudar a direcionar os resultados para longe de aparências indesejadas, o modelo usa um prompt negativo por predefinição que desencoraja elementos como estilos de transmissão de notícias, animação 3D, estéticas de videojogos e cartoons, marcas de água, texto no ecrã, legendas e imagens excessivamente estáticas ou em slow-motion. Esta predefinição ajuda a empurrar a saída para resultados naturais, cinematográficos e em live-action. Pode ajustar esta orientação para se adequar à sua direção criativa. Um verificador de segurança também está ativado por predefinição para ajudar a manter o conteúdo gerado apropriado. Para consistência, pode definir um valor de seed, que lhe permite reproduzir ou iterar num resultado particular.
O LTX-2.3 22B é mais adequado a criadores que querem uma forma única e simplificada de produzir vídeos curtos cinematográficos com som — filmes de conceito, peças de humor, planos publicitários, visuais impulsionados por música, animatics, conteúdo social e experimentos narrativos. Como responde tão bem a prompts detalhados e evocativos, recompensa a escrita pensada: descrever iluminação, atmosfera, movimento da câmara e comportamento do sujeito produzirá consistentemente imagens mais fortes e intencionais. Com a sua combinação de geração áudio-visual, formatos flexíveis, opções de exportação profissional e controlos precisos de câmara e refinamento, oferece uma caixa de ferramentas versátil para trazer cenas imaginadas ao ecrã.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Descreva a cena do seu vídeo com movimento, ângulos de câmara e ambiente
O modelo cria movimento cinematográfico com física e iluminação naturais
Transfira e partilhe o seu vídeo pronto para produção
Overhead shot of a sizzling cast iron skillet on gas flame. Fresh vegetables being tossed into the pan creating steam burst. Chef's hands flip ingredients with professional technique. Oil splatters catch the light. Flames briefly flare up. Aromatic herbs sprinkled from above floating down in slow motion. Camera slowly zooms in on the cooking action. Warm kitchen lighting, steam rising. 6 seconds, dynamic motion, appetizing colors.
Tracking shot through a rain-soaked city street at night. Neon signs in Japanese and English reflect in puddles and wet pavement. Camera moves forward at walking pace, passing pedestrians with umbrellas. Steam rises from street vents. Raindrops fall through colorful light beams. Shop windows glow with warm light. Occasional car passes creating light trails. Cyberpunk aesthetic, rich saturated colors. 8 seconds, smooth forward tracking, cinematic atmosphere.
Slow motion fashion video of model walking toward camera on minimalist runway. Dramatic side lighting creates strong shadows on flowing fabric. Hair and dress move elegantly with each step. Camera dollies backward maintaining distance as model approaches. Fabric ripples and catches light. Confident, powerful stride. Shallow depth of field with clean background. Gradual zoom to face reveal. 6 seconds, 60fps slow motion, high fashion aesthetic.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Mude hoje para a síntese guiada por raciocínio

Cinematic video from references
0.4 créditos

Multi-shot cinematic text-to-video
4 créditos

Film-grade video with audio
0.1 créditos

Fast cinematic video with audio
0.1 créditos

Cinematic video from references
10 créditos

Cinematic video with native audio
1.4 créditos

Fast balanced text-to-video generation
1.6 créditos