Text to video with audio
LTX-2.3 22B är en kraftfull text-till-video-modell som förvandlar skrivna beskrivningar till fullt realiserade videoklipp — kompletta med synkroniserat ljud. Beskriv bara scenen du föreställer dig, så förverkligar modellen den som rörlig filmduk, och genererar både visuella element och en matchande soundtrack i ett enda svep. Detta gör den till en idealisk kreativ partner för filmskapare, motion designers, annonsörer, sociala innehållsskapare och visuella berättare som vill gå från idé till färdigt klipp utan att jonglera separata verktyg för bild och ljud.
I modellens kärna ligger dess förmåga att tolka rika, filmiska prompts. En beskrivning som "En cowboy som går genom en dammig stad mitt på dagen, kamera följer bakifrån, kinematisk djup, realistisk belysning, western-stämning, 4K filmkorn" ger modellen allt den behöver för att skapa ett sammanhängande, atmosfäriskt skott. Ju mer beskrivande och avsiktlig din prompt är — med täckning av stämning, belysning, kamerarörelse och visuell stil — desto närmare kommer resultatet din vision. En inbyggd funktion för prompt-utökning kan automatiskt berika dina beskrivningar och hjälpa kortare prompts att ge mer detaljerade och polerade resultat.
LTX-2.3 22B ger dig meningsfull kontroll över längd och form på dina videor. Du kan generera allt från mycket korta klipp med bara ett fåtal frames upp till långa sekvenser med flera hundra frames, vilket låter dig skapa allt från snabba loopar och sociala snippets till utökade narrativa skott. Frame rate är fullt justerbar, så du kan ställa in smidig, filmisk rörelse eller stiliserad timing beroende på ditt projekt. Standardinställningen producerar ett 121-frame-klipp vid 24 frames per sekund — en naturlig, film-liknande rytm. Du kan också välja ditt aspect ratio, med ett bredbilds 16:9 landskapsformat som standard, vilket gör det enkelt att producera material som passar film, webb och sociala plattformar.
En av modellens mest framstående funktioner är integrerad ljudgenerering. Som standard kommer varje video med sin egen genererade soundtrack, så ljudet skapas för att passa scenen istället för att läggas till efteråt. Du har separat kreativ kontroll över hur ljudet formas, och du kan balansera hur mycket vikt modellen lägger på visuella element kontra ljud. Om du föredrar tyst film för projekt där du lägger till eget musik eller voiceover kan ljudgenereringen enkelt stängas av.
För skapare som bryr sig om kameraspråk inkluderar LTX-2.3 22B dedikerade kontroller för kamerarörelser som går bortom vad prompting ensam kan åstadkomma. Du kan välja specifika rörelser som dolly in, dolly out, dolly left, dolly right, jib up, jib down eller ett låst statiskt skott — och justera hur starkt rörelsen appliceras. Detta ger dig pålitlig, upprepningsbar kontroll över kamerans beteende, vilket är ovärderligt för matchande skott, sekvensbygge eller uppnående av en specifik filmisk känsla.
Modellen erbjuder också ett multi-scale-genereringsapproach som är aktiverat som standard. Med detta genererar modellen först en mindre version av videon och använder sedan den för att vägleda en större, mer raffinerad slutrendering. Resultatet är bättre övergripande sammanhang och rikare detaljer i ditt färdiga klipp. Ytterligare raffineringskontroller låter dig justera hur nära utdata följer din prompt, hur fokuserad och konsekvent innehållet förblir, och den övergripande detaljnivån i renderingen. Det finns också en valfri sampling-förbättring som introducerar subtil variation under generering för att hjälpa till att förbättra kvaliteten.
Acceleration-alternativ låter dig välja hur modellen balanserar hastighet och kvalitet, från ingen acceleration upp till full acceleration, så du kan bestämma om du vill ha maximal trohet eller snabbare omsättning. Du kan också ställa in utdatakvalitetsnivån — från låg upp till maximal — och välja hur den slutliga filen skrivs, med alternativ som prioriterar snabbare bearbetning, balanserade resultat eller mindre filstorlekar.
När det gäller leverans av ditt färdiga arbete stödjer LTX-2.3 22B flera utdataformat för olika arbetsflöden. Du kan exportera standard MP4-video, WebM, högkvalitativ ProRes för professionella redigeringsarbetsflöden eller animerade GIF:er för lättviktig delning. Denna flexibilitet betyder att modellen passar bekvämt oavsett om du släpper ett klipp rakt in i ett socialt inlägg eller tar in material i en professionell redigeringsmiljö.
För att hjälpa till att styra resultat bort från oönskade utseenden använder modellen en negativ prompt som standard som avråder från element som news broadcast-styling, 3D-animation, video game- och cartoon-estetik, watermarks, on-screen text, subtitles och alltför statiska eller slow-motion-klipp. Denna standard hjälper till att driva utdata mot naturliga, filmiska, live-action-stilresultat. Du kan justera denna vägledning för att passa din egen kreativa riktning. En safety checker är också aktiverad som standard för att hjälpa till att hålla genererat innehåll lämpligt. För konsistens kan du ställa in en seed-värde, vilket låter dig reproducera eller iterera på ett specifikt resultat.
LTX-2.3 22B passar bäst för skapare som vill ha ett enda, strömlinjeformat sätt att producera korta filmiska videor med ljud — konceptfilmer, stämningsstycken, reklamskott, musikdrivna visuals, animatics, socialt innehåll och narrativa experiment. Eftersom den svarar så bra på detaljerade, evocativa prompts belönar den genomtänkt skrivande: att beskriva belysning, atmosfär, kamerarörelse och subjektbeteende ger konsekvent starkare, mer avsiktligt material. Med sin blandning av audio-visuell generering, flexibla format, professionella exportalternativ och precisa kameraraffineringskontroller erbjuder den ett mångsidigt verktygslåda för att förverkliga föreställda scener på skärmen.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Beskriv din videoscen med rörelse, kameravinklar och stämning
Modellen skapar filmisk rörelse med naturlig fysik och ljussättning
Ladda ner och dela din produktionsfärdiga video
Overhead shot of a sizzling cast iron skillet on gas flame. Fresh vegetables being tossed into the pan creating steam burst. Chef's hands flip ingredients with professional technique. Oil splatters catch the light. Flames briefly flare up. Aromatic herbs sprinkled from above floating down in slow motion. Camera slowly zooms in on the cooking action. Warm kitchen lighting, steam rising. 6 seconds, dynamic motion, appetizing colors.
Tracking shot through a rain-soaked city street at night. Neon signs in Japanese and English reflect in puddles and wet pavement. Camera moves forward at walking pace, passing pedestrians with umbrellas. Steam rises from street vents. Raindrops fall through colorful light beams. Shop windows glow with warm light. Occasional car passes creating light trails. Cyberpunk aesthetic, rich saturated colors. 8 seconds, smooth forward tracking, cinematic atmosphere.
Slow motion fashion video of model walking toward camera on minimalist runway. Dramatic side lighting creates strong shadows on flowing fabric. Hair and dress move elegantly with each step. Camera dollies backward maintaining distance as model approaches. Fabric ripples and catches light. Confident, powerful stride. Shallow depth of field with clean background. Gradual zoom to face reveal. 6 seconds, 60fps slow motion, high fashion aesthetic.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Byt till resonemangsstyrd syntes idag

Multi-shot cinematic text-to-video
4 krediter

Fast cinematic video with audio
0.1 krediter

Cinematic video from references
10 krediter

Cinematic video with native audio
1.4 krediter

Fast balanced text-to-video generation
1.6 krediter

Film-grade video with audio
0.1 krediter

Cinematic video from references
0.4 krediter