ShortGenius
com afegir veu en off a vídeoedició de vídeoveu en off IAàudio per a vídeoshortgenius

Com afegir veu en off a un vídeo: Guia completa (2026)

Sarah Chen
Sarah Chen
Estratèga de contingut

Aprèn com afegir veu en off a un vídeo utilitzant IA, un micròfon professional o el teu telèfon. La nostra guia cobreix la gravació, la sincronització, l'edició i l'optimització d'àudio per a xarxes socials.

Probablement ho has fet ja. Les imatges són netes, els talls són precisos, els subtítols semblen correctes, i el vídeo encara sembla pla des del moment que el reproduïu. Normalment el problema no és el material rodado. És la veu en off.

A les plataformes de format curt, els espectadors perdonen moltes coses abans de perdonar un àudio feble. Una lectura apagada, un eco dur de l’habitació, un ritme dolent o una veu d’AI robòtica poden fer que un muntatge polit semblar barat. Una veu en off clara i intencionada fa el contrari. Dona estructura, to i impuls al vídeo.

La bona notícia és que aprendre com afegir veu en off al vídeo no requereix un estudi complet. El que importa més és triar el mètode de gravació adequat, sincronitzar-lo netament i fer el treball de postproducció que la majoria de tutorials ometen.

Per què el teu vídeo necessita una gran veu en off

Molts creadors tracten la veu en off com l’última casella a marcar. Graven alguna cosa ràpida, l’arrosseguen a la línia temporal, baixen la música, exporten. Aquest flux de treball és exactament el motiu pel qual tants vídeos semblen millors del que sonen.

Una veu en off forta resol tres problemes comuns alhora. Explica el que l’espectador veu, estableix el to emocional i manté el ritme quan les imatges soles no són suficients. Això importa en tutorials, demostrations de productes, anuncis, contingut sense cares, explicacions amb caps parlants i gairebé tots els formats de format curt on els primers segons decideixen si algú es queda o fa scroll.

Una persona jove asseguda en una cadira sostenint una tauleta que mostra gràfics d’ones d’àudio colorits i text.

El costat empresarial explica la mateixa història. El mercat global de veu en off va ser valorat en 4.200 milions de dòlars el 2024 i es projecta que arribi als 8.600 milions de dòlars per al 2034, segons les dades del mercat de la indústria de veu en off. Aquest tipus de creixement reflecteix la importància que ha adquirit el contingut narrat a màrqueting, educació, anuncis i vídeo social.

El que realment fa una mala veu en off

Una mala veu en off no només sona poc polida. Crea fricció.

  • Ralentitza la comprensió quan l’entrega és vaga o massa ràpida.
  • Debilitza la confiança quan l’eco de l’habitació, el clipping o frases robòtiques fan que l’àudio sembli d’esforç mínim.
  • Danya la retenció perquè els espectadors han de treballar més per seguir el missatge.
  • Trenca la sensació de marca quan cada vídeo sona diferent.

Una bona veu en off hauria de semblar invisible. L’espectador no hauria de pensar en l’àudio. Simplement hauria de continuar mirant.

Tens més d’un camí

No hi ha un flux de treball correcte. N’hi ha tres pràctics.

Alguns creadors usen un telèfon quan la velocitat importa més que el poliment. Alguns graven amb un micròfon dedicat perquè la seva pròpia veu forma part de la marca. D’altres usen AI perquè necessiten consistència, iteracions més ràpides o sortida multilingüe. Els tres poden funcionar. La diferència és si neteges l’àudio i adapte el mètode a la feina.

Triant el teu mètode de gravació de veu en off

El mètode equivocat crea feina extra abans de començar l’edició. He vist creadors passar més temps arreglant una gravació apresurada del que haurien passat fent-ne una millor des del principi.

Tria en funció del rol que juga la veu en off en el teu contingut. Si el teu públic et segueix per la teva personalitat, la teva veu gravada importa més. Si portes una màquina de contingut per a anuncis, explicacions o vídeos de productes, l’escala i la consistència poden importar més que la interpretació vocal.

Comparació de mètodes de veu en off

MètodeCostQualitat d’àudioVelocitat i comoditatMillor per a
SmartphoneBaixAcceptable en una habitació silenciosa, control limitatEl més ràpid per capturarHistòries, actualitzacions ràpides, esbossos
Micròfon proModerat a altMillor control i resultat més naturalMés lent perquè la gravació i neteja prenen tempsMarques personals, YouTube, anuncis premium, educació
Generador de veu AIVariable segons l’einaPot sonar fort amb els paràmetres adequats, més feble si es deixa genèricMolt ràpid per a producció i revisionsCanals sense cares, agències, contingut multilingüe, proves de versions

La gravació amb smartphone funciona quan la velocitat és l’únic objectiu

Un telèfon és acceptable per a contingut temporal, clips casuals o moments en què l’autenticitat importa més que el poliment. Si fas una reacció ràpida, una actualització de darrere de l’escena o una publicació de tendència el mateix dia, la comoditat pot guanyar.

Però els telèfons exposen tots els problemes d’habitacions no tractades. Pareds dures creen reflexions. La distància mata la presència. Els micròfons integrats no et donen gaire marge per modelar el so després.

Usa un telèfon si:

  • Necessites publicar ràpid
  • Graves en una habitació silenciosa i suau
  • El contingut és intencionadament casual

Evita’l si la veu en off porta copia de vendes, ensenyament o posicionament de marca.

Un micròfon dedicat et dona control

Si la teva veu forma part del producte, una configuració de micròfon adequada val la pena. Obtes un to millor, menys soroll ambiental i resultats molt més previsibles en l’edició. Aquesta és la millor ruta per a creadors que construeixen una veu recognizable i per a qualsevol que vulgui que el so resisteixi a YouTube, Instagram, TikTok i social pagat.

El compromís és el temps. La gravació manual requereix configuració, repeticions, edició i un tractament d’àudio bàsic. Aquest treball compensa quan la consistència importa.

Regla pràctica: Si vols que la mateixa veu es faci familiar al llarg de mesos de contingut, usa un micròfon real i construeix una configuració de gravació repetible.

Els generadors de veu AI guanyen en velocitat i escala

L’AI és l’opció pràctica quan necessites volum. També és útil quan vols provar diversos ganchos, canviar estils de narrador, localitzar un guió o mantenir un so consistent en un equip.

El inconvenient és obvi. La sortida genèrica sona genèrica. Si no ajustes el ritme, l’èmfasi i la redacció del guió, el resultat pot semblar sense vida. L’AI funciona millor quan el tractes com un narrador que encara necessita direcció.

Un filtre de decisió senzill ajuda:

  1. Usa el teu telèfon per a contingut ràpid, desechable o altament casual.
  2. Usa un micròfon pro quan la qualitat vocal forma part de la teva reputació.
  3. Usa AI quan el temps de gir, la consistència o la producció multilingüe importen més.

Com gravar una veu en off professional manualment

Si graves la teva pròpia veu, la majoria de la qualitat ve de la configuració abans de prémer gravar. Una lectura mediocre en un espai controlat sol vèncer una gran lectura en una habitació dolenta.

Una persona amb jersei verd i gorra gravant un podcast amb un micròfon d’estudi professional.

La pràctica professional és directa. Usa un micròfon dinàmic, aplica un filtre high-pass a 80-100Hz i compressió a una relació 4:1 per mantenir la veu consistent a -12 a -6dB LUFS, com s’indica a les millors pràctiques de veu en off de Lightworks.

Comença amb l’habitació, no amb el micròfon

Un gran micròfon en una habitació reflectant encara sona dolent. Abans de pensar en plugins o presets, redueix els problemes de l’habitació.

Bones opcions improvisades:

  • Un armari amb roba perquè els materials tous absorbeixen les reflexions
  • Un racó amb cortines, catifes i mobles tous
  • Una configuració d’escriptori amb mantes o panells acústics a prop

Evita cuines, oficines buides i habitacions amb parets nues. Aquests espais exageren les reflexions dures i fan que la veu sembli distant.

La tècnica del micròfon importa més del que creuen la majoria de principiants

La distància i l’angle modelen la gravació immediatament. Mantingues-te a uns 15-30 cm del micròfon i parla lleugerament fora d’eix en lloc de directament cap a ell. Això ajuda a reduir plosives i explosió de boca en paraules amb consonants dures.

Unes quantes hàbits milloren els resultats ràpidament:

  • Usa un pop filter: Atrapa les ràfegues d’aire abans que toquin la càpsula.
  • Mantén una postura oberta: Una postura col·lapsada fa que les lectures sonin petites.
  • Marca la teva posició: Si et mous, el to canvia entre preses.
  • Grava el to de l’habitació: Uns segons de silenci ajuden si necessites netejar després.

Grava una prova curta, després escolta amb auriculars abans de la presa completa. Arreglar una configuració sorollosa després de deu minuts de narració és una manera dolorosa d’aprendre.

Grava com si un editor toqués el fitxer després

No intentis clavar tot el guió en una presa heroica. Grava en seccions. Deixa un temps entre línies. Si comets un error, pausa, repeteix la frase netament i continua. Això et dona punts d’edició evidents.

Un flux de treball senzill:

  1. Escriu per parlar, no per llegir. Línies més curtes sonen més naturals.
  2. Escalfa la veu. La primera presa freda sol sonar tensa.
  3. Configura el guany de manera conservadora. El clipping arruïna bones preses.
  4. Grava en WAV si és possible. Et dona més flexibilitat després.
  5. Fes dues versions de línies clau. Una neutra, una amb més energia.

La primera passada de neteja

Un cop gravat, fes el tractament bàsic abans de sincronitzar-lo amb el vídeo.

  • Aplica el filtre high-pass a 80-100Hz
  • Afegeix EQ suau per claredat
  • Usa compressió 4:1
  • Normalitza la veu en l’interval objectiu
  • Elimina clics, alenades o distraccions de fons evidents

Això és el que diferencia una gravació crua d’una veu en off que s’integra bé en un mix de vídeo social.

Com generar veus en off d’AI impecables amb ShortGenius

Acabes un muntatge de format curt, afegeixes una veu d’AI i el resultat encara sembla barat. Les paraules són correctes. El ritme és dolent. El to falla el ganxo. A TikTok i Instagram, aquesta bretxa es nota ràpidament en la retenció.

La veu en off d’AI funciona millor com un sistema de producció, no com un botó màgic. Et dona revisions ràpides, entrega consistent en lots i molt menys reregravacions quan canvia el guió. El compromís és la direcció. Si no modeles el guió, el ritme i el postprocessament, la sortida sona plana fins i tot amb un bon model de veu.

Una mà apuntant a un botó verd Generate Voice en una pantalla que mostra programari de creació d’àudio AI.

Algunes anàlisis de fluxos de treball d’AI de veu informen d’estalvis importants de temps gràcies a la neteja automatitzada i una resposta més forta dels oients a veus clonades ben entrenades que al text-to-speech genèric. Això coincideix amb el que veuen els creadors en la pràctica. El guany principal no és només la velocitat. És la capacitat de provar múltiples ganchos, tons i lectures de línies abans de comprometre’t amb el tall final.

Escriu per a l’entrega d’AI

L’AI interpreta la còpia al peu de la lletra. Oracions denses, clàusules apilades i punts d’èmfasi vagues produeixen el ritme sintètic familiar que mata el temps de visualització.

Els guions fets per a AI solen tenir:

  • una idea per oració
  • paraules d’estrès clares prop del final de la línia
  • transicions curtes entre escenes
  • punts de pausa deliberats
  • redacció que sona parlada, no publicada

També acorto més les línies d’obertura per a social que per a YouTube. Si la primera oració no pot aterrar netament en menys de tres segons, la reescriu abans de tocar els paràmetres de veu.

Si necessites versions multilingües, arregla el guió abans de generar, no després. La traducció directa sovint preserva el significat però perd el ritme. Per a equips que localitzen anuncis, tutorials o clips d’estil creador, aquesta guia sobre com traduir fitxers de veu i àudio amb precisió és útil perquè la redacció i l’entrega solen necessitar adaptació abans del render final.

El flux de treball dins de ShortGenius

Un bon flux de treball d’AI manté l’escriptura, la selecció de veu i les revisions junts. Per això molts creadors usen ShortGenius per a veu en off AI i producció de vídeo de format curt en lloc de dividir la feina entre eines separades de guió, TTS, subtítols i edició.

Un flux de treball pràctic sembla així:

  1. Redacta per escena Escriu la narració per coincidir amb cops visuals, no amb el document complet del concepte.

  2. Tria una veu que s’adapti al format Els promos d’estil UGC necessiten una lectura diferent d’explicacions sense cares o demos de productes.

  3. Configura el ritme intencionadament Una mica més lent sovint sona més segur. Una mica més ràpid pot funcionar per urgència, però només si el guió és escàs.

  4. Renderitza una mostra curta primer Prova el ganxo i una secció del mig del vídeo abans de generar el guió complet.

  5. Arregla línies dolentes al nivell del guió Si l’èmfasi sona malament, reescriu l’oració. Els paràmetres només poden fer tant.

  6. Genera alternatives Crea dues o tres versions de la línia d’obertura. És una de les maneres més fàcils de millorar la retenció sense reconstruir tot l’edició.

Aquí tens una demostració si vols veure el flux en acció.

El que separa l’AI usable de l’AI polit

Les veus en off d’AI dolentes fallen de maneres previsibles. El guió està sobrecarregat. El ritme predeterminat es deixa intacte. La veu no coincideix amb el material. El render va directament a la línia temporal sense acabat d’àudio.

Els creadors que obtenen bons resultats a social fan més que generar i exportar. Tracten la narració d’AI com material cru. Això significa ajustar pronunciació, dividir línies llargues en frases més netes i fer un post treball suau perquè la veu talli a través d’altaveus de telèfon sense sonar dura.

La narració AI sona natural quan el guió està ben dirigit i el fitxer exportat s’acaba com àudio de veu en off real.

Aquest poliment extra és el que fa l’AI usable per a producció social d’alt volum. També tanca la bretxa de qualitat entre la narració sintètica ràpida i el so més ajustat i deliberat associat amb treballs professionals de veu.

Sincronització i edició de la teva veu en off a la perfecció

Un cop existeix el fitxer, la part difícil no és afegir-lo a la línia temporal. És fer que sembli natiu del vídeo en lloc de superposat al damunt.

Una infografia que detalla el procés de sis passos per sincronitzar una pista de veu en off amb programari d’edició de vídeo.

Si el teu clip font ja té àudio de càmera distractor, soroll de ventiladors o parla accidental, neteja-ho primer. Una utilitat senzilla per eliminar l’àudio existent del teu vídeo pot estalviar temps abans de començar a sincronitzar la narració final.

Comença amb una sincronització aproximada

Importa el teu àudio a Premiere Pro, DaVinci Resolve, CapCut, Final Cut, VEED o qualsevol editor que usis. Deixa la veu en off en una pista pròpia sota el vídeo i alinea-la per significat primer, no per perfecció de fotograma.

Per a una sincronització aproximada, centra’t en:

  • on ha de començar la primera frase parlada
  • on les accions visuals necessiten suport verbal
  • on deixar la silenci intacte

Si la veu en off es va gravar amb un guió que coincideix amb l’edició, aquesta part va ràpid. Si el guió va canviar després del tall, espera retallar línies o moure clips.

Ajusta amb formes d’ona i indicadors visuals

Aumenta la línia temporal i escolta oració per oració. La sincronització ajustada importa més quan la narració fa referència a una acció visible, text a pantalla, moviment de mà o revelació de producte.

Usa:

  • pics de forma d’ona per inicis de parla evidents
  • marcadors per cops visuals clau
  • retalls petits en lloc de desplaçaments grans un cop estiguis a prop

Usa edicions de superposició per suavitzar el flux

Un tall de principiant sovint sona abrupte perquè cada línia de veu comença exactament quan apareix el nou pla. No sempre és el millor moviment.

Dos patrons d’edició senzills ajuden:

  • J-cut: La següent línia de veu comença abans que canviï el visual.
  • L-cut: La línia de veu actual continua després que canviï el visual.

Aquestes edicions fan que el vídeo sembli més intencionat i deixen que la veu guiï l’espectador a través de les transicions.

Si un tall sembla saltironeta, no sempre arreglis la imatge primer. Sovint la solució més suau és moure l’àudio una fracció.

Equilibra veu, música i efectes

Un cop el temps estigui blocat, barreja la pista. La veu sempre ha de guanyar. La música de fons hauria de donar suport a l’energia sense competir per atenció.

Una passada final pràctica:

  1. baixa la música sota el diàleg
  2. elimina alenades distractorses només quan atrauen l’atenció
  3. esvaeix inicis i finals de línies netament
  4. comprova transicions en altaveus i auriculars
  5. mira una vegada sense tocar la línia temporal

Aquesta visualització final en temps real detecta més problemes que ajustos micro endlessos.

Consells avançats per polir l’àudio de la teva veu en off

La veu en off crua gairebé mai és veu en off acabada. Aquest és l’pas que la majoria de creadors apressen, i és l’pas que sovint separa el contingut creïble del contingut casolà.

El motiu és senzill. Els espectadors reaccionen al so més ràpidament que l’anàlisi conscient. Si la veu és fangosa, sorollosa, prima, dura o inconsistent, senten resistència abans de decidir per què.

Una raó forta per no saltar-te el poliment és el comportament del públic. Un estudi de Wistia va trobar que els problemes de qualitat d’àudio causen que el 42% dels espectadors abandonin vídeos de format curt en els primers 5 segons, i la recerca sobre l’efecte de numerositat vocal va trobar que usar múltiples veus pot augmentar la persuasivitat i la finançació a Kickstarter en més del 30%, com es resumeix a l’article de SMU sobre veus en off en màrqueting de vídeo.

Neteja el soroll abans d’enriquir la veu

Moltes persones salten a EQ primer. És al revés si la pista té xiulet, brunzit, to d’habitació o rumble baix.

Comença eliminant el que no hauria d’estar allà:

  • Usa reducció de soroll lleugerament perquè la veu no quedi aquosa
  • Gate amb cura si el soroll ambiental està entre frases
  • Talla el rumble abans d’augmentar la claredat
  • Retalla alenades dolentes i clics de boca només quan distrguin

Una neteja pesada pot fer que una veu soni pitjor que l’original. L’objectiu no és àudio estèril. És àudio controlat.

EQ per claredat, no per impressió

Un bon EQ sol sonar avorrit en mode solo i excel·lent en el mix complet. Intentar crear intel·ligibilitat, no drama de ràdio.

Moviments útils inclouen:

  • Filtratge high-pass per netejar rumble baix
  • Tallar low-mids fangosos si la veu sembla encaixonada
  • Afegir una mica de presència perquè les consonants es llegin clarament
  • Reduir duresa o sibilància si l’extrem alt mossega

Si sents una transformació dramàtica després d’un moviment agressiu d’EQ, sovint és massa.

La compressió és la teva eina de consistència

La compressió és el que manté una veu al davant de l’espectador en lloc de saltar en volum. Ajuda les línies quietes a romandre entenedores i manté les línies més fortes sense saltar.

El que funciona:

  • compressió moderada
  • reducció de guany que sona controlada, no esclafada
  • nivell de sortida coincident després de compressió

El que no:

  • esclafar la vida de la lectura
  • alluminar massa després de compressió
  • intentar arreglar una tècnica dolenta de micròfon amb plugins

Regla pràctica: Si pots sentir el compressor treballant, redueix-lo.

Ritme, silenci i múltiples veus

El poliment d’àudio no és només tècnic. És editorial.

De vegades el moviment més intel·ligent és deixar mig segon de silenci abans que aterri la línia clau. De vegades és tallar una frase que repeteix el que ja mostra el visual. I en alguns formats, afegir una segona veu crea contrast que manté l’atenció alta.

Múltiples veus són especialment útils per a:

  • anuncis d’estil diàleg
  • skits i promos d’estil UGC
  • comparacions abans i després
  • tutorials amb línies d’amfitrió i client

La part important és la moderació. Dues veus distintes poden semblar dinàmiques. Masses veus poden fer que un vídeo curt sembli desordenat.

Exportació i publicació del teu vídeo per a xarxes socials

Quan exportes, les decisions creatives ja haurien d’estar acabades. L’exportació és on protegeixes el treball, no on esperes que la plataforma l’arregli.

Mantén el fitxer final senzill i amic de la plataforma. Exporta amb àudio net, després mira el fitxer renderitzat abans de pujar-lo a qualsevol lloc. Els problemes sovint apareixen només després de l’exportació, especialment talls abrupts, fades mancats i música que surt més alta de l’esperat.

Llistat final abans de publicar

  • Mira l’exportació completa una vegada: No facis scrub. Reprodueix-la sencera.
  • Comprova els primers segons de prop: La línia d’obertura ha de ser clara immediatament.
  • Verifica els subtítols: Els subtítols haurien de donar suport a la veu en off, no lluitar-hi.
  • Escolta en altaveus de telèfon: Allà és on es jutja molt contingut de format curt.
  • Comprova l’equilibri de música una altra vegada: Un mix que semblava bé amb auriculars pot quedar fangós en mòbil.
  • Assegura’t que el final es resolgui netament: Sense paraula final tallada, cua de música o silenci incòmode.

Els subtítols formen part de l’estratègia d’àudio

Una bona veu en off i bons subtítols treballen junts. Els subtítols ajuden espectadors silenciats, milloren l’accessibilitat i reforcen línies clau quan l’entorn del feed és sorollós o distractor.

Per a TikTok, Instagram Reels, YouTube Shorts i vídeo de Facebook, el millor resultat sol ser una pista parlada clara combinada amb text net a pantalla. Si la veu explica i els subtítols repeteixen el missatge netament, el vídeo es fa més fàcil de seguir en més condicions de visualització.

Publicar vídeo narrat fort es redueix a un hàbit. No tractis l’àudio com una capa. Tracta’l com l’espina dorsal del vídeo.


Si vols una manera més ràpida d’escriure guions, generar veus en off naturals, muntar escenes, afegir subtítols, intercanviar variants i publicar a canals des d’un sol flux de treball, prova ShortGenius (AI Video / AI Ad Generator). Està fet per a creadors i equips que necessiten convertir idees en vídeo social polit sense unir una pila d’eines separades.