Actualizado 15 de febrero, 2025

Voz → flujo de trabajo avatar 2025: ElevenLabs Studio 3.0 + HeyGen

Construimos un gasoducto completo: record/clone en ElevenLabs Studio 3.0, dub en varios idiomas, luego alimentan las pistas en un generador de avatar sin perder el síntoma de labios. Aquí están los ajustes y la lista de verificación de exportación.

Se realizaron pruebas en los modelos Studio 3.0 de finales de 2024 con exportaciones de 48 kHz WAV, y luego se realizaron en HeyGen y CapCut con traducción y sincronización de labios.

Use esto como una plantilla repetible. Cada paso a continuación se prueba en ganchos cortos (30–45 segundos) y explicadores de forma media (4–8 minutos) para que pueda ver dónde se desvía la sincronización y cómo solucionarlo rápidamente.

Preset basal que seguimos cargados en Studio 3.0

Comience con un preset consistente por lo que no está adivinando por idioma. Esta es la construcción que sobrevivió a los handoffs más herramientas:

Ajustes de voz: Estabilidad 62–68, Claridad + Similaridad 42–48, Exageración de estilo apagado.
Seguridad: Watermark on, blocklist for brand/medical terms, “preserve punctuation” enabled for dubbing.
Normalización de entrada: Loudness -16 LUFS con -3 dB techo pico; de-ess a 6-8 kHz, puerta de luz a -38 dB.
Exportar: WAV 48 kHz mono para voz; mantener los tallos para música/SFX si se remix después.

Qué cambió en Studio 3.0

Menor latencia en cortometrajes, consonantes más constantes, menos fonemas duplicados en las exportaciones concatenadas.
Marca de agua por defecto; frases opcionales bloqueadas para nombres de marca y términos de cumplimiento.
Dubbing preserva la puntuación y pausas mejor que 2024, por lo que las leyendas permanecen más cerca del tiempo de origen.
Stems export (voice/ambience) para mezclar más limpiamente y más fácil de último kilómetro en su NLE.

Captura y limpieza antes de la clonación

Grabar 20–40 segundos de tono limpio por altavoz. Evite el tono de la habitación más de dos segundos para que el modelo no aprenda ruido extra.
Normalizar a -16 LUFS con un limitador transparente; recortar los clics boca debajo de -42 dB para evitar las colas robóticas después de la traducción.
Añadir 200 ms de silencio a la cabeza y a la cola; Studio 3.0 mantiene esas pausas, lo que ayuda a las leyendas alineadas en cortes posteriores.
Ejecute una prueba de escucha corta sobre plosives (“p/b/t”) y fricatives (“s/f”) antes de la clonación. Si brotan, vuelva a hacer la toma en lugar de over-EQing.

Ajustes recomendados de apropiación

Mantenga encendido la marca de agua; agregue nombres sensibles a la lista de bloqueo para que el traductor nunca los reescriba.
Habilitar “preserve punctuation”; apretar manualmente cualquier pausa más de 900 ms en ganchos cortos.
Para las carreras multilingües, generar EN → FR → ES en una sesión por lo que el tono se mantiene consistente; DE/PL se beneficia de una reducción de temperatura del -2%.
Exportar WAV + SRT por idioma, además de tallos cuando la música/SFX necesita ser remixed downstream.

Corriente de trabajo de apropiación paso a paso

Deja tu script limpiado o SRT en Studio 3.0; mantiene frases bajo 18 palabras para herramientas avatar que luchan con visemes largos.
Render un pase de referencia, marcar cualquier teléfono repite, luego regenerar sólo esas líneas. Evite re-renders de todo el párrafo.
Exporte SRT con códigos de tiempo originales. Si vuelve a tiempo en CapCut/Descript más tarde, mantenga una copia de este “fuente SRT” para back-sync.
Archivos de etiqueta con lang_version_scene_take.wav por lo que la herramienta avatar y NLE permanecen alineados.

Handoff de Avatar

Importar el WAV limpio en una herramienta de vídeo avatar y déjelo manejar traducción/lip-sync. Tests: EN→FR→ES se mantuvo sincronizado en ganchos cortos; DE necesitó un retime manual para plosives.

Desactivar auto-normalizar dentro de la herramienta avatar si ya dominaste a -16 LUFS; doble-normalizar añade bombeo.
Mantenga el suavizado viseme por defecto; anhelarlo hace que los consonantes se salgan de sincronía después de la traducción.
Para los avatares de retrato, evitar cortes de salto más ajustados que 6 marcos; la boca posa reajustes y parece un fallo.

Receta de exportación: Studio → HeyGen → CapCut

Studio 3.0: Exportar WAV 48 kHz mono + SRT; guardar los tallos si planea agregar música más adelante.
HeyGen: Importar WAV, configurar el lenguaje para que coincida con el archivo, dejar la fuerza lip-sync por defecto. Render un borrador de 1080p para inspeccionar las formas de la boca.
CapCut: Sumérgete en el render 4K final sólo después de comprobar la SRT contra el borrador. Aplica compresión ligera (-2 dB maquillaje, ratio 2:1) si agregas música.
Final QC: Peaks below -1 dBFS; líneas SRT debajo de 42 caracteres; no se traducen términos de marca; marcos visuales libres de reiniciamientos de boca cortadas.

Lista de verificación antes de la exportación

Waveform picos abajo -1 dBFS; ruido -16 LUFS ±1; ninguna banda ancha encima -55 dB en la cola.
Líneas SRT inferiores a 42 caracteres; dos líneas máx; ninguna punción huérfana después de la traducción.
Para multilingüe, verifique los términos de la marca no son auto-translated y los diacríticos hacen correctamente en la salida del avatar.
Exportar 1080p borrador de la herramienta avatar, luego 4K final una vez que el tiempo está bloqueado; archivo se deriva para las solicitudes de remix.

Modos de falla comunes (y correcciones)

Coleccionismos después de la traducción: Dejar la claridad a 40–42 y regenerar la línea afectada solamente.
Capciones de la deriva media-sentencia: Dividir la frase en dos líneas en Studio, regenerar, mantener el SRT dividido.
La boca de Avatar se inclina sobre los cortes de salto: Insertar un pre-rollo de silencio de 6-8 marcos antes de la línea; mantiene visemes en sincronización.
Bombeo musical: Desactivar la normalización por vía en la herramienta avatar; comprimir en CapCut/Premiere en su lugar.

FAQ

¿Se queda la marca de agua? Sí por defecto; eliminar sólo si usted tiene derechos.
¿Qué idiomas se quedaron en sincronía? EN, FR, ES stable; DE needs a quick review.
¿La cama de música? Añadir después de que los avatares se hacen para evitar problemas de ducking.

Templates you can copy

Pruebe este esqueleto SRT seguro de tiempo en Studio antes de apropiarse; ajuste sólo el texto para mantener visemes predecible:

1
00:00:00,000 --> 00:00:03,200
Hook text here, under 18 words.

2
00:00:03,400 --> 00:00:07,000
Keep pauses short; avoid stacked commas.

Transparencia de afiliados: algunos enlaces pueden ganar una comisión sin costo adicional para usted.