Actualizado 15 de febrero, 2025

Voz → flujo de trabajo avatar 2025: ElevenLabs Studio 3.0 + HeyGen

Construimos un gasoducto completo: record/clone en ElevenLabs Studio 3.0, dub en varios idiomas, luego alimentan las pistas en un generador de avatar sin perder el síntoma de labios. Aquí están los ajustes y la lista de verificación de exportación.

Se realizaron pruebas en los modelos Studio 3.0 de finales de 2024 con exportaciones de 48 kHz WAV, y luego se realizaron en HeyGen y CapCut con traducción y sincronización de labios.

Use esto como una plantilla repetible. Cada paso a continuación se prueba en ganchos cortos (30–45 segundos) y explicadores de forma media (4–8 minutos) para que pueda ver dónde se desvía la sincronización y cómo solucionarlo rápidamente.

Preset basal que seguimos cargados en Studio 3.0

Comience con un preset consistente por lo que no está adivinando por idioma. Esta es la construcción que sobrevivió a los handoffs más herramientas:

Qué cambió en Studio 3.0

Captura y limpieza antes de la clonación

  1. Grabar 20–40 segundos de tono limpio por altavoz. Evite el tono de la habitación más de dos segundos para que el modelo no aprenda ruido extra.
  2. Normalizar a -16 LUFS con un limitador transparente; recortar los clics boca debajo de -42 dB para evitar las colas robóticas después de la traducción.
  3. Añadir 200 ms de silencio a la cabeza y a la cola; Studio 3.0 mantiene esas pausas, lo que ayuda a las leyendas alineadas en cortes posteriores.
  4. Ejecute una prueba de escucha corta sobre plosives (“p/b/t”) y fricatives (“s/f”) antes de la clonación. Si brotan, vuelva a hacer la toma en lugar de over-EQing.

Ajustes recomendados de apropiación

  1. Mantenga encendido la marca de agua; agregue nombres sensibles a la lista de bloqueo para que el traductor nunca los reescriba.
  2. Habilitar “preserve punctuation”; apretar manualmente cualquier pausa más de 900 ms en ganchos cortos.
  3. Para las carreras multilingües, generar EN → FR → ES en una sesión por lo que el tono se mantiene consistente; DE/PL se beneficia de una reducción de temperatura del -2%.
  4. Exportar WAV + SRT por idioma, además de tallos cuando la música/SFX necesita ser remixed downstream.

Corriente de trabajo de apropiación paso a paso

  1. Deja tu script limpiado o SRT en Studio 3.0; mantiene frases bajo 18 palabras para herramientas avatar que luchan con visemes largos.
  2. Render un pase de referencia, marcar cualquier teléfono repite, luego regenerar sólo esas líneas. Evite re-renders de todo el párrafo.
  3. Exporte SRT con códigos de tiempo originales. Si vuelve a tiempo en CapCut/Descript más tarde, mantenga una copia de este “fuente SRT” para back-sync.
  4. Archivos de etiqueta con lang_version_scene_take.wav por lo que la herramienta avatar y NLE permanecen alineados.

Handoff de Avatar

Importar el WAV limpio en una herramienta de vídeo avatar y déjelo manejar traducción/lip-sync. Tests: EN→FR→ES se mantuvo sincronizado en ganchos cortos; DE necesitó un retime manual para plosives.

Receta de exportación: Studio → HeyGen → CapCut

  1. Studio 3.0: Exportar WAV 48 kHz mono + SRT; guardar los tallos si planea agregar música más adelante.
  2. HeyGen: Importar WAV, configurar el lenguaje para que coincida con el archivo, dejar la fuerza lip-sync por defecto. Render un borrador de 1080p para inspeccionar las formas de la boca.
  3. CapCut: Sumérgete en el render 4K final sólo después de comprobar la SRT contra el borrador. Aplica compresión ligera (-2 dB maquillaje, ratio 2:1) si agregas música.
  4. Final QC: Peaks below -1 dBFS; líneas SRT debajo de 42 caracteres; no se traducen términos de marca; marcos visuales libres de reiniciamientos de boca cortadas.

Lista de verificación antes de la exportación

Modos de falla comunes (y correcciones)

FAQ

Templates you can copy

Pruebe este esqueleto SRT seguro de tiempo en Studio antes de apropiarse; ajuste sólo el texto para mantener visemes predecible:

1
00:00:00,000 --> 00:00:03,200
Hook text here, under 18 words.

2
00:00:03,400 --> 00:00:07,000
Keep pauses short; avoid stacked commas.

Transparencia de afiliados: algunos enlaces pueden ganar una comisión sin costo adicional para usted.