15 février 2025

Pipeline voix → avatar 2025 : ElevenLabs Studio 3.0 + HeyGen

Pipeline complet : créer/dupliquer des voix dans ElevenLabs Studio 3.0, doubler en plusieurs langues, puis injecter les pistes dans un générateur d’avatars sans perdre le lip-sync. Voici les réglages et la checklist d’export.

Tests réalisés avec les modèles Studio 3.0 fin 2024, exports WAV 48 kHz, puis rendus dans HeyGen et CapCut avec options traduction et lip-sync activées.

Servez-vous de ce template reproductible. Chaque étape ci-dessous est testée sur des hooks courts (30–45 s) et des explainers moyens (4–8 min) pour voir où la synchro dérive et comment la corriger vite.

Preset de base chargé dans Studio 3.0

Partez d’un preset unique pour ne pas bricoler à chaque langue. Celui-ci a tenu le plus de handoffs entre outils :

Ce qui change dans Studio 3.0

Capture et nettoyage avant clonage

  1. Enregistrer 20–40 secondes de voix propre par locuteur. Évitez plus de deux secondes de bruit de pièce pour que le modèle n’apprenne pas ce fond.
  2. Normaliser à -16 LUFS avec limiteur transparent ; couper les clics de bouche sous -42 dB pour éviter les queues robotiques après traduction.
  3. Ajouter 200 ms de silence au début et à la fin ; Studio 3.0 les conserve, ce qui aide les sous-titres à rester alignés.
  4. Test d’écoute rapide sur plosives (« p/b/t ») et fricatives (« s/f ») avant clonage. Si ça éclate, refaites la prise plutôt que d’EQer fort.

Réglages de doublage recommandés

  1. Garder le watermark ; mettre les noms sensibles en liste bloquée pour que le traducteur ne les réécrive pas.
  2. Activer « conserver la ponctuation » ; resserrer manuellement toute pause > 900 ms sur les hooks courts.
  3. En multilingue, générer FR → EN → ES dans la même session pour garder le même timbre ; DE/PL gagnent à -2 % de tempo.
  4. Exporter WAV + SRT par langue, plus les stems si musique/SFX sont mixés plus tard.

Workflow de doublage pas à pas

  1. Collez votre script nettoyé ou SRT dans Studio 3.0 ; gardez les phrases sous 18 mots pour les outils avatar qui peinent sur les visèmes longs.
  2. Rendez une passe de référence, marquez les répétitions de phonèmes, régénérez seulement les lignes concernées. Évitez les paragraphes complets.
  3. Exportez le SRT avec timecodes d’origine. Si vous retimez dans CapCut/Descript, gardez cette « source SRT » pour recoller la synchro.
  4. Nommez les fichiers lang_version_scene_take.wav pour rester aligné entre outil avatar et NLE.

Passage aux avatars

Importer le WAV propre dans un outil d’avatars vidéo pour gérer la traduction et le lip-sync. Tests : FR→EN→ES restés synchrones sur des hooks courts ; DE a demandé un léger retime sur les consonnes fortes.

Recette d’export : Studio → HeyGen → CapCut

  1. Studio 3.0 : export WAV 48 kHz mono + SRT ; gardez les stems si vous ajoutez la musique ensuite.
  2. HeyGen : import du WAV, langue identique au fichier, force de lip-sync par défaut. Rendez un brouillon 1080p pour inspecter les lèvres.
  3. CapCut : remplacez par le rendu 4K final seulement après validation du SRT. Compression légère (-2 dB de makeup, ratio 2:1) si vous ajoutez de la musique.
  4. QC final : pics sous -1 dBFS ; SRT < 42 caractères par ligne ; marques non traduites ; frames sans reset de bouche sur les jump cuts.

Checklist avant export

Modes de panne courants (et correctifs)

FAQ

Templates à copier

Collez ce squelette SRT « safe » dans Studio avant le doublage ; ne changez que le texte pour garder des visèmes prévisibles :

1
00:00:00,000 --> 00:00:03,200
Texte du hook ici, moins de 18 mots.

2
00:00:03,400 --> 00:00:07,000
Gardez les pauses courtes ; évitez les virgules empilées.

Transparence : certains liens sont affiliés, sans surcoût pour vous.