15 février 2025

Pipeline voix → avatar 2025 : ElevenLabs Studio 3.0 + HeyGen

Pipeline complet : créer/dupliquer des voix dans ElevenLabs Studio 3.0, doubler en plusieurs langues, puis injecter les pistes dans un générateur d’avatars sans perdre le lip-sync. Voici les réglages et la checklist d’export.

Tests réalisés avec les modèles Studio 3.0 fin 2024, exports WAV 48 kHz, puis rendus dans HeyGen et CapCut avec options traduction et lip-sync activées.

Servez-vous de ce template reproductible. Chaque étape ci-dessous est testée sur des hooks courts (30–45 s) et des explainers moyens (4–8 min) pour voir où la synchro dérive et comment la corriger vite.

Preset de base chargé dans Studio 3.0

Partez d’un preset unique pour ne pas bricoler à chaque langue. Celui-ci a tenu le plus de handoffs entre outils :

Voix : Stability 62–68, Clarity + Similarity 42–48, Style exaggeration désactivé.
Sécurité : watermark activé, liste bloquée pour marques/termes médicaux, option « préserver la ponctuation » en doublage.
Normalisation : -16 LUFS avec plafond -3 dB ; de-ess à 6–8 kHz, gate léger à -38 dB.
Export : WAV 48 kHz mono pour la voix ; conserver les stems musique/SFX si vous mixez ensuite.

Ce qui change dans Studio 3.0

Latence plus basse sur les clips courts, consonnes plus stables, moins de phonèmes dupliqués lors des exports concaténés.
Watermark activé par défaut ; blocage de mots de marque et de conformité en option.
Doublage qui conserve mieux ponctuation et pauses, donc sous-titres plus proches du timing source.
Export de stems (voix/ambiance) pour un mix plus propre et des retouches finales dans le NLE.

Capture et nettoyage avant clonage

Enregistrer 20–40 secondes de voix propre par locuteur. Évitez plus de deux secondes de bruit de pièce pour que le modèle n’apprenne pas ce fond.
Normaliser à -16 LUFS avec limiteur transparent ; couper les clics de bouche sous -42 dB pour éviter les queues robotiques après traduction.
Ajouter 200 ms de silence au début et à la fin ; Studio 3.0 les conserve, ce qui aide les sous-titres à rester alignés.
Test d’écoute rapide sur plosives (« p/b/t ») et fricatives (« s/f ») avant clonage. Si ça éclate, refaites la prise plutôt que d’EQer fort.

Réglages de doublage recommandés

Garder le watermark ; mettre les noms sensibles en liste bloquée pour que le traducteur ne les réécrive pas.
Activer « conserver la ponctuation » ; resserrer manuellement toute pause > 900 ms sur les hooks courts.
En multilingue, générer FR → EN → ES dans la même session pour garder le même timbre ; DE/PL gagnent à -2 % de tempo.
Exporter WAV + SRT par langue, plus les stems si musique/SFX sont mixés plus tard.

Workflow de doublage pas à pas

Collez votre script nettoyé ou SRT dans Studio 3.0 ; gardez les phrases sous 18 mots pour les outils avatar qui peinent sur les visèmes longs.
Rendez une passe de référence, marquez les répétitions de phonèmes, régénérez seulement les lignes concernées. Évitez les paragraphes complets.
Exportez le SRT avec timecodes d’origine. Si vous retimez dans CapCut/Descript, gardez cette « source SRT » pour recoller la synchro.
Nommez les fichiers lang_version_scene_take.wav pour rester aligné entre outil avatar et NLE.

Passage aux avatars

Importer le WAV propre dans un outil d’avatars vidéo pour gérer la traduction et le lip-sync. Tests : FR→EN→ES restés synchrones sur des hooks courts ; DE a demandé un léger retime sur les consonnes fortes.

Désactivez l’auto-normalisation dans l’outil avatar si vous avez déjà masterisé à -16 LUFS ; le double traitement pompe.
Gardez le smoothing de visèmes par défaut ; l’augmenter décale les consonnes après traduction.
En portrait, évitez les jump cuts plus serrés que 6 frames ; la pose de bouche se réinitialise et crée un glitch.

Recette d’export : Studio → HeyGen → CapCut

Studio 3.0 : export WAV 48 kHz mono + SRT ; gardez les stems si vous ajoutez la musique ensuite.
HeyGen : import du WAV, langue identique au fichier, force de lip-sync par défaut. Rendez un brouillon 1080p pour inspecter les lèvres.
CapCut : remplacez par le rendu 4K final seulement après validation du SRT. Compression légère (-2 dB de makeup, ratio 2:1) si vous ajoutez de la musique.
QC final : pics sous -1 dBFS ; SRT < 42 caractères par ligne ; marques non traduites ; frames sans reset de bouche sur les jump cuts.

Checklist avant export

Pics audio sous -1 dBFS ; loudness -16 LUFS ±1 ; pas de souffle large bande au-dessus de -55 dB en fin de fichier.
SRT : max 42 caractères par ligne, deux lignes ; pas de ponctuation orpheline après traduction.
En multilingue, vérifier que les marques ne sont pas traduites et que les diacritiques s’affichent bien dans le rendu avatar.
Export 1080p brouillon depuis l’outil avatar, puis 4K une fois le timing verrouillé ; archivez les stems pour les remixes.

Modes de panne courants (et correctifs)

Plosives qui cassent après traduction : baisser la clarté à 40–42 et régénérer uniquement la ligne.
Sous-titres qui dérivent en milieu de phrase : couper la phrase en deux lignes dans Studio, régénérer, garder le SRT scindé.
Bouche en retard sur les jump cuts : insérer 6–8 frames de silence avant la réplique ; les visèmes restent en phase.
Pompage avec la musique : désactiver la normalisation piste par piste dans l’outil avatar ; compresser plutôt dans CapCut/Premiere.

FAQ

Le watermark reste ? Oui par défaut ; retirez-le seulement si vous avez les droits.
Langues stables ? FR, EN, ES OK ; vérifier l’allemand ou autres idiomes.
Musique de fond ? Ajoutez-la après le rendu avatar pour éviter les problèmes de ducking.

Templates à copier

Collez ce squelette SRT « safe » dans Studio avant le doublage ; ne changez que le texte pour garder des visèmes prévisibles :

1
00:00:00,000 --> 00:00:03,200
Texte du hook ici, moins de 18 mots.

2
00:00:03,400 --> 00:00:07,000
Gardez les pauses courtes ; évitez les virgules empilées.

Transparence : certains liens sont affiliés, sans surcoût pour vous.