Aktualisiert am 15. Februar 2025

Voice → avatar Workflow 2025: ElevenLabs Studio 3.0 + HeyGen

Wir haben eine komplette Pipeline gebaut: Rekord/Klon in ElevenLabs Studio 3.0, zwei in mehreren Sprachen, dann füttern Sie die Tracks in einen Avatargenerator, ohne Lip-Sync zu verlieren. Hier sind die Einstellungen und die Export-Checkliste.

Tests wurden auf Studio 3.0 Spät-2024-Modelle mit 48 kHz WAV-Exporten durchgeführt, dann in HeyGen und CapCut mit Übersetzung und Lip-Sync aktiviert.

Verwenden Sie dies als wiederholbare Vorlage. Jeder Schritt unten wird auf kurzen Haken (30–45 Sekunden) und Mid-Form-Erklärer (4–8 Minuten) getestet, so dass Sie sehen können, wo synchrone Drifts und wie es schnell zu beheben.

Baseline Preset, das wir in Studio 3.0 geladen haben

Beginnen Sie mit einem konsistenten Preset, so dass Sie nicht pro Sprache erraten. Dies ist der Build, der die meisten Tool-Handoffs überlebt:

Was änderte sich in Studio 3.0

Erfassen und Aufräumen vor dem Klonen

  1. Nehmen Sie 20–40 Sekunden sauberen Ton pro Lautsprecher auf. Vermeiden Sie Raumton länger als zwei Sekunden, so dass das Modell keine zusätzlichen Geräusche erfährt.
  2. Normalisieren Sie auf -16 LUFS mit einem transparenten Limiter; Trimm Mund klickt unter -42 dB, um robotische Schwänze nach der Übersetzung zu vermeiden.
  3. Fügen Sie 200 ms der Stille am Kopf und am Schwanz hinzu; Studio 3.0 hält diese Pausen, was hilft, die Beschriftungen in späteren Schnitten auszurichten.
  4. Führen Sie einen kurzen Hörtest auf Plosives ("p/b/t") und fricatives ("s/f") vor dem Klonen aus.

Empfohlene Farbeinstellungen

  1. Halten Sie Wasserzeichen auf; fügen Sie sensible Namen in die Blockliste, so dass der Übersetzer sie nie neu schreibt.
  2. Aktivieren Sie “Pinsctuation behalten”; manuell ziehen Sie jede Pause länger als 900 ms an kurzen Haken.
  3. Für mehrsprachige Abläufe erzeugen Sie EN → FR → ES in einer Sitzung, so dass der Ton konsistent bleibt; DE/PL profitiert von einer -2%-Tempo-Reduktion.
  4. Exportieren Sie WAV + SRT pro Sprache, plus Stängel, wenn Musik/SFX nachgeschaltet werden muss.

Schritt für Schritt Waschen des Arbeitsablaufs

  1. Lassen Sie Ihr gereinigtes Skript oder SRT in Studio 3.0 fallen; halten Sie Sätze unter 18 Wörter für Avatar-Tools, die mit langen visemes kämpfen.
  2. Rendern Sie einen Referenzpass, markieren Sie jede Phoneme wiederholt, dann regenerieren Sie nur diese Zeilen.
  3. Exportieren Sie SRT mit Original-Timecodes. Wenn Sie später in CapCut/Descript retimen, halten Sie eine Kopie dieses "source SRT" für Back-Sync.
  4. Etikettendateien mit lang_version_scene_take.wav so bleiben das Avatar-Tool und NLE ausgerichtet.

Avatar Handoff

Importieren Sie die saubere WAV in ein Avatar-Video-Tool Tests: EN→FR→ES blieben an kurzen Haken synchron; DE brauchte eine manuelle Nachlaufzeit für Plosives.

Exportrezept: Studio → HeyGen → CapCut

  1. Studio 3.0: Exportieren Sie WAV 48 kHz mono + SRT; halten Sie Stiele, wenn Sie später Musik hinzufügen möchten.
  2. HeyGen: Importieren Sie WAV, setzen Sie Sprache auf Datei, lassen Sie die Lippe-Sync Stärke standardmäßig. Rendern Sie einen 1080p-Entwurf, um Mundformen zu inspizieren.
  3. CapCut: Swap im letzten 4K-Render nur nach SRT-Überprüfung gegen den Entwurf. Bewerben Sie Lichtkompression (-2 dB Make-up, Verhältnis 2:1) wenn Sie Musik hinzufügen.
  4. Final QC: Peaks unter -1 dBFS; SRT-Linien unter 42 Zeichen; keine Markenbegriffe übersetzt; visuelle Frames frei von Klick-Mund-Resets.

Checkliste vor Export

Häufige Störungsmodi (und Fixes)

FAQ

Vorlagen, die Sie kopieren können

Fügen Sie dieses Timing-sichere SRT-Skelett in Studio vor dem Synchronisieren ein; justieren Sie nur den Text, um visemes vorhersehbar zu halten:

1
00:00:00,000 --> 00:00:03,200
Hook text here, under 18 words.

2
00:00:03,400 --> 00:00:07,000
Keep pauses short; avoid stacked commas.

Affiliate Transparenz: Einige Links können eine Provision ohne zusätzliche Kosten für Sie verdienen.