elevenlabs-dubbing
von inferen-shelevenlabs-dubbing ermöglicht es dir, Audio- oder Videoinhalte automatisch in 29 Sprachen zu vertonen und zu übersetzen – direkt über die inference.sh CLI – und dabei die Stimmen der ursprünglichen Sprecher zu erhalten. Ideal für Video-Editoren, Podcaster und Lokalisierungsteams, die schnell hochwertige, mehrsprachige Versionen bestehender Inhalte benötigen.
Überblick
Was ist elevenlabs-dubbing?
elevenlabs-dubbing ist ein automatisiertes Dubbing-Skill, das die inference.sh CLI nutzt, um Audio- oder Videoinhalte in 29 Sprachen zu übersetzen und zu vertonen – und dabei die Stimmen der ursprünglichen Sprecher beizubehalten. Es kapselt die ElevenLabs-Dubbing-Pipeline in einen einfachen CLI-Workflow, sodass du bestehende Medien schnell für ein weltweites Publikum lokalisieren kannst.
Statt Audio manuell zu exportieren, in separate Tools zu schicken und die Spuren im Schnitt erneut zu synchronisieren, kannst du einen einzigen Befehl ausführen, der:
- Sprecher in der Quelle erkennt
- Sprache in die Zielsprache übersetzt
- natürlich klingende, synchronisierte Audiospuren in den Originalstimmen erzeugt
- eine fertige, lokalisierte Audiospur ausgibt (und reibungslos mit Videodateien funktioniert)
Für wen ist elevenlabs-dubbing geeignet?
elevenlabs-dubbing ist besonders sinnvoll, wenn du:
- Video-Content schneidest oder produzierst und mehrsprachige Vertonungen benötigst (YouTube-Kanäle, Kurse, Produkt-Tutorials, Marketingvideos)
- Einen Podcast oder eine Audioshow betreibst und lokalisierte Versionen für neue Regionen anbieten möchtest
- In Lokalisierungs- oder Postproduktionsteams arbeitest und Dubbing skalieren willst, ohne für jede Sprache eigene Muttersprachler-Stimmen zu buchen
- Automatisierte Medien-Workflows aufbaust und einen CLI/API-freundlichen Dubbing-Schritt brauchst, den du skripten oder in CI ausführen kannst
Weniger geeignet ist es, wenn du:
- Frame-genaues, manuell gemischtes Sounddesign oder kreative Neuinterpretation statt einer direkten Übersetzung brauchst
- Offline, also ohne Internetzugang, verarbeiten musst (inference.sh läuft als Cloud-Service)
- Eine direkte Integration in ein grafisches NLE-Interface benötigst (dieses Skill ist CLI-basiert und wird am besten ergänzend zu deinem Editor verwendet, nicht darin)
Zentrale Funktionen
Auf Basis der Upstream-Skill-Definition bietet elevenlabs-dubbing:
- Automatisches Dubbing für Audio und Video über die
infshCLI - Übersetzung in 29 Sprachen, gesteuert über einen einfachen
target_lang-Code - Stimmen-erhaltendes Dubbing, bei dem die Identität der ursprünglichen Sprecher in der Zielsprache erhalten bleibt
- Automatische Sprechererkennung, sodass Aufnahmen mit mehreren Personen ohne Setup pro Sprecher verarbeitet werden können
- Audiolokalisierung für internationale Distribution, ideal um bestehende Assets in großem Umfang wiederzuverwenden
Damit passt das Skill sehr gut in Workflows für Videoschnitt, Audiobearbeitung, Übersetzung und Voice-Generierung und ist ein vielseitiges Werkzeug für Postproduktion und Lokalisierung.
Nutzung
Voraussetzungen und Installation
Um elevenlabs-dubbing zu verwenden, benötigst du die inference.sh CLI (infsh), installiert und authentifiziert.
-
inference.sh CLI installieren
Folge den offiziellen Anweisungen im Repository:- Öffne die CLI-Installationsanleitung unter:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md - Installiere
infshfür deine Plattform wie dort beschrieben.
- Öffne die CLI-Installationsanleitung unter:
-
Bei inference.sh anmelden
Nachdem die Installation abgeschlossen ist, authentifiziere deine CLI-Session:infsh loginFolge den Anweisungen im Terminal (z. B. URL im Browser öffnen oder Token einfügen), damit die CLI auf die ElevenLabs-Dubbing-App zugreifen kann.
-
Skill zur Agent-Umgebung hinzufügen (optional)
Wenn du eine auf Skills basierende Agent-Umgebung nutzt, installiere dieses Skill mit:npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbingDadurch steht der elevenlabs-dubbing Workflow deinen Agents zur Verfügung, während im Hintergrund weiterhin die
infshCLI verwendet wird.
Grundlegender Dubbing-Workflow (Quickstart)
Sobald infsh installiert und angemeldet ist, kannst du eine Video- oder Audiodatei mit einem einzigen Befehl in eine andere Sprache vertonen.
Beispiel: Englisches Video auf Spanisch dubben
infsh app run elevenlabs/dubbing --input '{
"audio": "https://video.mp4",
"target_lang": "es"
}'
``
So funktioniert es:
- `elevenlabs/dubbing` ist die gehostete Dubbing-App, die per CLI aufgerufen wird.
- `audio` ist die URL zu deinem Quellmedium (Audio oder Video). Das kann ein `https://`-Link zu einer Datei wie `video.mp4` sein.
- `target_lang` ist der Sprachcode für die vertonte Ausgabe (hier `es` für Spanisch).
Die App verarbeitet das Quellmedium, übersetzt die Sprache und erzeugt eine vertonte Audiospur in der Zielsprache, während die Sprecherstimmen erhalten bleiben.
### Unterstützte Sprachen
Das Skill unterstützt 29 Sprachen über einfache Sprachcodes (Auswahl aus der Upstream-Tabelle):
- `en` – Englisch
- `es` – Spanisch
- `fr` – Französisch
- `de` – Deutsch
- `it` – Italienisch
- `pt` – Portugiesisch
- `pl` – Polnisch
- `hi` – Hindi
- `ar` – Arabisch
- `ko` – Koreanisch
- `ru` – Russisch
- `tr` – Türkisch
- `nl` – Niederländisch
- `sv` – Schwedisch
- `da` – Dänisch
- `fi` – Finnisch
- `no` – Norwegisch
- `cs` – Tschechisch
Die vollständige Sprachtabelle findest du im Upstream-`SKILL.md`, falls du alle unterstützten Codes benötigst.
### Typische Einsatzszenarien
#### 1. Lokalisierung von YouTube- oder Kursvideos
1. Lade dein Quellvideo an einen Ort hoch, der per HTTPS erreichbar ist (z. B. Storage-Bucket oder nicht gelistete Hosting-URL).
2. Führe `infsh app run elevenlabs/dubbing` mit der Video-URL und dem gewünschten `target_lang` aus.
3. Lade die vertonte Audiospur herunter und lege sie in deinem Video-Editor an bzw. ersetze die Originalspur (Premiere Pro, Final Cut, DaVinci Resolve etc.).
#### 2. Übersetzung von Podcasts und Interviews
1. Stelle die Originalaudiodatei (`.mp3`, `.wav` oder Video mit Audio) unter einer öffentlichen oder berechtigten URL bereit.
2. Rufe elevenlabs-dubbing mit dieser URL und einem Zielsprachen-Code auf.
3. Veröffentliche die lokalisierte Version als eigenen Feed oder als zusätzliche Episode.
#### 3. Scripting und Automatisierung
Da elevenlabs-dubbing über die CLI gesteuert wird, kannst du:
- Den `infsh app run` Befehl in Shell-Skripte einbinden
- Dubbing in CI/CD-Pipelines für Content-Publishing integrieren
- Das Skill in größere Automatisierungs-Workflows einbetteten (z. B. mit Transkription, Clipping oder Formatierungsskripten)
### Wichtige Stellen im Repository
Wenn du das Skill in eine Agent-Umgebung installierst, findest du Details insbesondere in diesen Dateien:
- `SKILL.md` – Kerndokumentation, Funktionsumfang und Quickstart
- `tools/audio/elevenlabs-dubbing` (Verzeichnis) – Speicherort dieses Skills im gemeinsamen Skills-Repo
Nutze diese Dateien als Implementierungsreferenz, statt sie 1:1 zu übernehmen; passe die gezeigten Muster an deine eigene Infrastruktur, dein Storage und deine Sicherheitsanforderungen an.
## FAQ
### Wann ist elevenlabs-dubbing eine gute Wahl?
elevenlabs-dubbing eignet sich besonders, wenn du bereits fertiges oder nahezu fertiges Video- oder Audiomaterial hast und schnell hochwertige mehrsprachige Versionen erstellen möchtest, ohne neu aufzunehmen:
- Erfolgreiche englische Videos in spanische, französische oder deutsche Versionen übertragen
- Webinare, Tutorials oder E-Learning-Inhalte lokalisieren
- Podcasts oder Interviews für neue Sprachmärkte aufbereiten
Das Skill spielt seine Stärken aus, wenn dir Geschwindigkeit, Skalierbarkeit und Stimmerhalt wichtiger sind als maßgeschneiderte Studiovertonung.
### Wann ist elevenlabs-dubbing weniger geeignet?
Ziehe andere Ansätze in Betracht, wenn:
- Du eine vollständige kreative Neuinterpretation brauchst (neue Skripte, Comedy-Timing, komplett neue Sprecher)
- Dein Workflow vollständig offline ablaufen muss (ohne Cloud-Aufrufe)
- Du eine Point-and-Click-GUI benötigst, die direkt in dein NLE integriert ist
In solchen Fällen kann ein klassisches Dubbing-Studio oder eine On-Premise-Voice-Lösung besser passen.
### Wie installiere ich elevenlabs-dubbing?
Es gibt zwei Ebenen:
1. **Installiere die inference.sh CLI**, indem du den Anweisungen unter
`https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md` folgst.
2. **(Optional) Füge das Skill deiner Agent-Umgebung hinzu** mit:
```bash
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
Die eigentliche Vertonung erfolgt über die infsh CLI gegen die elevenlabs/dubbing App.
Welche Eingabeformate kann ich verwenden?
Das Beispiel in der Upstream-SKILL-Datei zeigt eine Video-URL (https://video.mp4), die als Feld audio übergeben wird. Das bedeutet:
- Du kannst Videodateien senden, die eine Audiospur enthalten (z. B.
.mp4mit Ton) - Audio-Extraktion und Dubbing werden im Hintergrund von der App übernommen
Für optimale Ergebnisse solltest du eine saubere, gut aufgenommene Quelle mit klarer Sprache und minimalen Hintergrundgeräuschen bereitstellen.
Wie wähle ich die Sprache für das Dubbing aus?
Nutze das Feld target_lang im JSON-Input, um die gewünschte Ausgabesprache festzulegen:
infsh app run elevenlabs/dubbing --input '{
"audio": "https://video.mp4",
"target_lang": "fr"
}'
Ersetze fr durch einen der unterstützten Sprachcodes wie es, de, pt oder einen anderen aus der unterstützten Liste.
Erhält elevenlabs-dubbing die ursprüngliche Sprecherstimme?
Ja. Laut Skill-Beschreibung ist elevenlabs-dubbing für stimmen-erhaltende Übersetzung konzipiert, bei der die stimmliche Identität der ursprünglichen Sprecher beibehalten wird, während sich nur die Sprache ändert. Das ist ideal für Creator, deren Publikum weiterhin das Gefühl haben soll, die ursprüngliche Person zu hören – nur in einer anderen Sprache.
Wie fügt sich elevenlabs-dubbing in Videoschnitt-Tools ein?
elevenlabs-dubbing ersetzt deinen Video-Editor nicht. Es fungiert als spezialisierter Dubbing-Schritt in deinem Workflow:
- Schneide und finalisiere das Master-Video in deinem Editor.
- Exportiere oder hoste diese Master-Datei.
- Führe elevenlabs-dubbing über
infshaus, um die lokalisierte Audiospur zu erzeugen. - Importiere oder verknüpfe die vertonte Audiospur in deinem Editor, um die Ausgabe für jede Sprache zu finalisieren.
So behältst du deinen bestehenden Schnitt-Stack und ergänzt ihn um eine leistungsfähige, automatisierte Mehrsprach-Ver tonung.
Wo finde ich weitere technische Details?
Öffne den Skill-Quellcode im Repository:
- GitHub-URL:
https://github.com/inferen-sh/skills/tree/main/tools/audio/elevenlabs-dubbing - Skill-Definition und Quickstart:
SKILL.md
Nutze diese Dateien, um die genaue Konfiguration und die Beispiele der Maintainer nachzuvollziehen.
