elevenlabs-voice-changer
von inferen-shElevenLabs voice changer Skill, der die inference.sh CLI (infsh) nutzt, um aufgezeichnete Sprache in eine andere synthetische Stimme umzuwandeln und dabei Inhalt und Emotion zu erhalten. Unterstützt eleven_multilingual_sts_v2 (70+ Sprachen) und eleven_english_sts_v2 für Speech-to-Speech, Akzentwechsel und Stimmverschleierung in Content-Produktion, Dubbing und Charakterstimmen.
Überblick
Was ist elevenlabs-voice-changer?
elevenlabs-voice-changer ist ein Skill, der den ElevenLabs Speech-to-Speech Voice Changer mit der inference.sh Kommandozeilenoberfläche (infsh) verbindet. Du schickst eine bestehende Audioaufnahme und erhältst denselben gesprochenen Inhalt in einer anderen synthetischen Stimme zurück – mit bewahrtem Inhalt und Ausdrucksweise.
Im Hintergrund ruft der Skill die ElevenLabs-App voice-changer über infsh app run elevenlabs/voice-changer auf, sodass du keine APIs manuell anbinden musst. Du beschreibst die Eingabe-Audio und die Zielstimme, und der Dienst liefert transformiertes Audio zurück.
Zentrale Funktionen
- Speech-to-Speech-Konvertierung – wandel beliebige Sprachaufnahmen in eine neue Stimme um, ohne neu einsprechen zu müssen.
- Mehrsprachige Unterstützung (70+ Sprachen) – über
eleven_multilingual_sts_v2. - Englisch-optimiertes Modell – über
eleven_english_sts_v2für höhere Qualität bei englischer Sprache. - Akzent- und Stilwechsel – tausche Akzent, Tonfall oder Persona mithilfe der Premium-Stimmen von ElevenLabs.
- Stimmverschleierung und Privatsphäre – anonymisiere oder maskiere deine echte Stimme für öffentliche Inhalte.
Für wen ist dieser Skill gedacht?
Dieser Skill passt gut, wenn du:
- YouTube-, TikTok- oder Social-Media-Content erstellst und deine Erzählstimme verändern oder aufwerten möchtest.
- Podcasts oder Voiceovers produzierst und schnell Sprache, Akzent oder Stimme wechseln willst.
- Im Bereich Marketing oder Produkt-Erklärvideos arbeitest und mehrere Markenstimmen ohne zusätzliche Sprecher:innen brauchst.
- AI-Charaktere oder Demos baust und konsistente, wiederverwendbare Stimmen benötigst.
Weniger geeignet ist er, wenn du:
- Einen rein visuellen Workflow mit GUI und Timeline-Editing brauchst (der Fokus liegt auf der CLI).
- Vollständig Offline-Verarbeitung benötigst (es hängt von inference.sh und ElevenLabs in der Cloud ab).
- Fein granulierte Audioengineering-Tools wie EQ, Mixing oder Multi-Track-Editing brauchst; der Fokus liegt auf Stimmtransformation, nicht auf einem vollwertigen DAW-Funktionsumfang.
Modelle und Stimmoptionen
Der elevenlabs-voice-changer Skill stellt dieselben Modelle bereit, die auch im Repository beschrieben werden:
- Multilingual STS v2 – Modell-ID:
eleven_multilingual_sts_v2(Standard, unterstützt 70+ Sprachen). - English STS v2 – Modell-ID:
eleven_english_sts_v2(optimiert für englische Sprache).
Er kann die 22+ Premium-Stimmen von ElevenLabs nutzen, die auch in ihren TTS-Produkten verfügbar sind, darunter Standardstimmen wie:
george– britisch, autoritativ (Standardstimme in der Doku).aria– amerikanisch, konversational.
Du wählst diese Stimmen, indem du beim Aufruf der App den Parameter voice setzt.
Verwendung
1. Voraussetzungen und Installation
Bevor du elevenlabs-voice-changer nutzt, muss die inference.sh CLI installiert und authentifiziert sein.
-
inference.sh CLI (
infsh) installieren
Folge der offiziellen Anleitung aus dem Repository:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
Bei inference.sh einloggen mit deinem Account:
infsh login -
Skill hinzufügen (Agent Skills Finder / Skills-Registry)
Wenn du diesen Skill innerhalb der Skills-Sammlung nutzt, füge ihn mit folgendem Befehl hinzu:npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
Nach diesen Schritten ist deine Umgebung bereit, die ElevenLabs voice changer App über infsh aufzurufen.
2. Einfache Stimmtransformation
Am schnellsten testest du elevenlabs-voice-changer mit dem Beispiel aus der Skill-Dokumentation:
infsh login
# Stimme transformieren
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
In diesem Beispiel gilt:
audioist eine URL, die auf deine Eingabeaufnahme zeigt (z. B. eine online gehostete.mp3-Datei).voiceist die Zielstimme von ElevenLabs (ariain diesem Fall).
Die App verarbeitet die Aufnahme und liefert eine neue Audiodatei mit demselben gesprochenen Inhalt zurück – aber in der Stimme aria.
3. Modelle und Sprachen wählen
Standardmäßig ist der Skill so konfiguriert, dass er:
eleven_multilingual_sts_v2für eine breite Sprachabdeckung (70+ Sprachen) nutzt.
Wenn dein Anwendungsfall ausschließlich Englisch ist und du ein dafür optimiertes Modell möchtest, konfiguriere die App-Eingaben oder deinen Workflow so, dass er:
eleven_english_sts_v2für bessere englische Verständlichkeit und Prosodie nutzt.
Das konkrete Feld zur Modellauswahl wird innerhalb der ElevenLabs-App-Konfiguration gehandhabt. Wenn du Modelle auswählst, verwende diese IDs wie in der Skill-Dokumentation beschrieben.
4. Mit verschiedenen Stimmen und Akzenten arbeiten
Um mit unterschiedlichen Akzenten oder Stilen zu experimentieren, änderst du den Parameter voice in deinem --input JSON.
Beispiele (Pattern):
# Britisch, autoritativ
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'
# Amerikanisch, konversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
Du kannst dieselbe Originalaufnahme mehrfach nutzen und mit unterschiedlichen voice-IDs ausführen, um schnell passende Stimmen für dein Projekt auszuprobieren.
5. In deinen Workflow integrieren
Da elevenlabs-voice-changer vollständig über die CLI läuft, lässt er sich gut in geskriptete oder automatisierte Pipelines einbinden:
- Batch-Verarbeitung – iteriere über einen Ordner mit Audio-URLs oder bereits hochgeladenen Aufnahmen und rufe wiederholt
infsh app runauf. - Content-Lokalisierung – einmal aufnehmen, danach Sprechertexte für verschiedene Märkte in unterschiedliche Akzente oder Stimmen transformieren.
- Stimm-Anonymisierung – aufgezeichnete Calls, Interviews oder User-Beiträge vor der Veröffentlichung nachbearbeiten.
Wenn du einen größeren Agent-Framework- oder Orchestration-Layer nutzt, kannst du diesen Skill als Schritt in deiner Pipeline einsetzen, überall dort, wo „Voice Conversion“ oder „Dubbing“ erforderlich ist.
6. Wichtige Dateien im Repository
Wenn du den Skill im inferen-sh/skills Repository öffnest, beginne mit:
SKILL.md– Überblick, Funktionsumfang und Quick-Start-Befehl, den du kopieren und anpassen kannst.
Weitere typische Dateien im Skills-Repository (wie AGENTS.md, metadata.json sowie Ordner wie rules/ oder scripts/, falls sie in anderen Tools vorhanden sind) zeigen, wie Skills in größere Agent-Workflows eingebettet werden. Für elevenlabs-voice-changer ist SKILL.md die Hauptdokumentation.
FAQ
Was macht elevenlabs-voice-changer genau?
elevenlabs-voice-changer nutzt die Speech-to-Speech-Modelle von ElevenLabs, die über die inference.sh CLI aufgerufen werden, um eine vorhandene Sprachaufnahme in eine andere KI-generierte Stimme zu konvertieren. Die Wortwahl und Emotion des Originals bleiben erhalten, nur der Klang der Stimme ändert sich.
Wie installiere ich elevenlabs-voice-changer?
Du installierst den Skill nicht als eigenständige App. Stattdessen gehst du so vor:
-
Installiere die
infshCLI mit der Anleitung unter:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
Führe
infsh loginaus, um dich zu authentifizieren. -
Registriere den Skill optional in deinem Skills-Setup mit:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
Danach kannst du die ElevenLabs voice changer App mit infsh app run elevenlabs/voice-changer aufrufen.
Brauche ich einen ElevenLabs-Account dafür?
Der Skill ist ein Wrapper um die ElevenLabs-Modelle, die über inference.sh laufen. Alle zugrunde liegenden Anforderungen für die Nutzung von ElevenLabs (z. B. Accounts, Credits oder Quoten) werden über deine inference.sh- und ElevenLabs-Konfiguration geregelt. Sieh dir die Dokumentation von inference.sh und ElevenLabs für aktuelle Informationen zu Zugriff und Abrechnung an.
Kann ich elevenlabs-voice-changer lokal ohne Cloud ausführen?
Die Repository-Dokumentation zeigt den Skill über infsh im Zusammenspiel mit einer Online-ElevenLabs-App. Ein vollständig Offline-Modus ist dort nicht beschrieben. Rechne damit, dass du Netzwerkzugriff auf inference.sh und das ElevenLabs-Backend benötigst.
Welche Audioformate kann ich als Input verwenden?
Im Beispiel wird eine .mp3-Datei genutzt, die über HTTP bereitgestellt wird ("https://recording.mp3"). Die genauen Format- und Größenlimits werden von der ElevenLabs-App selbst vorgegeben. Für zuverlässige Ergebnisse nutze gängige Web-Audioformate (z. B. mp3), die unter einer stabilen URL gehostet werden.
Kann ich meine eigene Custom Voice verwenden?
Die Skill-Beschreibung konzentriert sich auf das Standardstimmenset von ElevenLabs (22+ Premium-Stimmen) wie george und aria. Eigene Voice-Training-Workflows werden nicht beschrieben. Wenn du eine maßgeschneiderte Stimme brauchst, lies die ElevenLabs-Dokumentation, um zu sehen, wie Custom Voices mit ihrer Speech-to-Speech-App kombiniert werden können.
Eignet sich das für Echtzeit-Stimmveränderung?
Das Repository zeigt eine dateibasierte Speech-to-Speech-Nutzung via CLI, bei der du eine aufgezeichnete Datei-URL bereitstellst und eine verarbeitete Datei zurückbekommst. Echtzeit- oder Live-Call-Voice-Conversion wird nicht beschrieben. Behandle es daher als asynchrones, dateibasiertes Tool und nicht als Live-Voice-Changer.
Wann sollte ich elevenlabs-voice-changer eher nicht verwenden?
Greife zu anderen Tools, wenn du:
- Eine vollwertige DAW oder einen Nonlinear Editor für detailliertes Audiomixing und Mastering brauchst.
- Live-Voice-Effekte mit niedriger Latenz für Streaming oder Gaming benötigst.
- Alles strikt offline ohne Cloud-Dienste betreiben musst.
Für geskriptete, wiederholbare Speech-to-Speech-Stimmkonvertierung über die CLI ist elevenlabs-voice-changer eine sehr passende Lösung.
Wo kann ich die Konfiguration einsehen oder anpassen?
Öffne den Skill im GitHub-Repository inferen-sh/skills unter:
tools/audio/elevenlabs-voice-changer/
Sieh dir dort SKILL.md an, um den offiziellen Quick Start, die Modelle und Stimmoptionen zu finden, und passe die Beispielbefehle an deine Umgebung an.
