elevenlabs-voice-changer

von inferen-sh

ElevenLabs voice changer Skill, der die inference.sh CLI (infsh) nutzt, um aufgezeichnete Sprache in eine andere synthetische Stimme umzuwandeln und dabei Inhalt und Emotion zu erhalten. Unterstützt eleven_multilingual_sts_v2 (70+ Sprachen) und eleven_english_sts_v2 für Speech-to-Speech, Akzentwechsel und Stimmverschleierung in Content-Produktion, Dubbing und Charakterstimmen.

Stars0

Favoriten0

Kommentare0

Hinzugefügt27. März 2026

KategorieVoice Generation

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

Audio Video Marketing Social Media Ai

Überblick

Was ist elevenlabs-voice-changer?

elevenlabs-voice-changer ist ein Skill, der den ElevenLabs Speech-to-Speech Voice Changer mit der inference.sh Kommandozeilenoberfläche (infsh) verbindet. Du schickst eine bestehende Audioaufnahme und erhältst denselben gesprochenen Inhalt in einer anderen synthetischen Stimme zurück – mit bewahrtem Inhalt und Ausdrucksweise.

Im Hintergrund ruft der Skill die ElevenLabs-App voice-changer über infsh app run elevenlabs/voice-changer auf, sodass du keine APIs manuell anbinden musst. Du beschreibst die Eingabe-Audio und die Zielstimme, und der Dienst liefert transformiertes Audio zurück.

Zentrale Funktionen

Speech-to-Speech-Konvertierung – wandel beliebige Sprachaufnahmen in eine neue Stimme um, ohne neu einsprechen zu müssen.
Mehrsprachige Unterstützung (70+ Sprachen) – über eleven_multilingual_sts_v2.
Englisch-optimiertes Modell – über eleven_english_sts_v2 für höhere Qualität bei englischer Sprache.
Akzent- und Stilwechsel – tausche Akzent, Tonfall oder Persona mithilfe der Premium-Stimmen von ElevenLabs.
Stimmverschleierung und Privatsphäre – anonymisiere oder maskiere deine echte Stimme für öffentliche Inhalte.

Für wen ist dieser Skill gedacht?

Dieser Skill passt gut, wenn du:

YouTube-, TikTok- oder Social-Media-Content erstellst und deine Erzählstimme verändern oder aufwerten möchtest.
Podcasts oder Voiceovers produzierst und schnell Sprache, Akzent oder Stimme wechseln willst.
Im Bereich Marketing oder Produkt-Erklärvideos arbeitest und mehrere Markenstimmen ohne zusätzliche Sprecher:innen brauchst.
AI-Charaktere oder Demos baust und konsistente, wiederverwendbare Stimmen benötigst.

Weniger geeignet ist er, wenn du:

Einen rein visuellen Workflow mit GUI und Timeline-Editing brauchst (der Fokus liegt auf der CLI).
Vollständig Offline-Verarbeitung benötigst (es hängt von inference.sh und ElevenLabs in der Cloud ab).
Fein granulierte Audioengineering-Tools wie EQ, Mixing oder Multi-Track-Editing brauchst; der Fokus liegt auf Stimmtransformation, nicht auf einem vollwertigen DAW-Funktionsumfang.

Modelle und Stimmoptionen

Der elevenlabs-voice-changer Skill stellt dieselben Modelle bereit, die auch im Repository beschrieben werden:

Multilingual STS v2 – Modell-ID: eleven_multilingual_sts_v2 (Standard, unterstützt 70+ Sprachen).
English STS v2 – Modell-ID: eleven_english_sts_v2 (optimiert für englische Sprache).

Er kann die 22+ Premium-Stimmen von ElevenLabs nutzen, die auch in ihren TTS-Produkten verfügbar sind, darunter Standardstimmen wie:

george – britisch, autoritativ (Standardstimme in der Doku).
aria – amerikanisch, konversational.

Du wählst diese Stimmen, indem du beim Aufruf der App den Parameter voice setzt.

Verwendung

1. Voraussetzungen und Installation

Bevor du elevenlabs-voice-changer nutzt, muss die inference.sh CLI installiert und authentifiziert sein.

inference.sh CLI (infsh) installieren
Folge der offiziellen Anleitung aus dem Repository:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Bei inference.sh einloggen mit deinem Account:
```
infsh login
```
Skill hinzufügen (Agent Skills Finder / Skills-Registry)
Wenn du diesen Skill innerhalb der Skills-Sammlung nutzt, füge ihn mit folgendem Befehl hinzu:
```
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
```

Nach diesen Schritten ist deine Umgebung bereit, die ElevenLabs voice changer App über infsh aufzurufen.

2. Einfache Stimmtransformation

Am schnellsten testest du elevenlabs-voice-changer mit dem Beispiel aus der Skill-Dokumentation:

infsh login

# Stimme transformieren
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

In diesem Beispiel gilt:

audio ist eine URL, die auf deine Eingabeaufnahme zeigt (z. B. eine online gehostete .mp3-Datei).
voice ist die Zielstimme von ElevenLabs (aria in diesem Fall).

Die App verarbeitet die Aufnahme und liefert eine neue Audiodatei mit demselben gesprochenen Inhalt zurück – aber in der Stimme aria.

3. Modelle und Sprachen wählen

Standardmäßig ist der Skill so konfiguriert, dass er:

eleven_multilingual_sts_v2 für eine breite Sprachabdeckung (70+ Sprachen) nutzt.

Wenn dein Anwendungsfall ausschließlich Englisch ist und du ein dafür optimiertes Modell möchtest, konfiguriere die App-Eingaben oder deinen Workflow so, dass er:

eleven_english_sts_v2 für bessere englische Verständlichkeit und Prosodie nutzt.

Das konkrete Feld zur Modellauswahl wird innerhalb der ElevenLabs-App-Konfiguration gehandhabt. Wenn du Modelle auswählst, verwende diese IDs wie in der Skill-Dokumentation beschrieben.

4. Mit verschiedenen Stimmen und Akzenten arbeiten

Um mit unterschiedlichen Akzenten oder Stilen zu experimentieren, änderst du den Parameter voice in deinem --input JSON.

Beispiele (Pattern):

# Britisch, autoritativ
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'

# Amerikanisch, konversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

Du kannst dieselbe Originalaufnahme mehrfach nutzen und mit unterschiedlichen voice-IDs ausführen, um schnell passende Stimmen für dein Projekt auszuprobieren.

5. In deinen Workflow integrieren

Da elevenlabs-voice-changer vollständig über die CLI läuft, lässt er sich gut in geskriptete oder automatisierte Pipelines einbinden:

Batch-Verarbeitung – iteriere über einen Ordner mit Audio-URLs oder bereits hochgeladenen Aufnahmen und rufe wiederholt infsh app run auf.
Content-Lokalisierung – einmal aufnehmen, danach Sprechertexte für verschiedene Märkte in unterschiedliche Akzente oder Stimmen transformieren.
Stimm-Anonymisierung – aufgezeichnete Calls, Interviews oder User-Beiträge vor der Veröffentlichung nachbearbeiten.

Wenn du einen größeren Agent-Framework- oder Orchestration-Layer nutzt, kannst du diesen Skill als Schritt in deiner Pipeline einsetzen, überall dort, wo „Voice Conversion“ oder „Dubbing“ erforderlich ist.

6. Wichtige Dateien im Repository

Wenn du den Skill im inferen-sh/skills Repository öffnest, beginne mit:

SKILL.md – Überblick, Funktionsumfang und Quick-Start-Befehl, den du kopieren und anpassen kannst.

Weitere typische Dateien im Skills-Repository (wie AGENTS.md, metadata.json sowie Ordner wie rules/ oder scripts/, falls sie in anderen Tools vorhanden sind) zeigen, wie Skills in größere Agent-Workflows eingebettet werden. Für elevenlabs-voice-changer ist SKILL.md die Hauptdokumentation.

FAQ

Was macht elevenlabs-voice-changer genau?

elevenlabs-voice-changer nutzt die Speech-to-Speech-Modelle von ElevenLabs, die über die inference.sh CLI aufgerufen werden, um eine vorhandene Sprachaufnahme in eine andere KI-generierte Stimme zu konvertieren. Die Wortwahl und Emotion des Originals bleiben erhalten, nur der Klang der Stimme ändert sich.

Wie installiere ich elevenlabs-voice-changer?

Du installierst den Skill nicht als eigenständige App. Stattdessen gehst du so vor:

Installiere die infsh CLI mit der Anleitung unter:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Führe infsh login aus, um dich zu authentifizieren.

Registriere den Skill optional in deinem Skills-Setup mit:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

Danach kannst du die ElevenLabs voice changer App mit infsh app run elevenlabs/voice-changer aufrufen.

Brauche ich einen ElevenLabs-Account dafür?

Der Skill ist ein Wrapper um die ElevenLabs-Modelle, die über inference.sh laufen. Alle zugrunde liegenden Anforderungen für die Nutzung von ElevenLabs (z. B. Accounts, Credits oder Quoten) werden über deine inference.sh- und ElevenLabs-Konfiguration geregelt. Sieh dir die Dokumentation von inference.sh und ElevenLabs für aktuelle Informationen zu Zugriff und Abrechnung an.

Kann ich elevenlabs-voice-changer lokal ohne Cloud ausführen?

Die Repository-Dokumentation zeigt den Skill über infsh im Zusammenspiel mit einer Online-ElevenLabs-App. Ein vollständig Offline-Modus ist dort nicht beschrieben. Rechne damit, dass du Netzwerkzugriff auf inference.sh und das ElevenLabs-Backend benötigst.

Welche Audioformate kann ich als Input verwenden?

Im Beispiel wird eine .mp3-Datei genutzt, die über HTTP bereitgestellt wird ("https://recording.mp3"). Die genauen Format- und Größenlimits werden von der ElevenLabs-App selbst vorgegeben. Für zuverlässige Ergebnisse nutze gängige Web-Audioformate (z. B. mp3), die unter einer stabilen URL gehostet werden.

Kann ich meine eigene Custom Voice verwenden?

Die Skill-Beschreibung konzentriert sich auf das Standardstimmenset von ElevenLabs (22+ Premium-Stimmen) wie george und aria. Eigene Voice-Training-Workflows werden nicht beschrieben. Wenn du eine maßgeschneiderte Stimme brauchst, lies die ElevenLabs-Dokumentation, um zu sehen, wie Custom Voices mit ihrer Speech-to-Speech-App kombiniert werden können.

Eignet sich das für Echtzeit-Stimmveränderung?

Das Repository zeigt eine dateibasierte Speech-to-Speech-Nutzung via CLI, bei der du eine aufgezeichnete Datei-URL bereitstellst und eine verarbeitete Datei zurückbekommst. Echtzeit- oder Live-Call-Voice-Conversion wird nicht beschrieben. Behandle es daher als asynchrones, dateibasiertes Tool und nicht als Live-Voice-Changer.

Wann sollte ich elevenlabs-voice-changer eher nicht verwenden?

Greife zu anderen Tools, wenn du:

Eine vollwertige DAW oder einen Nonlinear Editor für detailliertes Audiomixing und Mastering brauchst.
Live-Voice-Effekte mit niedriger Latenz für Streaming oder Gaming benötigst.
Alles strikt offline ohne Cloud-Dienste betreiben musst.

Für geskriptete, wiederholbare Speech-to-Speech-Stimmkonvertierung über die CLI ist elevenlabs-voice-changer eine sehr passende Lösung.

Wo kann ich die Konfiguration einsehen oder anpassen?

Öffne den Skill im GitHub-Repository inferen-sh/skills unter:

tools/audio/elevenlabs-voice-changer/

Sieh dir dort SKILL.md an, um den offiziellen Quick Start, die Modelle und Stimmoptionen zu finden, und passe die Beispielbefehle an deine Umgebung an.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

elevenlabs-dialogue

by inferen-sh

Erzeuge mit ElevenLabs über die inference.sh CLI hochwertiges, mehrstimmiges Dialog-Audio. Verwandle strukturierte Skripte in natürlich klingende Gespräche mit mehreren Stimmen in einer einzigen Datei – ideal für Podcasts, Hörbücher, Erklärvideos, Tutorials, Charakterdialoge und Videoskripte.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing ermöglicht es dir, Audio- oder Videoinhalte automatisch in 29 Sprachen zu vertonen und zu übersetzen – direkt über die inference.sh CLI – und dabei die Stimmen der ursprünglichen Sprecher zu erhalten. Ideal für Video-Editoren, Podcaster und Lokalisierungsteams, die schnell hochwertige, mehrsprachige Versionen bestehender Inhalte benötigen.

Video Editing

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning ist ein auf inference.sh basierendes Skill für KI-Sprachgenerierung, Text-to-Speech und Voice Cloning über die CLI. Es bündelt ElevenLabs-, Kokoro TTS-, DIA-, Chatterbox-, Higgs- und VibeVoice-Modelle für natürliche Sprache, mehrstimmige Vertonung und Stimmtransformation in Audio- und Videoprojekten.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

ElevenLabs Text-to-Speech über die inference.sh CLI, mit über 22 Premiumstimmen, Mehrsprachenunterstützung und schnellen Modelloptionen für produktive Voice-Generation-Workflows.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Erzeuge KI-Musik und komplette Songs aus Text-Prompts mit ElevenLabs Music, Diffrythm und Tencent Song Generation über die inference.sh CLI. Ideal für Hintergrundmusik, Soundtracks, Social-Clips, Podcasts und lizenzgebührenfreie Musik. Unterstützt schnelle Song-Generierung, Instrumentals und komplette Vocal-Songs.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Erstellen Sie KI-gestützte Podcasts und Sprachinhalte aus Text mit Kokoro TTS, DIA TTS und der inference.sh CLI. Kombinieren Sie mehrere Stimmen, fügen Sie Musik hinzu und bauen Sie komplette Episoden für Podcasts, Hörbücher und Audio-Newsletter.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Hochpräzise ElevenLabs Speech-to-Text über die inference.sh CLI mit Scribe v1/v2 Modellen. Unterstützt Transkription, Sprecher-Diarisierung, Audio-Event-Tagging, Wortzeitstempel, Forced Alignment und Untertitel-Generierung für Meetings, Podcasts und andere Audio-Workflows.

Audio Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Voice Generation

Favorites 0GitHub 0