ai-voice-cloning

von inferen-sh

ai-voice-cloning ist ein auf inference.sh basierendes Skill für KI-Sprachgenerierung, Text-to-Speech und Voice Cloning über die CLI. Es bündelt ElevenLabs-, Kokoro TTS-, DIA-, Chatterbox-, Higgs- und VibeVoice-Modelle für natürliche Sprache, mehrstimmige Vertonung und Stimmtransformation in Audio- und Videoprojekten.

Stars0

Favoriten0

Kommentare0

Hinzugefügt27. März 2026

KategorieVoice Generation

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Audio Video Developer Audience Cli Ai

Überblick

Übersicht

Was ist ai-voice-cloning?

ai-voice-cloning ist ein auf die CLI fokussiertes Skill für KI-Sprachgenerierung und Voice Cloning, das auf der inference.sh-Plattform aufbaut. Es ermöglicht dir, Text-to-Speech- und Stimmtransformationsmodelle von der Kommandozeile aus aufzurufen, darunter ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs und VibeVoice.

Das Skill ist im Repository inferen-sh/skills definiert und dafür ausgelegt, in Agent-Workflows eingebettet zu werden, die Bash über infsh (die inference.sh CLI) aufrufen können. Der Schwerpunkt liegt auf der Erzeugung natürlich klingender Sprache und der Transformation bestehender Sprachaufnahmen – nicht auf dem Training von Modellen oder der Verwaltung von Datensätzen.

Zentrale Funktionen

Text-to-Speech (TTS) über die CLI mit infsh app run ...
Mehrere KI-Sprachmodelle an einem Ort (z. B. elevenlabs/tts, infsh/kokoro-tts)
Voice Cloning / Voice Changing für bestehende Aufnahmen über ElevenLabs Voice Changer
Unterstützung vieler Stimmen und Sprachen (über ElevenLabs-Modelle, gemäß der Upstream-Beschreibung)
Langformatige Vertonung für Voiceovers, Hörbücher und Podcasts
Konversationsartige und ausdrucksstarke Sprachwiedergabe mit Modellen, die auf natürliche Sprache optimiert sind

Da ai-voice-cloning eine Skill-Definition und keine eigenständige App ist, interagierst du damit über die inference.sh CLI und beliebige Agenten oder Tools, die Bash-Befehle ausführen dürfen.

Für wen ist ai-voice-cloning gedacht?

Dieses Skill eignet sich besonders, wenn du:

Mit Audio oder Video arbeitest und schnelle, skriptgesteuerte Sprachgenerierung brauchst
KI-Agenten, CLIs oder Automatisierungen baust, die sprechen oder vertonen sollen
Voiceovers, Erklärvideos, Tutorials oder Trainingsvideos produzierst
Stimmen in ElevenLabs-Qualität und weitere spezialisierte TTS-Modelle hinter einer einheitlichen CLI bündeln möchtest
Command-Line-Workflows Web-GUIs vorziehst

Weniger geeignet ist es, wenn du:

Eine rein grafische Oberfläche ohne jede CLI-Nutzung benötigst
Eigene Modelle aus Roh-Audiodaten trainieren möchtest (nicht Teil dieses Skills)
Einen Browser- oder On-Device-Betrieb ohne Aufrufe an den inference.sh-Service verlangst

Typische Anwendungsfälle

Erzeugen von Vertonungsspuren für YouTube- oder Marketing-Videos
Erstellung von Hörbuch- oder Podcast-Sprachaufnahmen aus Textskripten
Produktion mehrerer Charakterstimmen für Dialoge und Konversationen
Anwenden von Voice Changing auf bestehende Aufnahmen mit ElevenLabs Voice Changer
Hinzufügen von Audio-Prompts und Systemstimmen zu Agenten, Bots und interaktiven Tools

Verwendung

1. Voraussetzungen und Installationsoptionen

Um ai-voice-cloning zu nutzen, benötigst du:

Zugriff auf die inference.sh CLI (infsh)
Netzwerkzugriff auf die inference.sh APIs
Eine Shell-Umgebung, in der Bash-Befehle erlaubt sind

Du kannst das Skill in deine Agent-Umgebung integrieren mit:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Damit wird die Skill-Definition aus inferen-sh/skills geladen und registriert, sodass dein Agent die zugehörigen Tools (insbesondere Bash mit infsh) aufrufen kann.

Für die direkte Nutzung über die CLI außerhalb eines Agenten installierst du die inference.sh CLI selbst. Im SKILL.md des Skills findest du einen Link zu den Installationsanweisungen für die CLI unter:

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Folge diesem Dokument, um infsh auf deinem System zu installieren.

2. Bei inference.sh anmelden

Sobald infsh installiert ist, authentifizierst du dich mit:

infsh login

Folge den Eingabeaufforderungen, um dich anzumelden oder deine Zugangsdaten wie im CLI-Installationsleitfaden beschrieben zu konfigurieren.

3. Schnellstart: Sprache mit Kokoro TTS generieren

Das SKILL.md enthält ein einfaches Kokoro TTS-Beispiel. Nach der Anmeldung kannst du Sprache erzeugen mit:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Was dabei passiert:

Aufruf der App infsh/kokoro-tts
Senden einer JSON-Eingabe mit einem prompt (der zu sprechende Text) und einer voice-Auswahl
Ausgabe synthetisierter Sprache (siehe CLI-Dokumentation für Ausgabe-Pfade oder Streaming-Verhalten)

Dieses Muster kannst du für andere Prompts und unterstützte Stimmen anpassen.

4. Andere Modelle verwenden (ElevenLabs, DIA und mehr)

Das SKILL.md listet verfügbare Modelle in einer Tabelle Available Models. Im sichtbaren Ausschnitt sind u. a. folgende Einträge zu erwarten:

ElevenLabs TTS – App-ID: elevenlabs/tts
ElevenLabs Voice Changer – App-ID: elevenlabs/voice-changer
Kokoro TTS – App-ID: infsh/kokoro-tts
DIA – App-ID beginnend mit infsh/dia-...
Weitere Modelle wie Chatterbox, Higgs und VibeVoice werden in der Skill-Beschreibung erwähnt.

Um eine andere App aufzurufen, änderst du die App-ID in deinem CLI-Befehl. Ein typisches Muster für TTS mit ElevenLabs könnte beispielsweise so aussehen:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Nutze die Repository-Dokumentation und eventuell vorhandene model-spezifische READMEs, um das genaue Input-Schema jeder App zu überprüfen. Unterschiedliche Modelle können unterschiedliche Feldnamen wie prompt, text oder voice_id verwenden.

5. Voice Changing / Voice Cloning mit ElevenLabs Voice Changer

In der Skill-Beschreibung ist ElevenLabs Voice Changer (App-ID elevenlabs/voice-changer) ausdrücklich für die Transformation bestehender Aufnahmen genannt. Ein typischer CLI-Aufruf wird:

Eine Eingabe-Audiodatei (deine ursprüngliche Aufnahme) referenzieren
Zielstimme oder Einstellungen angeben
Eine transformierte Audiodatei ausgeben

Ein generisches Muster sieht ähnlich aus wie:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Sieh in der inference.sh App-Dokumentation nach, um die exakten Felder und unterstützten Formate zu bestätigen.

6. ai-voice-cloning in Agenten integrieren

Wenn du ai-voice-cloning mit npx skills add als Skill hinzufügst, kann eine Agentenplattform, die das inferen-sh/skills-Format versteht:

Erkennen, dass Bash (infsh \*) als Tool erlaubt ist
Die Beispiele und Beschreibungen aus SKILL.md als Orientierung verwenden
Automatisch passende infsh app run ...-Befehle generieren, um Audio zu erzeugen oder zu transformieren

Um das Verhalten für deinen Agenten zu verfeinern:

Öffne SKILL.md im Verzeichnis tools/audio/ai-voice-cloning.
Sieh dir Beispiele, Modell-Tabellen und Hinweise zu Use Cases an.
Ergänze in deiner Agentenkonfiguration oder Orchestrierungsebene eigene Prompt-Muster, Stimmauswahlen oder Post-Processing-Schritte.

7. Wichtige Dateien im Repository

Für ein besseres Verständnis, wie das Skill definiert ist und wie es eingesetzt werden soll, sind besonders relevant:

tools/audio/ai-voice-cloning/SKILL.md – Kerndokumentation, Schnellstart und Modellübersicht
Dokumente auf Root-Ebene wie README.md und cli-install.md – Allgemeine Hinweise zu inference.sh und zur Einrichtung der CLI

Möglicherweise gibt es im tools-Ordner weitere Dokumentation für den breiteren Tooling-Kontext.

FAQ

Ist ai-voice-cloning eine eigenständige App oder eine Skill-Definition?

ai-voice-cloning ist eine Skill-Definition im Repository inferen-sh/skills. Sie beschreibt, wie ein Agent die inference.sh CLI (infsh) für KI-Sprachgenerierung und Voice Cloning nutzen kann. Du erhältst keine GUI-Anwendung, sondern eine klare Möglichkeit, TTS- und Voice-Changer-Modelle über die Kommandozeile oder Agent-Workflows aufzurufen, die Bash ausführen können.

Was muss installiert sein, um ai-voice-cloning zu verwenden?

Du benötigst:

Die inference.sh CLI (infsh), installiert und in deiner Shell verfügbar
Gültige Authentifizierung für inference.sh (einrichtbar über infsh login)
Eine Umgebung, in der Bash-Befehle ausgeführt werden können (z. B. ein lokales Terminal oder eine Agentenlaufzeit, die Bash bereitstellt)

Optional, wenn du das Skill in eine Agentenplattform mit skills-Support integrierst, installiere es mit:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Welche KI-Sprachmodelle werden unterstützt?

Laut Skill-Beschreibung und SKILL.md ist ai-voice-cloning darauf ausgelegt, mit mehreren über inference.sh verfügbaren Modellen zu arbeiten, darunter:

ElevenLabs TTS – elevenlabs/tts
ElevenLabs Voice Changer – elevenlabs/voice-changer
Kokoro TTS – infsh/kokoro-tts
DIA TTS-Apps (App-IDs beginnend mit infsh/dia-...)
Weitere Modelle wie Chatterbox, Higgs und VibeVoice, die in der Beschreibung erwähnt sind

Sieh dir die Tabelle Available Models in SKILL.md sowie die inference.sh-Dokumentation an, um die aktuelle vollständige Liste und deren Parameter zu erhalten.

Kann ai-voice-cloning langformatige Vertonung verarbeiten?

Ja. Das Skill wird ausdrücklich als geeignet für langformatige Vertonung und Anwendungsfälle wie Hörbücher, Podcasts und Videonarration beschrieben. Details zur Verarbeitung langer Inhalte (z. B. Chunking, maximale Textlänge, Zusammenfügen) hängen jedoch von den Grenzen der jeweiligen Modelle und der inference.sh-Laufzeit ab. Wenn du sehr lange Skripte verarbeiten willst, teste zunächst mit kleineren Abschnitten und konsultiere die Modelldokumentation.

Worin unterscheidet sich das von der direkten Nutzung von ElevenLabs oder anderen Anbietern?

ai-voice-cloning:

Verwendet die inference.sh CLI als einheitliche Schnittstelle
Ermöglicht den Wechsel zwischen mehreren TTS- und Voice-Changer-Modellen mit ähnlichen infsh app run ...-Befehlen
Lässt sich nahtlos in Agenten-Skills, Bash-Skripte und automatisierte Workflows integrieren

Wenn du bereits die nativen APIs eines Anbieters direkt nutzt, kann ai-voice-cloning dennoch sinnvoll sein, wenn du:

Eine einzige CLI möchtest, die mehrere Anbieter und Modelle abstrahiert
Eine leichtere Integration in Agentenframeworks suchst, die das Skills-Format verstehen

Unterstützt ai-voice-cloning Echtzeit-Streaming-Audio?

Der Ausschnitt aus SKILL.md konzentriert sich auf Batch-Befehle (infsh app run ...) und beschreibt Echtzeit-Streaming nicht explizit. Streaming- oder Low-Latency-Optionen hängen von den jeweiligen Apps auf inference.sh ab, nicht vom Skill selbst. Prüfe die inference.sh-Dokumentation der von dir geplanten Modelle, wenn Echtzeit-Ausgabe für deinen Use Case wichtig ist.

In welchem Ausgabeformat erhalte ich Audio von ai-voice-cloning?

Ausgabeformate (z. B. wav, mp3) und Bereitstellungsarten (Lokale Dateien, URLs usw.) werden von den jeweiligen inference.sh-Apps wie infsh/kokoro-tts oder elevenlabs/tts bestimmt. Das Skill schreibt kein bestimmtes Audioformat vor, sondern definiert lediglich, wie Agenten diese Modelle aufrufen. Sieh in die Dokumentation der einzelnen Apps oder führe einen Testbefehl aus, um das Standardausgabeverhalten zu ermitteln.

Wann ist ai-voice-cloning nicht die richtige Wahl?

Du solltest eventuell eine andere Lösung wählen, wenn:

Du einen rein browserbasierten Workflow ohne CLI benötigst
Du offline, On-Device-TTS ohne externe API-Aufrufe brauchst
Dein Schwerpunkt auf dem Training eigener Modelle mit großen Datensätzen liegt, statt auf der Nutzung vorgefertigter Stimmen

In solchen Fällen sind etwa Desktop-DAWs mit integrierten TTS-Plugins oder On-Device-TTS-Bibliotheken geeigneter. Wenn dein Fokus dagegen auf skriptgesteuerter, automatisierter KI-Sprachgenerierung über CLI oder Agenten liegt, ist ai-voice-cloning eine sehr passende Option.

Wo finde ich weitere Informationen zu Konfiguration und erweiterten Optionen?

Starte mit:

tools/audio/ai-voice-cloning/SKILL.md im Repository inferen-sh/skills
Dem in SKILL.md referenzierten CLI-Installationsdokument cli-install.md
Eventuellen modell-spezifischen Docs, die von inference.sh für Apps wie infsh/kokoro-tts oder elevenlabs/tts verlinkt sind

Diese Ressourcen liefern dir die neuesten Beispielbefehle, Parameterlisten und Nutzungshinweise über die hier gezeigten Schnellstart-Muster hinaus.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

elevenlabs-tts

by inferen-sh

ElevenLabs Text-to-Speech über die inference.sh CLI, mit über 22 Premiumstimmen, Mehrsprachenunterstützung und schnellen Modelloptionen für produktive Voice-Generation-Workflows.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Erzeuge originale KI-Musik aus Textprompts mit der inference.sh CLI und ElevenLabs. Steuere Länge, Stil und Stimmung, um direkt aus deinem Terminal lizenzfreie Hintergrundmusik, Soundtracks, Jingles, Podcast-Betten und Game-Audio zu erstellen.

Audio Editing

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Hochpräzise ElevenLabs Speech-to-Text über die inference.sh CLI mit Scribe v1/v2 Modellen. Unterstützt Transkription, Sprecher-Diarisierung, Audio-Event-Tagging, Wortzeitstempel, Forced Alignment und Untertitel-Generierung für Meetings, Podcasts und andere Audio-Workflows.

Audio Editing

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Erstellen Sie KI-gestützte Podcasts und Sprachinhalte aus Text mit Kokoro TTS, DIA TTS und der inference.sh CLI. Kombinieren Sie mehrere Stimmen, fügen Sie Musik hinzu und bauen Sie komplette Episoden für Podcasts, Hörbücher und Audio-Newsletter.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing ermöglicht es dir, Audio- oder Videoinhalte automatisch in 29 Sprachen zu vertonen und zu übersetzen – direkt über die inference.sh CLI – und dabei die Stimmen der ursprünglichen Sprecher zu erhalten. Ideal für Video-Editoren, Podcaster und Lokalisierungsteams, die schnell hochwertige, mehrsprachige Versionen bestehender Inhalte benötigen.

Video Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Erzeuge KI-Musik und komplette Songs aus Text-Prompts mit ElevenLabs Music, Diffrythm und Tencent Song Generation über die inference.sh CLI. Ideal für Hintergrundmusik, Soundtracks, Social-Clips, Podcasts und lizenzgebührenfreie Musik. Unterstützt schnelle Song-Generierung, Instrumentals und komplette Vocal-Songs.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Erzeuge mit ElevenLabs über die inference.sh CLI hochwertiges, mehrstimmiges Dialog-Audio. Verwandle strukturierte Skripte in natürlich klingende Gespräche mit mehreren Stimmen in einer einzigen Datei – ideal für Podcasts, Hörbücher, Erklärvideos, Tutorials, Charakterdialoge und Videoskripte.

Voice Generation

Favorites 0GitHub 0