I

ai-voice-cloning

von inferen-sh

ai-voice-cloning ist ein auf inference.sh basierendes Skill für KI-Sprachgenerierung, Text-to-Speech und Voice Cloning über die CLI. Es bündelt ElevenLabs-, Kokoro TTS-, DIA-, Chatterbox-, Higgs- und VibeVoice-Modelle für natürliche Sprache, mehrstimmige Vertonung und Stimmtransformation in Audio- und Videoprojekten.

Stars0
Favoriten0
Kommentare0
Hinzugefügt27. März 2026
KategorieVoice Generation
Installationsbefehl
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
Überblick

Übersicht

Was ist ai-voice-cloning?

ai-voice-cloning ist ein auf die CLI fokussiertes Skill für KI-Sprachgenerierung und Voice Cloning, das auf der inference.sh-Plattform aufbaut. Es ermöglicht dir, Text-to-Speech- und Stimmtransformationsmodelle von der Kommandozeile aus aufzurufen, darunter ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs und VibeVoice.

Das Skill ist im Repository inferen-sh/skills definiert und dafür ausgelegt, in Agent-Workflows eingebettet zu werden, die Bash über infsh (die inference.sh CLI) aufrufen können. Der Schwerpunkt liegt auf der Erzeugung natürlich klingender Sprache und der Transformation bestehender Sprachaufnahmen – nicht auf dem Training von Modellen oder der Verwaltung von Datensätzen.

Zentrale Funktionen

  • Text-to-Speech (TTS) über die CLI mit infsh app run ...
  • Mehrere KI-Sprachmodelle an einem Ort (z. B. elevenlabs/tts, infsh/kokoro-tts)
  • Voice Cloning / Voice Changing für bestehende Aufnahmen über ElevenLabs Voice Changer
  • Unterstützung vieler Stimmen und Sprachen (über ElevenLabs-Modelle, gemäß der Upstream-Beschreibung)
  • Langformatige Vertonung für Voiceovers, Hörbücher und Podcasts
  • Konversationsartige und ausdrucksstarke Sprachwiedergabe mit Modellen, die auf natürliche Sprache optimiert sind

Da ai-voice-cloning eine Skill-Definition und keine eigenständige App ist, interagierst du damit über die inference.sh CLI und beliebige Agenten oder Tools, die Bash-Befehle ausführen dürfen.

Für wen ist ai-voice-cloning gedacht?

Dieses Skill eignet sich besonders, wenn du:

  • Mit Audio oder Video arbeitest und schnelle, skriptgesteuerte Sprachgenerierung brauchst
  • KI-Agenten, CLIs oder Automatisierungen baust, die sprechen oder vertonen sollen
  • Voiceovers, Erklärvideos, Tutorials oder Trainingsvideos produzierst
  • Stimmen in ElevenLabs-Qualität und weitere spezialisierte TTS-Modelle hinter einer einheitlichen CLI bündeln möchtest
  • Command-Line-Workflows Web-GUIs vorziehst

Weniger geeignet ist es, wenn du:

  • Eine rein grafische Oberfläche ohne jede CLI-Nutzung benötigst
  • Eigene Modelle aus Roh-Audiodaten trainieren möchtest (nicht Teil dieses Skills)
  • Einen Browser- oder On-Device-Betrieb ohne Aufrufe an den inference.sh-Service verlangst

Typische Anwendungsfälle

  • Erzeugen von Vertonungsspuren für YouTube- oder Marketing-Videos
  • Erstellung von Hörbuch- oder Podcast-Sprachaufnahmen aus Textskripten
  • Produktion mehrerer Charakterstimmen für Dialoge und Konversationen
  • Anwenden von Voice Changing auf bestehende Aufnahmen mit ElevenLabs Voice Changer
  • Hinzufügen von Audio-Prompts und Systemstimmen zu Agenten, Bots und interaktiven Tools

Verwendung

1. Voraussetzungen und Installationsoptionen

Um ai-voice-cloning zu nutzen, benötigst du:

  • Zugriff auf die inference.sh CLI (infsh)
  • Netzwerkzugriff auf die inference.sh APIs
  • Eine Shell-Umgebung, in der Bash-Befehle erlaubt sind

Du kannst das Skill in deine Agent-Umgebung integrieren mit:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Damit wird die Skill-Definition aus inferen-sh/skills geladen und registriert, sodass dein Agent die zugehörigen Tools (insbesondere Bash mit infsh) aufrufen kann.

Für die direkte Nutzung über die CLI außerhalb eines Agenten installierst du die inference.sh CLI selbst. Im SKILL.md des Skills findest du einen Link zu den Installationsanweisungen für die CLI unter:

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Folge diesem Dokument, um infsh auf deinem System zu installieren.

2. Bei inference.sh anmelden

Sobald infsh installiert ist, authentifizierst du dich mit:

infsh login

Folge den Eingabeaufforderungen, um dich anzumelden oder deine Zugangsdaten wie im CLI-Installationsleitfaden beschrieben zu konfigurieren.

3. Schnellstart: Sprache mit Kokoro TTS generieren

Das SKILL.md enthält ein einfaches Kokoro TTS-Beispiel. Nach der Anmeldung kannst du Sprache erzeugen mit:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Was dabei passiert:

  • Aufruf der App infsh/kokoro-tts
  • Senden einer JSON-Eingabe mit einem prompt (der zu sprechende Text) und einer voice-Auswahl
  • Ausgabe synthetisierter Sprache (siehe CLI-Dokumentation für Ausgabe-Pfade oder Streaming-Verhalten)

Dieses Muster kannst du für andere Prompts und unterstützte Stimmen anpassen.

4. Andere Modelle verwenden (ElevenLabs, DIA und mehr)

Das SKILL.md listet verfügbare Modelle in einer Tabelle Available Models. Im sichtbaren Ausschnitt sind u. a. folgende Einträge zu erwarten:

  • ElevenLabs TTS – App-ID: elevenlabs/tts
  • ElevenLabs Voice Changer – App-ID: elevenlabs/voice-changer
  • Kokoro TTS – App-ID: infsh/kokoro-tts
  • DIA – App-ID beginnend mit infsh/dia-...
  • Weitere Modelle wie Chatterbox, Higgs und VibeVoice werden in der Skill-Beschreibung erwähnt.

Um eine andere App aufzurufen, änderst du die App-ID in deinem CLI-Befehl. Ein typisches Muster für TTS mit ElevenLabs könnte beispielsweise so aussehen:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Nutze die Repository-Dokumentation und eventuell vorhandene model-spezifische READMEs, um das genaue Input-Schema jeder App zu überprüfen. Unterschiedliche Modelle können unterschiedliche Feldnamen wie prompt, text oder voice_id verwenden.

5. Voice Changing / Voice Cloning mit ElevenLabs Voice Changer

In der Skill-Beschreibung ist ElevenLabs Voice Changer (App-ID elevenlabs/voice-changer) ausdrücklich für die Transformation bestehender Aufnahmen genannt. Ein typischer CLI-Aufruf wird:

  1. Eine Eingabe-Audiodatei (deine ursprüngliche Aufnahme) referenzieren
  2. Zielstimme oder Einstellungen angeben
  3. Eine transformierte Audiodatei ausgeben

Ein generisches Muster sieht ähnlich aus wie:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Sieh in der inference.sh App-Dokumentation nach, um die exakten Felder und unterstützten Formate zu bestätigen.

6. ai-voice-cloning in Agenten integrieren

Wenn du ai-voice-cloning mit npx skills add als Skill hinzufügst, kann eine Agentenplattform, die das inferen-sh/skills-Format versteht:

  • Erkennen, dass Bash (infsh \*) als Tool erlaubt ist
  • Die Beispiele und Beschreibungen aus SKILL.md als Orientierung verwenden
  • Automatisch passende infsh app run ...-Befehle generieren, um Audio zu erzeugen oder zu transformieren

Um das Verhalten für deinen Agenten zu verfeinern:

  1. Öffne SKILL.md im Verzeichnis tools/audio/ai-voice-cloning.
  2. Sieh dir Beispiele, Modell-Tabellen und Hinweise zu Use Cases an.
  3. Ergänze in deiner Agentenkonfiguration oder Orchestrierungsebene eigene Prompt-Muster, Stimmauswahlen oder Post-Processing-Schritte.

7. Wichtige Dateien im Repository

Für ein besseres Verständnis, wie das Skill definiert ist und wie es eingesetzt werden soll, sind besonders relevant:

  • tools/audio/ai-voice-cloning/SKILL.md – Kerndokumentation, Schnellstart und Modellübersicht
  • Dokumente auf Root-Ebene wie README.md und cli-install.md – Allgemeine Hinweise zu inference.sh und zur Einrichtung der CLI

Möglicherweise gibt es im tools-Ordner weitere Dokumentation für den breiteren Tooling-Kontext.


FAQ

Ist ai-voice-cloning eine eigenständige App oder eine Skill-Definition?

ai-voice-cloning ist eine Skill-Definition im Repository inferen-sh/skills. Sie beschreibt, wie ein Agent die inference.sh CLI (infsh) für KI-Sprachgenerierung und Voice Cloning nutzen kann. Du erhältst keine GUI-Anwendung, sondern eine klare Möglichkeit, TTS- und Voice-Changer-Modelle über die Kommandozeile oder Agent-Workflows aufzurufen, die Bash ausführen können.

Was muss installiert sein, um ai-voice-cloning zu verwenden?

Du benötigst:

  • Die inference.sh CLI (infsh), installiert und in deiner Shell verfügbar
  • Gültige Authentifizierung für inference.sh (einrichtbar über infsh login)
  • Eine Umgebung, in der Bash-Befehle ausgeführt werden können (z. B. ein lokales Terminal oder eine Agentenlaufzeit, die Bash bereitstellt)

Optional, wenn du das Skill in eine Agentenplattform mit skills-Support integrierst, installiere es mit:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Welche KI-Sprachmodelle werden unterstützt?

Laut Skill-Beschreibung und SKILL.md ist ai-voice-cloning darauf ausgelegt, mit mehreren über inference.sh verfügbaren Modellen zu arbeiten, darunter:

  • ElevenLabs TTSelevenlabs/tts
  • ElevenLabs Voice Changerelevenlabs/voice-changer
  • Kokoro TTSinfsh/kokoro-tts
  • DIA TTS-Apps (App-IDs beginnend mit infsh/dia-...)
  • Weitere Modelle wie Chatterbox, Higgs und VibeVoice, die in der Beschreibung erwähnt sind

Sieh dir die Tabelle Available Models in SKILL.md sowie die inference.sh-Dokumentation an, um die aktuelle vollständige Liste und deren Parameter zu erhalten.

Kann ai-voice-cloning langformatige Vertonung verarbeiten?

Ja. Das Skill wird ausdrücklich als geeignet für langformatige Vertonung und Anwendungsfälle wie Hörbücher, Podcasts und Videonarration beschrieben. Details zur Verarbeitung langer Inhalte (z. B. Chunking, maximale Textlänge, Zusammenfügen) hängen jedoch von den Grenzen der jeweiligen Modelle und der inference.sh-Laufzeit ab. Wenn du sehr lange Skripte verarbeiten willst, teste zunächst mit kleineren Abschnitten und konsultiere die Modelldokumentation.

Worin unterscheidet sich das von der direkten Nutzung von ElevenLabs oder anderen Anbietern?

ai-voice-cloning:

  • Verwendet die inference.sh CLI als einheitliche Schnittstelle
  • Ermöglicht den Wechsel zwischen mehreren TTS- und Voice-Changer-Modellen mit ähnlichen infsh app run ...-Befehlen
  • Lässt sich nahtlos in Agenten-Skills, Bash-Skripte und automatisierte Workflows integrieren

Wenn du bereits die nativen APIs eines Anbieters direkt nutzt, kann ai-voice-cloning dennoch sinnvoll sein, wenn du:

  • Eine einzige CLI möchtest, die mehrere Anbieter und Modelle abstrahiert
  • Eine leichtere Integration in Agentenframeworks suchst, die das Skills-Format verstehen

Unterstützt ai-voice-cloning Echtzeit-Streaming-Audio?

Der Ausschnitt aus SKILL.md konzentriert sich auf Batch-Befehle (infsh app run ...) und beschreibt Echtzeit-Streaming nicht explizit. Streaming- oder Low-Latency-Optionen hängen von den jeweiligen Apps auf inference.sh ab, nicht vom Skill selbst. Prüfe die inference.sh-Dokumentation der von dir geplanten Modelle, wenn Echtzeit-Ausgabe für deinen Use Case wichtig ist.

In welchem Ausgabeformat erhalte ich Audio von ai-voice-cloning?

Ausgabeformate (z. B. wav, mp3) und Bereitstellungsarten (Lokale Dateien, URLs usw.) werden von den jeweiligen inference.sh-Apps wie infsh/kokoro-tts oder elevenlabs/tts bestimmt. Das Skill schreibt kein bestimmtes Audioformat vor, sondern definiert lediglich, wie Agenten diese Modelle aufrufen. Sieh in die Dokumentation der einzelnen Apps oder führe einen Testbefehl aus, um das Standardausgabeverhalten zu ermitteln.

Wann ist ai-voice-cloning nicht die richtige Wahl?

Du solltest eventuell eine andere Lösung wählen, wenn:

  • Du einen rein browserbasierten Workflow ohne CLI benötigst
  • Du offline, On-Device-TTS ohne externe API-Aufrufe brauchst
  • Dein Schwerpunkt auf dem Training eigener Modelle mit großen Datensätzen liegt, statt auf der Nutzung vorgefertigter Stimmen

In solchen Fällen sind etwa Desktop-DAWs mit integrierten TTS-Plugins oder On-Device-TTS-Bibliotheken geeigneter. Wenn dein Fokus dagegen auf skriptgesteuerter, automatisierter KI-Sprachgenerierung über CLI oder Agenten liegt, ist ai-voice-cloning eine sehr passende Option.

Wo finde ich weitere Informationen zu Konfiguration und erweiterten Optionen?

Starte mit:

  • tools/audio/ai-voice-cloning/SKILL.md im Repository inferen-sh/skills
  • Dem in SKILL.md referenzierten CLI-Installationsdokument cli-install.md
  • Eventuellen modell-spezifischen Docs, die von inference.sh für Apps wie infsh/kokoro-tts oder elevenlabs/tts verlinkt sind

Diese Ressourcen liefern dir die neuesten Beispielbefehle, Parameterlisten und Nutzungshinweise über die hier gezeigten Schnellstart-Muster hinaus.

Bewertungen & Rezensionen

Noch keine Bewertungen
Teile deine Rezension
Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.
G
0/10000
Neueste Rezensionen
Wird gespeichert...