elevenlabs-tts

von inferen-sh

ElevenLabs Text-to-Speech über die inference.sh CLI, mit über 22 Premiumstimmen, Mehrsprachenunterstützung und schnellen Modelloptionen für produktive Voice-Generation-Workflows.

Stars0

Favoriten0

Kommentare0

Hinzugefügt27. März 2026

KategorieVoice Generation

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-tts

Audio Video Ai Cli Developer Audience

Überblick

Übersicht

Was ist elevenlabs-tts?

Das elevenlabs-tts Skill verbindet die ElevenLabs Text-to-Speech API mit der inference.sh (infsh) CLI. So erhältst du eine schnelle, skriptbare Möglichkeit, Text in hochwertige Sprache zu verwandeln. Es stellt ElevenLabs-Modelle und Stimmoptionen als wiederverwendbares Tool im inferen-sh Skills-Ökosystem bereit.

Der Fokus liegt auf premium, natürlich klingenden Stimmen mit Unterstützung für 32 Sprachen und mehreren Performance-Stufen, sodass du je nach Bedarf zwischen maximaler Qualität und extrem niedriger Latenz wählen kannst.

Zentrale Funktionen

Text-to-Speech-Generierung aus einfachem Text
Über 22 Premiumstimmen, per CLI abrufbar
Modellauswahl für unterschiedliche Speed-/Quality-Trade-offs:
- eleven_multilingual_v2 – höchste Qualität, multilingual
- eleven_turbo_v2_5 – ausgewogenes Verhältnis von Geschwindigkeit und Qualität
- eleven_flash_v2_5 – extrem schnell, niedrige Latenz
Stimmenauswahl aus der ElevenLabs Voice Library
Ausgelegt für CLI- und Automations-Workflows mit infsh

Für wen ist elevenlabs-tts gedacht?

Dieses Skill richtet sich an Nutzer:innen, die:

bereits mit einer Command Line Interface arbeiten oder sich damit wohlfühlen
Voiceovers und Vertonungen automatisieren oder im Batch erzeugen möchten
konsistente, wiederverwendbare Stimmen über mehrere Projekte hinweg benötigen
im inference.sh / inferen-sh Skills-Ökosystem arbeiten

Typische Anwendungsfälle:

Video-Editoren und Creator, die Voiceovers für YouTube, Produktdemos und Erklärvideos benötigen
Podcaster und Audio-Produzent:innen, die Intros, Outros und Segmente erzeugen
E-Learning- und Trainingsteams, die Kursvertonungen produzieren
Entwickler:innen, die IVR-Systeme, Assistenten oder Accessibility-Features mit natürlicher Sprache bauen

Wann ist elevenlabs-tts eine gute Wahl?

Nutze elevenlabs-tts, wenn du:

zuverlässige, produktionsreife Stimmen statt experimenteller Modelle brauchst
alles über die CLI statt über ein Web-Interface steuern möchtest
TTS-Generierung als Teil von CI, Pipelines oder Batch-Jobs skripten oder zeitgesteuert ausführen willst
bereits die inference.sh CLI (infsh) nutzt oder bereit bist, sie zu installieren

Es ist nicht ideal geeignet, wenn du:

nur eine Point-and-Click Weboberfläche für manuelle Nutzung möchtest
fein granulierte Audio-Bearbeitung (Schneiden, Mischen, Effekte) direkt im Skill brauchst – hier erzeugst du nur das Audio und bearbeitest es anschließend in einer DAW (z. B. Audacity, Reaper, Premiere)
in deiner Umgebung keine externen CLIs oder keinen ausgehenden Netzwerkzugriff verwenden kannst

Nutzung

Voraussetzungen

Bevor du elevenlabs-tts verwendest, stelle sicher, dass du Folgendes eingerichtet hast:

inference.sh CLI (infsh) installiert
Einen funktionierenden, konfigurierten infsh Login
Zugriff auf die ElevenLabs TTS App über inference.sh

Installationsanweisungen für die CLI findest du in der Datei cli-install.md im Repository, die von SKILL.md referenziert wird.

Schritt 1 – elevenlabs-tts Skill installieren

Füge das Skill aus einer kompatiblen Agent Skills / inferen-sh Umgebung hinzu:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-tts

Damit wird das elevenlabs-tts Skill aus dem inferen-sh/skills Repository geladen und registriert, sodass deine Agents oder Workflows es aufrufen können.

Schritt 2 – Mit der inference.sh CLI einloggen

Das Skill nutzt die infsh CLI, um mit dem ElevenLabs Backend zu kommunizieren.

infsh login

Folge den Anweisungen, um dich zu authentifizieren. Sobald du eingeloggt bist, kann die CLI die ElevenLabs TTS App in deinem Namen ausführen.

Schritt 3 – Eine einfache Text-to-Speech-Konvertierung ausführen

Am schnellsten siehst du elevenlabs-tts in Aktion, wenn du die ElevenLabs TTS App direkt über infsh aufrufst:

infsh app run elevenlabs/tts --input '{"text": "Hello, welcome to our product demo.", "voice": "aria"}'

Dieses Beispiel:

sendet den Text "Hello, welcome to our product demo."
nutzt die Stimme "aria" (eine Beispiel-Voice-ID aus der ElevenLabs Voice Library)
liefert generiertes Sprach-Audio zurück (z. B. als Datei oder Stream, abhängig von deiner infsh-Konfiguration)

Sobald das Skill integriert ist, können deine Agents dieselbe Funktionalität auch programmatisch nutzen.

Schritt 4 – Das passende ElevenLabs Modell wählen

Das elevenlabs-tts Skill unterstützt mehrere Modelle, die jeweils auf ein bestimmtes Verhältnis von Qualität und Latenz optimiert sind:

eleven_multilingual_v2
- Ideal für: höchste Qualität, Longform-Content und 32-Sprachen-Support
- Typische Nutzung: Hörbücher, Kursvertonung, gebrandete Voiceovers
eleven_turbo_v2_5
- Ideal für: einen ausgewogenen Mix aus Qualität und Geschwindigkeit
- Typische Nutzung: Produktdemos, Marketingvideos, interne Schulungen
eleven_flash_v2_5
- Ideal für: extrem niedrige Latenz, wenn Geschwindigkeit entscheidend ist
- Typische Nutzung: Chatbots, Assistenten, IVR-Systeme mit schnellen Antworten

Wie du das Modell konkret angibst, hängt von deiner infsh app run Konfiguration oder deinem Agent-Wiring ab. Sieh in deiner lokalen Toolchain-Dokumentation nach, wie du Modell-IDs als Parameter übergibst, wenn du dieses Skill nutzt.

Schritt 5 – In deine Workflows integrieren

Sobald das Skill installiert und getestet ist, kannst du:

elevenlabs-tts in Agent Prompts einbinden, damit Textantworten automatisch in Sprache umgewandelt werden
es in CLI-Skripten nutzen, um Voiceovers aus einer Liste von Textdateien im Batch zu erzeugen
es in CI-Pipelines integrieren, um bei Änderungen an Dokus oder Skripten automatisch aktualisierte Vertonungen zu generieren

Für tiefere Einblicke in die Definition des Skills und eventuell enthaltene Helper-Logik öffne diese Datei im Repo:

tools/audio/elevenlabs-tts/SKILL.md

Dort findest du die Skill-Metadaten, eine Beschreibung und Hinweise zu erlaubten Tools (derzeit ist Bash über infsh erlaubt).

FAQ

Was macht das elevenlabs-tts Skill genau?

Das elevenlabs-tts Skill stellt eine vorkonfigurierte Möglichkeit bereit, ElevenLabs Text-to-Speech über die inference.sh CLI aus Agents und CLI-Workflows heraus aufzurufen. Es ist darauf spezialisiert, aus einfachem Text natürlich klingende Sprachaufnahmen zu erzeugen – mit Zugriff auf mehrere Modelle und Stimmen.

Brauche ich die inference.sh CLI, um elevenlabs-tts zu nutzen?

Ja. In SKILL.md wird infsh bzw. die inference.sh CLI ausdrücklich als Voraussetzung genannt. Du musst die CLI installieren, infsh login ausführen und sicherstellen, dass sie Zugriff auf die App elevenlabs/tts hat.

Für welche Projekte eignet sich elevenlabs-tts am besten?

Dieses Skill eignet sich besonders für:

Voiceovers für Produktdemos, Tutorials und Marketingvideos
Hörbücher und Longform-Vertonungen, insbesondere mit eleven_multilingual_v2
E-Learning- und Training-Vertonungen
Podcasts und Trailer (Intros, Outros, geskriptete Segmente)
Accessibility- und IVR-Systeme, die klare, natürliche Stimmen benötigen

Kann ich elevenlabs-tts für Echtzeitanwendungen nutzen?

Für Anwendungen mit höherem Reaktionsbedarf solltest du eleven_turbo_v2_5 oder eleven_flash_v2_5 wählen, die auf geringere Latenz ausgelegt sind als das hochwertigste Multilingual-Modell. Ob du „echtes“ Echtzeitverhalten erreichst, hängt von Netzwerk und Integration ab, aber diese Modelle sind auf deutlich schnellere Reaktionszeiten ausgelegt.

Wie viele Stimmen unterstützt elevenlabs-tts?

In der Skill-Beschreibung in SKILL.md sind über 22 Premiumstimmen angegeben. Du kannst diese über das Feld voice auswählen (z. B. "aria"), wenn du infsh app run elevenlabs/tts aufrufst oder das Skill in deine Agents einbindest.

Unterstützt elevenlabs-tts mehrere Sprachen?

Ja. Das Modell eleven_multilingual_v2 wird als Modell mit 32 Sprachen beschrieben und macht elevenlabs-tts damit sehr gut geeignet für mehrsprachige Vertonungen und globale Produkte. Andere Modelle sind stärker auf geringe Latenz optimiert, bieten über ElevenLabs aber ebenfalls breiten Sprachsupport.

Wo kann ich sehen, wie das Skill konfiguriert ist?

Im inferen-sh/skills Repository findest du die Konfiguration unter:

tools/audio/elevenlabs-tts/SKILL.md

Diese Datei enthält die offizielle Beschreibung, erlaubte Tools und Verweise auf Installationshinweise für die inference.sh CLI.

Kann ich Audio innerhalb von elevenlabs-tts bearbeiten?

Nein. Das elevenlabs-tts Skill konzentriert sich auf die Audiogenerierung, nicht auf Editing. Typischer Ablauf:

Du nutzt elevenlabs-tts, um saubere Sprachaufnahmen aus Text zu erzeugen.
Du importierst diese Audios in eine DAW oder einen Video-Editor (z. B. Audacity, Reaper, Premiere, Resolve), um sie zu schneiden, zu mischen oder mit Effekten zu versehen.

Was ist, wenn ich nur eine Weboberfläche und keine CLI nutzen möchte?

Wenn du lieber komplett im Browser arbeitest, ist elevenlabs-tts möglicherweise nicht die beste Wahl, da es um die inference.sh CLI und das Agent Skills-Ökosystem herum aufgebaut ist. In diesem Fall kannst du stattdessen das ElevenLabs Web-Dashboard oder andere UI-zentrierte Tools in Betracht ziehen.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

ai-podcast-creation

by inferen-sh

Erstellen Sie KI-gestützte Podcasts und Sprachinhalte aus Text mit Kokoro TTS, DIA TTS und der inference.sh CLI. Kombinieren Sie mehrere Stimmen, fügen Sie Musik hinzu und bauen Sie komplette Episoden für Podcasts, Hörbücher und Audio-Newsletter.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Erzeuge mit ElevenLabs über die inference.sh CLI hochwertiges, mehrstimmiges Dialog-Audio. Verwandle strukturierte Skripte in natürlich klingende Gespräche mit mehreren Stimmen in einer einzigen Datei – ideal für Podcasts, Hörbücher, Erklärvideos, Tutorials, Charakterdialoge und Videoskripte.

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

ElevenLabs voice changer Skill, der die inference.sh CLI (infsh) nutzt, um aufgezeichnete Sprache in eine andere synthetische Stimme umzuwandeln und dabei Inhalt und Emotion zu erhalten. Unterstützt eleven_multilingual_sts_v2 (70+ Sprachen) und eleven_english_sts_v2 für Speech-to-Speech, Akzentwechsel und Stimmverschleierung in Content-Produktion, Dubbing und Charakterstimmen.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Erzeuge originale KI-Musik aus Textprompts mit der inference.sh CLI und ElevenLabs. Steuere Länge, Stil und Stimmung, um direkt aus deinem Terminal lizenzfreie Hintergrundmusik, Soundtracks, Jingles, Podcast-Betten und Game-Audio zu erstellen.

Audio Editing

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning ist ein auf inference.sh basierendes Skill für KI-Sprachgenerierung, Text-to-Speech und Voice Cloning über die CLI. Es bündelt ElevenLabs-, Kokoro TTS-, DIA-, Chatterbox-, Higgs- und VibeVoice-Modelle für natürliche Sprache, mehrstimmige Vertonung und Stimmtransformation in Audio- und Videoprojekten.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing ermöglicht es dir, Audio- oder Videoinhalte automatisch in 29 Sprachen zu vertonen und zu übersetzen – direkt über die inference.sh CLI – und dabei die Stimmen der ursprünglichen Sprecher zu erhalten. Ideal für Video-Editoren, Podcaster und Lokalisierungsteams, die schnell hochwertige, mehrsprachige Versionen bestehender Inhalte benötigen.

Video Editing

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Erzeuge KI-Musik und komplette Songs aus Text-Prompts mit ElevenLabs Music, Diffrythm und Tencent Song Generation über die inference.sh CLI. Ideal für Hintergrundmusik, Soundtracks, Social-Clips, Podcasts und lizenzgebührenfreie Musik. Unterstützt schnelle Song-Generierung, Instrumentals und komplette Vocal-Songs.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Voice Generation

Favorites 0GitHub 0