elevenlabs-dialogue
von inferen-shErzeuge mit ElevenLabs über die inference.sh CLI hochwertiges, mehrstimmiges Dialog-Audio. Verwandle strukturierte Skripte in natürlich klingende Gespräche mit mehreren Stimmen in einer einzigen Datei – ideal für Podcasts, Hörbücher, Erklärvideos, Tutorials, Charakterdialoge und Videoskripte.
Überblick
Was ist elevenlabs-dialogue?
Das elevenlabs-dialogue Skill ist ein spezialisiertes Audio-Generierungs-Tool, das ein strukturiertes Skript in natürlichen, mehrstimmigen Dialog mit ElevenLabs-Stimmen verwandelt. Es läuft über die inference.sh (infsh) CLI, sodass du direkt von der Kommandozeile oder aus Agenten, die Bash aufrufen können, fertig abgemischte Gesprächsaufnahmen erzeugen kannst.
Anstatt einzelne Sätze oder Stimmen mühsam von Hand zusammenzusetzen, definierst du Dialogsegmente in einer einfachen JSON-Struktur (Text + Stimme pro Zeile). Das Skill sendet diese Daten an die elevenlabs/text-to-dialogue App über infsh und liefert eine einzelne, gemischte Dialog-Audiodatei zurück.
Für wen ist elevenlabs-dialogue gedacht?
Dieses Skill richtet sich an alle, die wiederholbar, skriptgesteuertes Dialog-Audio benötigen – insbesondere, wenn mehrere Charaktere oder Sprecher in derselben Spur vorkommen sollen:
- Podcast- und Interview-Produzierende, die schnell Dialog-Entwürfe oder synthetische Q&A-Stimmen erzeugen möchten.
- Video- und Kurs-Creator, die Erklärvideos, Walkthroughs oder Tutorials mit zwei oder mehr Sprecher:innen produzieren.
- Autor:innen von Hörbüchern, Fiction und Games, die Charakterdialoge mit klar unterscheidbaren Stimmen brauchen.
- Produkt- und Marketing-Teams, die konversationelle Demos oder Produkttouren erstellen.
- Entwickler:innen und Automatisierungsfans, die ElevenLabs-Dialog über CLI in CI, Agenten oder Batch-Workflows integrieren möchten.
Wenn dein Workflow ohnehin stark CLI-orientiert ist oder Agent-Skills nutzt, die Bash ausführen können (infsh *), bietet dir elevenlabs-dialogue einen sauberen Weg, komplette Gespräche zu skripten.
Welche Probleme löst elevenlabs-dialogue?
Dieses Skill hilft dir dabei:
- Mehrstimmige Dialoge in einem Lauf zu erzeugen – du definierst mehrere Sprecher und erhältst eine einzige, einsatzbereite Audiodatei.
- Konsequent skriptbasiert zu arbeiten – der gesamte Dialog liegt in strukturiertem JSON vor, ideal für Versionskontrolle und Automatisierung.
- Voice Casting zu steuern – du wählst aus 22+ ElevenLabs-Stimmen und kombinierst sie für unterschiedliche Szenarien.
- Iterationen zu beschleunigen – ändere Text, Stimmen oder Reihenfolge und generiere das vollständige Gespräch schnell neu.
Besonders hilfreich ist das Skill, wenn du konsistente, reproduzierbare Dialog-Assets brauchst, statt nur einzelne spontane Lines.
Wann passt elevenlabs-dialogue zu meinem Use Case?
Nutze elevenlabs-dialogue, wenn:
- du dich mit einer CLI wohlfühlst oder Befehle über einen Agenten ausführen kannst.
- du mehrere Sprecher:innen statt einer einzelnen Stimme brauchst.
- dein Dialog vorgeskriptet ist (Podcasts, Erklärvideos, Trainingsinhalte, Story-Szenen).
- du ElevenLabs Premium Voices über inference.sh nutzen möchtest.
Weniger gut geeignet ist das Skill, wenn:
- du nur eine einzelne Stimme für lange Fließtexte benötigst (ein einfacheres Text-to-Speech-Tool kann hier reichen).
- du die inference.sh CLI nicht installieren oder authentifizieren kannst oder willst.
- du umfangreiche Post-Production brauchst (typischerweise wirst du das erzeugte Audio trotzdem in eine DAW laden, um den finalen Feinschliff zu machen).
Verwendung
Voraussetzungen
Bevor du das elevenlabs-dialogue Skill nutzt, stelle sicher, dass du Folgendes eingerichtet hast:
- Eine funktionierende inference.sh CLI (
infsh) Installation. - Zugriff auf die ElevenLabs-basierte App
elevenlabs/text-to-dialogueüber inference.sh. - Eine Umgebung (lokal oder Agent), die Bash mit
infshausführen kann.
In der Upstream-SKILL-Definition ist festgelegt:
allowed-tools: Bash(infsh *)– das bedeutet, die Nutzung ist aufinfsh-Befehle in Bash ausgelegt.
1. elevenlabs-dialogue Skill installieren
Um dieses Skill aus dem inferen-sh/skills Repository hinzuzufügen, verwende den Standard-Skills-Installer:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dialogue
Damit werden die elevenlabs-dialogue Konfiguration und Metadaten in deine Skills-Umgebung geladen, sodass Agenten oder Workflows, die dieses Registry verstehen, das Skill aufrufen können.
Nach der Installation kannst du die Datei SKILL.md im Skill-Verzeichnis öffnen, wenn du den Upstream-Quickstart und zusätzliche Informationen zu den Stimmen ansehen möchtest.
2. inference.sh (infsh) einrichten
Das Skill nutzt die infsh CLI, um die zugrunde liegende ElevenLabs-Dialog-App aufzurufen.
- Installiere die inference.sh CLI gemäß der offiziellen Anleitung:
- Siehe
cli-install.md, auf das in der SKILL-Datei verwiesen wird (URL:https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md).
- Siehe
- Melde dich im Terminal an, damit
infshauf dein Konto und deine Apps zugreifen kann:
infsh login
Stelle sicher, dass dies erfolgreich ist, bevor du die Dialog-App ausführst.
3. Einen einfachen Dialog erzeugen
Sobald infsh eingerichtet ist, kannst du mit einem einzigen Befehl mehrstimmige Dialoge erzeugen. Das Upstream-Quickstart-Beispiel sieht so aus:
infsh app run elevenlabs/text-to-dialogue --input '{
"segments": [
{"text": "Have you tried the new feature?", "voice": "george"},
{"text": "Not yet, but I heard it is amazing.", "voice": "aria"},
{"text": "You should check it out today.", "voice": "george"}
]
}'
Wichtig dabei:
elevenlabs/text-to-dialogueist die App, die elevenlabs-dialogue antreibt.segmentsist ein Array von Dialog-Turns.- Jedes Segment enthält:
text: was der/die Sprecher:in sagt.voice: welche ElevenLabs-Stimme verwendet wird.
Die Ausgabe ist eine synthetisierte Audiodatei, in der alle Segmente als ein zusammenhängendes Gespräch angeordnet sind.
4. Eigene Dialogskripte strukturieren
So setzt du elevenlabs-dialogue in realen Projekten effektiv ein:
- Schreibe dein Gespräch zunächst in einem Texteditor.
- Überführe es in die JSON-Struktur
segments. - Ordne jedem Charakter oder Sprecher eine gewählte Voice zu.
- Führe den Befehl über
infsh app runwie oben gezeigt aus.
Beispiel für einen kurzen Produktdemo-Dialog:
infsh app run elevenlabs/text-to-dialogue --input '{
"segments": [
{"text": "Welcome to the analytics dashboard.", "voice": "aria"},
{"text": "Here you can track your key performance metrics.", "voice": "brian"},
{"text": "Let me show you how to create a new report.", "voice": "aria"}
]
}'
Dieses Muster eignet sich sehr gut für Skripte, CI oder jeden Agenten, der JSON konstruieren und Bash aufrufen kann.
5. Stimmen auswählen und kombinieren
Die SKILL-Dokumentation führt 22+ Premium-Stimmen auf, die für jede Sprecherrolle zur Verfügung stehen, und beschreibt beliebte Kombinationen wie:
- Interview:
george+ariafür professionelles Q&A. - Lockeres Gespräch:
brian+sarahfür einen entspannten Ton.
Um das Maximum aus elevenlabs-dialogue herauszuholen:
- Nutze pro Charakter eine feste Stimme, damit Hörende jederzeit klar zuordnen können, wer spricht.
- Setze unterschiedliche Stimmkombinationen je nach Content-Typ ein (z. B. formellere Stimmen für B2B-Erklärvideos, wärmere Stimmen für Storytelling).
- Halte in deinem Projekt eine kleine Mapping-Datei (z. B.
voices.json) vor, in der du festlegst, welche Rolle welche Voice-Name verwendet.
6. Integration in deinen Workflow
Da elevenlabs-dialogue CLI-basiert ist, fügt es sich gut in automatisierte Audio-Workflows ein:
- Für Audio- und Videoproduktion – generiere Dialogspuren und importiere sie anschließend in deine DAW oder dein Schnittprogramm für Musik, Sounddesign und Timing.
- Für Dokus und Tutorials – erstelle geskriptete Produkttouren und generiere konversationelle Sprecherrollen.
- Für Agenten – lass einen Agenten das
segmentsJSON aus Kontext oder Nutzereingaben erstellen und danninfsh app runaufrufen, um Dialoge on demand zu erzeugen.
Das Skill selbst übernimmt keine Bearbeitung, Layering oder Distribution; es konzentriert sich auf die Generierung. Nachgelagerte Tools sind für Mixing, Kürzen und Export zuständig.
FAQ
Was macht das elevenlabs-dialogue Skill genau?
Das elevenlabs-dialogue Skill koordiniert die Generierung von mehrstimmigen Dialogen mit ElevenLabs-Stimmen über die inference.sh CLI. Du übergibst eine Liste von Dialogsegmenten (Text + Stimme), und das Skill gibt eine einzige, gemischte Audiodatei zurück, in der jede Zeile nacheinander von der angegebenen Stimme gesprochen wird.
Worin unterscheidet sich elevenlabs-dialogue von normalem Text-to-Speech?
Übliche Text-to-Speech-Tools erzeugen Audio für eine einzelne Stimme oder einen einzelnen Textblock. elevenlabs-dialogue ist für Gespräche konzipiert: mehrere Zeilen, mehrere Stimmen, ein finaler Audiotrack. Dadurch eignet es sich besser für Interviews, Charakterdialoge, geskriptete Chats und Erklärvideos mit zwei Sprecher:innen.
Muss inference.sh installiert sein, um elevenlabs-dialogue zu nutzen?
Ja. Das Skill basiert auf der inference.sh (infsh) CLI. Du musst:
- Die CLI anhand der offiziellen
cli-install.mdAnleitung installieren. infsh loginausführen, um dich zu authentifizieren.
Ohne infsh funktionieren die elevenlabs-dialogue Befehle und alle Agenten, die darauf aufbauen, nicht.
Kann ich jede beliebige ElevenLabs-Stimme verwenden?
Die SKILL-Dokumentation nennt 22+ Premium-Stimmen, die zur Verfügung stehen. Du referenzierst Stimmen im Segment per Name, zum Beispiel "voice": "george" oder "voice": "aria". Die konkrete Verfügbarkeit und Benennung der Stimmen wird von der ElevenLabs-Integration hinter elevenlabs/text-to-dialogue gesteuert.
Für welche Projekte eignet sich elevenlabs-dialogue am besten?
Typische Einsatzszenarien sind:
- Synthetische Podcast-Segmente oder Interview-Mockups.
- Video-Erklärstücke mit zwei oder mehr Präsentierenden.
- Hörbuch-Szenen mit mehreren Charakteren.
- Tutorials und Produkttouren, bei denen verschiedene Sprecher:innen die Nutzenden durchleiten.
- Charakterdialoge für Prototypen, Demos oder Game-Design.
Wenn du lediglich eine einzelne Erzählerstimme brauchst, genügt oft ein einfacheres Text-to-Speech-Tool. elevenlabs-dialogue spielt seine Stärken aus, wenn mehrere Stimmen miteinander interagieren.
Kann ich das Audio nach der Generierung bearbeiten?
Ja. elevenlabs-dialogue konzentriert sich auf die Erzeugung der Dialogspur. Du kannst die resultierende Audiodatei in jede Audio- oder Videobearbeitungssoftware importieren, um:
- Timing und Pacing anzupassen.
- Musik, Soundeffekte oder Atmosphäre hinzuzufügen.
- EQ, Kompression und Mastering anzuwenden.
Das Skill bringt keinen eigenen Editor mit; es ist dafür gedacht, sich in einen bestehenden Audio-/Video-Produktionsworkflow einzufügen.
Wie steige ich am schnellsten mit elevenlabs-dialogue ein?
- Installiere das Skill:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dialogue - Installiere die inference.sh CLI und melde dich an.
- Kopiere das Quickstart-Beispiel oben und führe es mit
infsh app runaus. - Ersetze die Beispiel-
segmentsdurch dein eigenes Skript und deine Voice-Auswahl.
Von dort aus kannst du an deiner Dialogstruktur feilen und den Befehl in Skripte, Agenten oder Build-Pipelines einbinden.
Wo finde ich weitere Details zu elevenlabs-dialogue?
Die aktuellsten, detailliertesten Nutzungshinweise findest du in der Upstream-Datei SKILL.md im inferen-sh/skills Repository unter tools/audio/elevenlabs-dialogue. Dort stehen die offizielle Beschreibung, der Quickstart-Schnipsel und Hinweise zu Voice-Kombinationen, auf denen diese Übersicht basiert.
