elevenlabs-dialogue

von inferen-sh

Erzeuge mit ElevenLabs über die inference.sh CLI hochwertiges, mehrstimmiges Dialog-Audio. Verwandle strukturierte Skripte in natürlich klingende Gespräche mit mehreren Stimmen in einer einzigen Datei – ideal für Podcasts, Hörbücher, Erklärvideos, Tutorials, Charakterdialoge und Videoskripte.

Stars0

Favoriten0

Kommentare0

KategorieVoice Generation

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dialogue

Audio Video Workflow Cli JavaScript Sdk API

Überblick

Was ist elevenlabs-dialogue?

Das elevenlabs-dialogue Skill ist ein spezialisiertes Audio-Generierungs-Tool, das ein strukturiertes Skript in natürlichen, mehrstimmigen Dialog mit ElevenLabs-Stimmen verwandelt. Es läuft über die inference.sh (infsh) CLI, sodass du direkt von der Kommandozeile oder aus Agenten, die Bash aufrufen können, fertig abgemischte Gesprächsaufnahmen erzeugen kannst.

Anstatt einzelne Sätze oder Stimmen mühsam von Hand zusammenzusetzen, definierst du Dialogsegmente in einer einfachen JSON-Struktur (Text + Stimme pro Zeile). Das Skill sendet diese Daten an die elevenlabs/text-to-dialogue App über infsh und liefert eine einzelne, gemischte Dialog-Audiodatei zurück.

Für wen ist elevenlabs-dialogue gedacht?

Dieses Skill richtet sich an alle, die wiederholbar, skriptgesteuertes Dialog-Audio benötigen – insbesondere, wenn mehrere Charaktere oder Sprecher in derselben Spur vorkommen sollen:

Podcast- und Interview-Produzierende, die schnell Dialog-Entwürfe oder synthetische Q&A-Stimmen erzeugen möchten.
Video- und Kurs-Creator, die Erklärvideos, Walkthroughs oder Tutorials mit zwei oder mehr Sprecher:innen produzieren.
Autor:innen von Hörbüchern, Fiction und Games, die Charakterdialoge mit klar unterscheidbaren Stimmen brauchen.
Produkt- und Marketing-Teams, die konversationelle Demos oder Produkttouren erstellen.
Entwickler:innen und Automatisierungsfans, die ElevenLabs-Dialog über CLI in CI, Agenten oder Batch-Workflows integrieren möchten.

Wenn dein Workflow ohnehin stark CLI-orientiert ist oder Agent-Skills nutzt, die Bash ausführen können (infsh *), bietet dir elevenlabs-dialogue einen sauberen Weg, komplette Gespräche zu skripten.

Welche Probleme löst elevenlabs-dialogue?

Dieses Skill hilft dir dabei:

Mehrstimmige Dialoge in einem Lauf zu erzeugen – du definierst mehrere Sprecher und erhältst eine einzige, einsatzbereite Audiodatei.
Konsequent skriptbasiert zu arbeiten – der gesamte Dialog liegt in strukturiertem JSON vor, ideal für Versionskontrolle und Automatisierung.
Voice Casting zu steuern – du wählst aus 22+ ElevenLabs-Stimmen und kombinierst sie für unterschiedliche Szenarien.
Iterationen zu beschleunigen – ändere Text, Stimmen oder Reihenfolge und generiere das vollständige Gespräch schnell neu.

Besonders hilfreich ist das Skill, wenn du konsistente, reproduzierbare Dialog-Assets brauchst, statt nur einzelne spontane Lines.

Wann passt elevenlabs-dialogue zu meinem Use Case?

Nutze elevenlabs-dialogue, wenn:

du dich mit einer CLI wohlfühlst oder Befehle über einen Agenten ausführen kannst.
du mehrere Sprecher:innen statt einer einzelnen Stimme brauchst.
dein Dialog vorgeskriptet ist (Podcasts, Erklärvideos, Trainingsinhalte, Story-Szenen).
du ElevenLabs Premium Voices über inference.sh nutzen möchtest.

Weniger gut geeignet ist das Skill, wenn:

du nur eine einzelne Stimme für lange Fließtexte benötigst (ein einfacheres Text-to-Speech-Tool kann hier reichen).
du die inference.sh CLI nicht installieren oder authentifizieren kannst oder willst.
du umfangreiche Post-Production brauchst (typischerweise wirst du das erzeugte Audio trotzdem in eine DAW laden, um den finalen Feinschliff zu machen).

Verwendung

Voraussetzungen

Bevor du das elevenlabs-dialogue Skill nutzt, stelle sicher, dass du Folgendes eingerichtet hast:

Eine funktionierende inference.sh CLI (infsh) Installation.
Zugriff auf die ElevenLabs-basierte App elevenlabs/text-to-dialogue über inference.sh.
Eine Umgebung (lokal oder Agent), die Bash mit infsh ausführen kann.

In der Upstream-SKILL-Definition ist festgelegt:

allowed-tools: Bash(infsh *) – das bedeutet, die Nutzung ist auf infsh-Befehle in Bash ausgelegt.

1. elevenlabs-dialogue Skill installieren

Um dieses Skill aus dem inferen-sh/skills Repository hinzuzufügen, verwende den Standard-Skills-Installer:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dialogue

Damit werden die elevenlabs-dialogue Konfiguration und Metadaten in deine Skills-Umgebung geladen, sodass Agenten oder Workflows, die dieses Registry verstehen, das Skill aufrufen können.

Nach der Installation kannst du die Datei SKILL.md im Skill-Verzeichnis öffnen, wenn du den Upstream-Quickstart und zusätzliche Informationen zu den Stimmen ansehen möchtest.

2. inference.sh (infsh) einrichten

Das Skill nutzt die infsh CLI, um die zugrunde liegende ElevenLabs-Dialog-App aufzurufen.

Installiere die inference.sh CLI gemäß der offiziellen Anleitung:
- Siehe cli-install.md, auf das in der SKILL-Datei verwiesen wird (URL: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md).
Melde dich im Terminal an, damit infsh auf dein Konto und deine Apps zugreifen kann:

infsh login

Stelle sicher, dass dies erfolgreich ist, bevor du die Dialog-App ausführst.

3. Einen einfachen Dialog erzeugen

Sobald infsh eingerichtet ist, kannst du mit einem einzigen Befehl mehrstimmige Dialoge erzeugen. Das Upstream-Quickstart-Beispiel sieht so aus:

infsh app run elevenlabs/text-to-dialogue --input '{
  "segments": [
    {"text": "Have you tried the new feature?", "voice": "george"},
    {"text": "Not yet, but I heard it is amazing.", "voice": "aria"},
    {"text": "You should check it out today.", "voice": "george"}
  ]
}'

Wichtig dabei:

elevenlabs/text-to-dialogue ist die App, die elevenlabs-dialogue antreibt.
segments ist ein Array von Dialog-Turns.
Jedes Segment enthält:
- text: was der/die Sprecher:in sagt.
- voice: welche ElevenLabs-Stimme verwendet wird.

Die Ausgabe ist eine synthetisierte Audiodatei, in der alle Segmente als ein zusammenhängendes Gespräch angeordnet sind.

4. Eigene Dialogskripte strukturieren

So setzt du elevenlabs-dialogue in realen Projekten effektiv ein:

Schreibe dein Gespräch zunächst in einem Texteditor.
Überführe es in die JSON-Struktur segments.
Ordne jedem Charakter oder Sprecher eine gewählte Voice zu.
Führe den Befehl über infsh app run wie oben gezeigt aus.

Beispiel für einen kurzen Produktdemo-Dialog:

infsh app run elevenlabs/text-to-dialogue --input '{
  "segments": [
    {"text": "Welcome to the analytics dashboard.", "voice": "aria"},
    {"text": "Here you can track your key performance metrics.", "voice": "brian"},
    {"text": "Let me show you how to create a new report.", "voice": "aria"}
  ]
}'

Dieses Muster eignet sich sehr gut für Skripte, CI oder jeden Agenten, der JSON konstruieren und Bash aufrufen kann.

5. Stimmen auswählen und kombinieren

Die SKILL-Dokumentation führt 22+ Premium-Stimmen auf, die für jede Sprecherrolle zur Verfügung stehen, und beschreibt beliebte Kombinationen wie:

Interview: george + aria für professionelles Q&A.
Lockeres Gespräch: brian + sarah für einen entspannten Ton.

Um das Maximum aus elevenlabs-dialogue herauszuholen:

Nutze pro Charakter eine feste Stimme, damit Hörende jederzeit klar zuordnen können, wer spricht.
Setze unterschiedliche Stimmkombinationen je nach Content-Typ ein (z. B. formellere Stimmen für B2B-Erklärvideos, wärmere Stimmen für Storytelling).
Halte in deinem Projekt eine kleine Mapping-Datei (z. B. voices.json) vor, in der du festlegst, welche Rolle welche Voice-Name verwendet.

6. Integration in deinen Workflow

Da elevenlabs-dialogue CLI-basiert ist, fügt es sich gut in automatisierte Audio-Workflows ein:

Für Audio- und Videoproduktion – generiere Dialogspuren und importiere sie anschließend in deine DAW oder dein Schnittprogramm für Musik, Sounddesign und Timing.
Für Dokus und Tutorials – erstelle geskriptete Produkttouren und generiere konversationelle Sprecherrollen.
Für Agenten – lass einen Agenten das segments JSON aus Kontext oder Nutzereingaben erstellen und dann infsh app run aufrufen, um Dialoge on demand zu erzeugen.

Das Skill selbst übernimmt keine Bearbeitung, Layering oder Distribution; es konzentriert sich auf die Generierung. Nachgelagerte Tools sind für Mixing, Kürzen und Export zuständig.

FAQ

Was macht das elevenlabs-dialogue Skill genau?

Das elevenlabs-dialogue Skill koordiniert die Generierung von mehrstimmigen Dialogen mit ElevenLabs-Stimmen über die inference.sh CLI. Du übergibst eine Liste von Dialogsegmenten (Text + Stimme), und das Skill gibt eine einzige, gemischte Audiodatei zurück, in der jede Zeile nacheinander von der angegebenen Stimme gesprochen wird.

Worin unterscheidet sich elevenlabs-dialogue von normalem Text-to-Speech?

Übliche Text-to-Speech-Tools erzeugen Audio für eine einzelne Stimme oder einen einzelnen Textblock. elevenlabs-dialogue ist für Gespräche konzipiert: mehrere Zeilen, mehrere Stimmen, ein finaler Audiotrack. Dadurch eignet es sich besser für Interviews, Charakterdialoge, geskriptete Chats und Erklärvideos mit zwei Sprecher:innen.

Muss inference.sh installiert sein, um elevenlabs-dialogue zu nutzen?

Ja. Das Skill basiert auf der inference.sh (infsh) CLI. Du musst:

Die CLI anhand der offiziellen cli-install.md Anleitung installieren.
infsh login ausführen, um dich zu authentifizieren.

Ohne infsh funktionieren die elevenlabs-dialogue Befehle und alle Agenten, die darauf aufbauen, nicht.

Kann ich jede beliebige ElevenLabs-Stimme verwenden?

Die SKILL-Dokumentation nennt 22+ Premium-Stimmen, die zur Verfügung stehen. Du referenzierst Stimmen im Segment per Name, zum Beispiel "voice": "george" oder "voice": "aria". Die konkrete Verfügbarkeit und Benennung der Stimmen wird von der ElevenLabs-Integration hinter elevenlabs/text-to-dialogue gesteuert.

Für welche Projekte eignet sich elevenlabs-dialogue am besten?

Typische Einsatzszenarien sind:

Synthetische Podcast-Segmente oder Interview-Mockups.
Video-Erklärstücke mit zwei oder mehr Präsentierenden.
Hörbuch-Szenen mit mehreren Charakteren.
Tutorials und Produkttouren, bei denen verschiedene Sprecher:innen die Nutzenden durchleiten.
Charakterdialoge für Prototypen, Demos oder Game-Design.

Wenn du lediglich eine einzelne Erzählerstimme brauchst, genügt oft ein einfacheres Text-to-Speech-Tool. elevenlabs-dialogue spielt seine Stärken aus, wenn mehrere Stimmen miteinander interagieren.

Kann ich das Audio nach der Generierung bearbeiten?

Ja. elevenlabs-dialogue konzentriert sich auf die Erzeugung der Dialogspur. Du kannst die resultierende Audiodatei in jede Audio- oder Videobearbeitungssoftware importieren, um:

Timing und Pacing anzupassen.
Musik, Soundeffekte oder Atmosphäre hinzuzufügen.
EQ, Kompression und Mastering anzuwenden.

Das Skill bringt keinen eigenen Editor mit; es ist dafür gedacht, sich in einen bestehenden Audio-/Video-Produktionsworkflow einzufügen.

Wie steige ich am schnellsten mit elevenlabs-dialogue ein?

Installiere das Skill:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dialogue

Installiere die inference.sh CLI und melde dich an.
Kopiere das Quickstart-Beispiel oben und führe es mit infsh app run aus.
Ersetze die Beispiel-segments durch dein eigenes Skript und deine Voice-Auswahl.

Von dort aus kannst du an deiner Dialogstruktur feilen und den Befehl in Skripte, Agenten oder Build-Pipelines einbinden.

Wo finde ich weitere Details zu elevenlabs-dialogue?

Die aktuellsten, detailliertesten Nutzungshinweise findest du in der Upstream-Datei SKILL.md im inferen-sh/skills Repository unter tools/audio/elevenlabs-dialogue. Dort stehen die offizielle Beschreibung, der Quickstart-Schnipsel und Hinweise zu Voice-Kombinationen, auf denen diese Übersicht basiert.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

elevenlabs-tts

by inferen-sh

ElevenLabs Text-to-Speech über die inference.sh CLI, mit über 22 Premiumstimmen, Mehrsprachenunterstützung und schnellen Modelloptionen für produktive Voice-Generation-Workflows.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing ermöglicht es dir, Audio- oder Videoinhalte automatisch in 29 Sprachen zu vertonen und zu übersetzen – direkt über die inference.sh CLI – und dabei die Stimmen der ursprünglichen Sprecher zu erhalten. Ideal für Video-Editoren, Podcaster und Lokalisierungsteams, die schnell hochwertige, mehrsprachige Versionen bestehender Inhalte benötigen.

Video Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Erzeuge originale KI-Musik aus Textprompts mit der inference.sh CLI und ElevenLabs. Steuere Länge, Stil und Stimmung, um direkt aus deinem Terminal lizenzfreie Hintergrundmusik, Soundtracks, Jingles, Podcast-Betten und Game-Audio zu erstellen.

Audio Editing

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Erstellen Sie KI-gestützte Podcasts und Sprachinhalte aus Text mit Kokoro TTS, DIA TTS und der inference.sh CLI. Kombinieren Sie mehrere Stimmen, fügen Sie Musik hinzu und bauen Sie komplette Episoden für Podcasts, Hörbücher und Audio-Newsletter.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Erzeuge KI-Musik und komplette Songs aus Text-Prompts mit ElevenLabs Music, Diffrythm und Tencent Song Generation über die inference.sh CLI. Ideal für Hintergrundmusik, Soundtracks, Social-Clips, Podcasts und lizenzgebührenfreie Musik. Unterstützt schnelle Song-Generierung, Instrumentals und komplette Vocal-Songs.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning ist ein auf inference.sh basierendes Skill für KI-Sprachgenerierung, Text-to-Speech und Voice Cloning über die CLI. Es bündelt ElevenLabs-, Kokoro TTS-, DIA-, Chatterbox-, Higgs- und VibeVoice-Modelle für natürliche Sprache, mehrstimmige Vertonung und Stimmtransformation in Audio- und Videoprojekten.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Hochpräzise ElevenLabs Speech-to-Text über die inference.sh CLI mit Scribe v1/v2 Modellen. Unterstützt Transkription, Sprecher-Diarisierung, Audio-Event-Tagging, Wortzeitstempel, Forced Alignment und Untertitel-Generierung für Meetings, Podcasts und andere Audio-Workflows.

Audio Editing

Favorites 0GitHub 0