dialogue-audio
von inferen-shErzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.
Überblick
Was das dialogue-audio Skill macht
Das dialogue-audio Skill verwandelt geschriebenen Dialog in natürlich klingendes Multi-Speaker-Audio mit Dia TTS über die inference.sh (infsh) CLI – inklusive Unterstützung für ElevenLabs-ähnliche Stimmen im Hintergrund.
Es ist ausgelegt für:
- Dialoge mit zwei Charakteren
- Podcast-ähnliche Gespräche und Interviews
- Hörbuchszenen mit abwechselnden Sprecher:innen
- Erklärinhalte im Host/Gast-Format
- Charakterdialoge und Prototypen für Voice Acting
Der Fokus des Skills liegt auf:
- Trennung der Sprecher mit einfachen Tags wie
[S1]und[S2] - Konstanten Stimmen pro Sprecher innerhalb einer Session
- Steuerung von Emotion und Ausdruck über Wortwahl und Zeichensetzung
- Tempo und Gesprächsfluss in Hin-und-her-Dialogen
- Hinweisen zur Postproduktion, um das Audio in deinen Medien-Workflow einzubinden
Wenn du ein automatisiertes Vorgehen suchst, um ein Skript für zwei Personen direkt aus der Kommandozeile in fertig produziertes Dialog-Audio zu verwandeln, ist dialogue-audio genau dafür gebaut.
Für wen dieses Skill gedacht ist
Dieses Skill passt gut zu dir, wenn du:
- Podcaster:in bist und Gespräche entwerfen oder simulieren möchtest
- Audio-Producer oder Video-Editor bist und Sprachspuren in Timelines einfügst
- Autor:in oder Drehbuchschreiber:in bist und dialoglastige Szenen entwickelst
- Developer oder Automation-orientierte Creator bist, die/der CLI und reproduzierbare Workflows bevorzugt
Es ist nicht ideal, wenn du brauchst:
- Mehr als zwei unterschiedliche Sprecher:innen in einer einzelnen Generation
- Komplexes Sounddesign, Musik oder Mixing, das automatisch erledigt wird
- Eine Point-and-Click-GUI statt eines Command-Line-Tools
Für diese Anforderungen solltest du zusätzliche DAW-Tools oder Multi-Speaker-TTS-Services in Betracht ziehen und dialogue-audio für die zentrale Zwei-Stimmen-Dialogspur einsetzen.
Anforderungen im Überblick
Um dialogue-audio effektiv zu nutzen, benötigst du:
- Zugriff auf die inference.sh CLI (
infsh) - Eine Terminal- bzw. Kommandozeilen-Umgebung (macOS, Linux oder Windows mit Shell)
- Grundlegende Erfahrung im Bearbeiten von Text-Prompts und Ausführen von CLI-Commands
Verwendung
1. dialogue-audio Skill installieren
Du kannst das dialogue-audio Skill mit npx in deine Agent-Umgebung einbinden:
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
Damit wird die dialogue-audio Konfiguration aus dem inferen-sh/skills Repository geladen und als wiederverwendbarer Workflow verfügbar gemacht.
Stelle anschließend sicher, dass die inference.sh CLI (infsh) installiert ist. Folge dazu den offiziellen Anweisungen:
- CLI Installationsanleitung:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Nach der Installation meldest du dich an:
infsh login
2. Den Kern-Workflow verstehen
Im Kern nutzt dialogue-audio die Dia TTS App über infsh:
infsh app run falai/dia-tts --input '{
"prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'
Dieser Befehl:
- Ruft die
falai/dia-ttsApp auf - Sendet ein JSON-Input-Payload mit einem
prompt - Nutzt
[S1]und[S2]Tags, um Sprecherwechsel zu markieren - Liefert generiertes Dialog-Audio für den gesamten Austausch
Das dialogue-audio Skill kapselt dieses Muster in einen klar definierten Workflow, der dir hilft, Prompts zu strukturieren, zwei Sprecher sauber zu handhaben und Ausdruck sowie Tempo iterativ zu verfeinern.
3. Sprecher-Tags richtig verwenden
Dia TTS nutzt Sprecher-Tags, um zu erkennen, wer spricht:
[S1]— Sprecher 1 (automatisch Stimme A zugewiesen)[S2]— Sprecher 2 (automatisch Stimme B zugewiesen)
Wichtige Regeln:
- Jeden Sprecherbeitrag immer mit dem passenden Tag beginnen
- Tags müssen großgeschrieben werden:
[S1],[S2](nicht[s1]oder[speaker1]) - Maximal 2 Sprecher:innen pro Generation
- Jede Rolle behält innerhalb einer Session eine konstante Stimme
Beispiel für einen sauberen Zwei-Sprecher-Prompt:
[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.
4. Emotion, Tonfall und Tempo gestalten
Das dialogue-audio Skill ermutigt dich, natürliche Schreibsignale einzusetzen, um das erzeugte Audio zu beeinflussen:
- Nutze Zeichensetzung (Kommas, Auslassungspunkte, Ausrufezeichen), um Pausen und Betonung zu steuern
- Nutze kürzere Sätze für schnellen, pointierten Dialog
- Nutze längere Sätze oder beschreibende Sprache für eine ruhigere, reflektiertere Wiedergabe
- Füge sparsam Regieanweisungen in Klammern ein, um Emotion anzudeuten, z. B.:
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.
Probiere kleine Änderungen aus und führe den Befehl erneut aus, um zu hören, wie sich Tonfall und Tempo verändern.
5. Den Gesprächsfluss iterativ verbessern
Für bessere Ergebnisse mit dialogue-audio:
- Entwirf das komplette Gespräch zunächst in einem Texteditor
- Achte darauf, dass alle Zeilen korrekt getaggt sind und keine falschen Tags vorkommen
- Halte Sprecherbeiträge prägnant; lange Monologe klingen weniger dialogisch
- Teile komplexe Szenen bei Bedarf in mehrere Generationen auf und setze sie anschließend im Editor zusammen
Du kannst schnell iterieren, indem du den Prompt anpasst und den infsh app run falai/dia-tts Befehl erneut ausführst, bis Timing und emotionale Wirkung zu deinem Projekt passen.
6. Postproduktion und Integration
Der Output von Dia TTS ist eine Audiodatei, die du in deine üblichen Tools importieren kannst. Das dialogue-audio Skill konzentriert sich auf die Stimmenerzeugung, nicht auf vollständiges Mixing, aber du kannst:
- Den generierten Dialog in eine DAW importieren (z. B. Audacity, Reaper, Logic Pro)
- Hintergrundmusik, Soundeffekte oder Raumklang hinzufügen
- Lautstärke, EQ und Kompression an dein Gesamtprojekt anpassen
- Die Dialogspur mit Video in Editoren wie Premiere Pro, Final Cut oder DaVinci Resolve synchronisieren
So wird dialogue-audio zu einem soliden Baustein in einem größeren Audio- oder Videoworkflow: Erzeuge die zentrale Multi-Speaker-Performance und verfeinere sie anschließend mit deinen gewohnten Tools.
7. Wichtige Dateien im Repository
Nach der Installation kannst du dir die Skill-Definition im inferen-sh/skills Repo ansehen, um mehr Kontext zu bekommen:
SKILL.md— Hauptbeschreibung, Quickstart und Hinweise zur Nutzung des dialogue-audio Workflows
Nutze diese Dateien als Referenz, wenn du das Setup an eigene Automatisierungen oder CI-Pipelines anpasst.
FAQ
Ist dialogue-audio auf nur zwei Sprecher:innen beschränkt?
Ja. Das dialogue-audio Skill ist über Dia TTS für maximal zwei Sprecher:innen pro Generation ausgelegt, gesteuert über die Tags [S1] und [S2]. Wenn deine Szene mehr Charaktere hat, kannst du entweder:
- die Generierung jeweils auf zwei Figuren fokussieren oder
- das Skript in mehrere Dialogsegmente aufteilen und diese in der Postproduktion kombinieren.
Brauche ich die inference.sh CLI, um dialogue-audio zu nutzen?
Ja. Das dialogue-audio Skill basiert auf der inference.sh CLI (infsh). Du musst sie installieren, infsh login ausführen und dann infsh app run falai/dia-tts mit deinen Prompts aufrufen. Ohne infsh ist die zugrunde liegende Dia TTS App in diesem Workflow nicht erreichbar.
Kann ich für jede Sprecherrolle bestimmte ElevenLabs-Stimmen auswählen?
Laut Repository-Dokumentation werden Stimmen automatisch pro Sprecher zugewiesen: [S1] wird einer Stimme zugeordnet, [S2] einer anderen; diese bleiben innerhalb einer Session konsistent. Das Skill beschreibt keine direkte, manuelle Stimmauswahl pro Sprecher, daher solltest du die Stimmenauswahl als Teil der Dia TTS / inference.sh Konfiguration betrachten – nicht als etwas, das du über explizite IDs im Prompt steuerst.
Wie steuere ich Emotion oder Intensität im Dialog?
Das dialogue-audio Skill setzt auf Prompt-Design und Zeichensetzung statt auf explizite Emotionsregler. Du kannst:
- Ausdrückliche Formulierungen verwenden (z. B. "shouted", "whispered", "nervously")
- Zeichensetzung (
...,!,?) anpassen, um Pausenlänge und Betonung zu beeinflussen - Kurze Hinweise in Klammern ergänzen, etwa
(whispering)oder(frustrated), wenn nötig
Erzeuge kleine Varianten, um zu hören, wie das Modell reagiert, und finde einen Stil, der zu deinem Projekt passt.
Eignet sich dialogue-audio für lange Hörbücher?
Ja, für dialoglastige Passagen mit zwei Sprecher:innen kann dialogue-audio sehr gut funktionieren. Für sehr lange Inhalte solltest du:
- Das Skript in logische Szenen oder Kapitel aufteilen
- Audio in Segmenten generieren und in deiner DAW organisieren
- Auf konsistente Tags und Tonalität über alle Segmente hinweg achten
Wenn dein Hörbuch viele Sprecher:innen oder komplexe Erzählstimmen hat, brauchst du möglicherweise zusätzliche TTS-Setups über dieses Zwei-Sprecher-Skill hinaus.
Kann ich dialogue-audio in einen größeren Workflow automatisieren?
Ja. Da dialogue-audio auf der infsh CLI basiert, eignet es sich gut für skript- oder automatisierungsbasierte Umgebungen:
- Integriere
infsh app run falai/dia-ttsin Shell-Skripte - Starte Generierungen aus CI/CD-Pipelines oder zeitgesteuerten Jobs
- Kombiniere es mit anderen Skills aus
inferen-sh/skillsfür größere Content-Pipelines
Das Skill ist besonders nützlich für Developer und technisch versierte Nutzer:innen, die reproduzierbare, textgetriebene Audioerzeugung wollen.
Wann ist dialogue-audio nicht die richtige Wahl?
Ziehe andere Optionen in Betracht, wenn du:
- Mehr als zwei unterschiedliche Stimmen in einem Durchlauf brauchst
- Einen reinen GUI-Workflow bevorzugst und nicht mit der Kommandozeile arbeiten möchtest
- Automatisches Mixing, Musik oder SFX erwartest statt reiner Dialoggenerierung
In solchen Fällen kannst du spezialisierte Audiotools oder Multi-Speaker-TTS-Services mit deiner DAW kombinieren und dialogue-audio nur dort einsetzen, wo ein klarer Zwei-Sprecher-Dialog im Mittelpunkt steht.
Wo finde ich die komplette Konfiguration?
Öffne den dialogue-audio Bereich im inferen-sh/skills Repository:
- Repo:
https://github.com/inferen-sh/skills - Skill-Pfad:
tools/audio/dialogue-audio
Beginne mit SKILL.md, um die beabsichtigte Nutzung und eventuell aktualisierte Hinweise zur Dia TTS Integration und zu den CLI-Kommandos zu verstehen.
