dialogue-audio

von inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Stars0

Favoriten0

Kommentare0

Hinzugefügt27. März 2026

KategorieVoice Generation

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Audio Video Workflow Cli

Überblick

Was das dialogue-audio Skill macht

Das dialogue-audio Skill verwandelt geschriebenen Dialog in natürlich klingendes Multi-Speaker-Audio mit Dia TTS über die inference.sh (infsh) CLI – inklusive Unterstützung für ElevenLabs-ähnliche Stimmen im Hintergrund.

Es ist ausgelegt für:

Dialoge mit zwei Charakteren
Podcast-ähnliche Gespräche und Interviews
Hörbuchszenen mit abwechselnden Sprecher:innen
Erklärinhalte im Host/Gast-Format
Charakterdialoge und Prototypen für Voice Acting

Der Fokus des Skills liegt auf:

Trennung der Sprecher mit einfachen Tags wie [S1] und [S2]
Konstanten Stimmen pro Sprecher innerhalb einer Session
Steuerung von Emotion und Ausdruck über Wortwahl und Zeichensetzung
Tempo und Gesprächsfluss in Hin-und-her-Dialogen
Hinweisen zur Postproduktion, um das Audio in deinen Medien-Workflow einzubinden

Wenn du ein automatisiertes Vorgehen suchst, um ein Skript für zwei Personen direkt aus der Kommandozeile in fertig produziertes Dialog-Audio zu verwandeln, ist dialogue-audio genau dafür gebaut.

Für wen dieses Skill gedacht ist

Dieses Skill passt gut zu dir, wenn du:

Podcaster:in bist und Gespräche entwerfen oder simulieren möchtest
Audio-Producer oder Video-Editor bist und Sprachspuren in Timelines einfügst
Autor:in oder Drehbuchschreiber:in bist und dialoglastige Szenen entwickelst
Developer oder Automation-orientierte Creator bist, die/der CLI und reproduzierbare Workflows bevorzugt

Es ist nicht ideal, wenn du brauchst:

Mehr als zwei unterschiedliche Sprecher:innen in einer einzelnen Generation
Komplexes Sounddesign, Musik oder Mixing, das automatisch erledigt wird
Eine Point-and-Click-GUI statt eines Command-Line-Tools

Für diese Anforderungen solltest du zusätzliche DAW-Tools oder Multi-Speaker-TTS-Services in Betracht ziehen und dialogue-audio für die zentrale Zwei-Stimmen-Dialogspur einsetzen.

Anforderungen im Überblick

Um dialogue-audio effektiv zu nutzen, benötigst du:

Zugriff auf die inference.sh CLI (infsh)
Eine Terminal- bzw. Kommandozeilen-Umgebung (macOS, Linux oder Windows mit Shell)
Grundlegende Erfahrung im Bearbeiten von Text-Prompts und Ausführen von CLI-Commands

Verwendung

1. dialogue-audio Skill installieren

Du kannst das dialogue-audio Skill mit npx in deine Agent-Umgebung einbinden:

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Damit wird die dialogue-audio Konfiguration aus dem inferen-sh/skills Repository geladen und als wiederverwendbarer Workflow verfügbar gemacht.

Stelle anschließend sicher, dass die inference.sh CLI (infsh) installiert ist. Folge dazu den offiziellen Anweisungen:

CLI Installationsanleitung: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Nach der Installation meldest du dich an:

infsh login

2. Den Kern-Workflow verstehen

Im Kern nutzt dialogue-audio die Dia TTS App über infsh:

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Dieser Befehl:

Ruft die falai/dia-tts App auf
Sendet ein JSON-Input-Payload mit einem prompt
Nutzt [S1] und [S2] Tags, um Sprecherwechsel zu markieren
Liefert generiertes Dialog-Audio für den gesamten Austausch

Das dialogue-audio Skill kapselt dieses Muster in einen klar definierten Workflow, der dir hilft, Prompts zu strukturieren, zwei Sprecher sauber zu handhaben und Ausdruck sowie Tempo iterativ zu verfeinern.

3. Sprecher-Tags richtig verwenden

Dia TTS nutzt Sprecher-Tags, um zu erkennen, wer spricht:

[S1] — Sprecher 1 (automatisch Stimme A zugewiesen)
[S2] — Sprecher 2 (automatisch Stimme B zugewiesen)

Wichtige Regeln:

Jeden Sprecherbeitrag immer mit dem passenden Tag beginnen
Tags müssen großgeschrieben werden: [S1], [S2] (nicht [s1] oder [speaker1])
Maximal 2 Sprecher:innen pro Generation
Jede Rolle behält innerhalb einer Session eine konstante Stimme

Beispiel für einen sauberen Zwei-Sprecher-Prompt:

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Emotion, Tonfall und Tempo gestalten

Das dialogue-audio Skill ermutigt dich, natürliche Schreibsignale einzusetzen, um das erzeugte Audio zu beeinflussen:

Nutze Zeichensetzung (Kommas, Auslassungspunkte, Ausrufezeichen), um Pausen und Betonung zu steuern
Nutze kürzere Sätze für schnellen, pointierten Dialog
Nutze längere Sätze oder beschreibende Sprache für eine ruhigere, reflektiertere Wiedergabe
Füge sparsam Regieanweisungen in Klammern ein, um Emotion anzudeuten, z. B.:

[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Probiere kleine Änderungen aus und führe den Befehl erneut aus, um zu hören, wie sich Tonfall und Tempo verändern.

5. Den Gesprächsfluss iterativ verbessern

Für bessere Ergebnisse mit dialogue-audio:

Entwirf das komplette Gespräch zunächst in einem Texteditor
Achte darauf, dass alle Zeilen korrekt getaggt sind und keine falschen Tags vorkommen
Halte Sprecherbeiträge prägnant; lange Monologe klingen weniger dialogisch
Teile komplexe Szenen bei Bedarf in mehrere Generationen auf und setze sie anschließend im Editor zusammen

Du kannst schnell iterieren, indem du den Prompt anpasst und den infsh app run falai/dia-tts Befehl erneut ausführst, bis Timing und emotionale Wirkung zu deinem Projekt passen.

6. Postproduktion und Integration

Der Output von Dia TTS ist eine Audiodatei, die du in deine üblichen Tools importieren kannst. Das dialogue-audio Skill konzentriert sich auf die Stimmenerzeugung, nicht auf vollständiges Mixing, aber du kannst:

Den generierten Dialog in eine DAW importieren (z. B. Audacity, Reaper, Logic Pro)
Hintergrundmusik, Soundeffekte oder Raumklang hinzufügen
Lautstärke, EQ und Kompression an dein Gesamtprojekt anpassen
Die Dialogspur mit Video in Editoren wie Premiere Pro, Final Cut oder DaVinci Resolve synchronisieren

So wird dialogue-audio zu einem soliden Baustein in einem größeren Audio- oder Videoworkflow: Erzeuge die zentrale Multi-Speaker-Performance und verfeinere sie anschließend mit deinen gewohnten Tools.

7. Wichtige Dateien im Repository

Nach der Installation kannst du dir die Skill-Definition im inferen-sh/skills Repo ansehen, um mehr Kontext zu bekommen:

SKILL.md — Hauptbeschreibung, Quickstart und Hinweise zur Nutzung des dialogue-audio Workflows

Nutze diese Dateien als Referenz, wenn du das Setup an eigene Automatisierungen oder CI-Pipelines anpasst.

FAQ

Ist dialogue-audio auf nur zwei Sprecher:innen beschränkt?

Ja. Das dialogue-audio Skill ist über Dia TTS für maximal zwei Sprecher:innen pro Generation ausgelegt, gesteuert über die Tags [S1] und [S2]. Wenn deine Szene mehr Charaktere hat, kannst du entweder:

die Generierung jeweils auf zwei Figuren fokussieren oder
das Skript in mehrere Dialogsegmente aufteilen und diese in der Postproduktion kombinieren.

Brauche ich die inference.sh CLI, um dialogue-audio zu nutzen?

Ja. Das dialogue-audio Skill basiert auf der inference.sh CLI (infsh). Du musst sie installieren, infsh login ausführen und dann infsh app run falai/dia-tts mit deinen Prompts aufrufen. Ohne infsh ist die zugrunde liegende Dia TTS App in diesem Workflow nicht erreichbar.

Kann ich für jede Sprecherrolle bestimmte ElevenLabs-Stimmen auswählen?

Laut Repository-Dokumentation werden Stimmen automatisch pro Sprecher zugewiesen: [S1] wird einer Stimme zugeordnet, [S2] einer anderen; diese bleiben innerhalb einer Session konsistent. Das Skill beschreibt keine direkte, manuelle Stimmauswahl pro Sprecher, daher solltest du die Stimmenauswahl als Teil der Dia TTS / inference.sh Konfiguration betrachten – nicht als etwas, das du über explizite IDs im Prompt steuerst.

Wie steuere ich Emotion oder Intensität im Dialog?

Das dialogue-audio Skill setzt auf Prompt-Design und Zeichensetzung statt auf explizite Emotionsregler. Du kannst:

Ausdrückliche Formulierungen verwenden (z. B. "shouted", "whispered", "nervously")
Zeichensetzung (..., !, ?) anpassen, um Pausenlänge und Betonung zu beeinflussen
Kurze Hinweise in Klammern ergänzen, etwa (whispering) oder (frustrated), wenn nötig

Erzeuge kleine Varianten, um zu hören, wie das Modell reagiert, und finde einen Stil, der zu deinem Projekt passt.

Eignet sich dialogue-audio für lange Hörbücher?

Ja, für dialoglastige Passagen mit zwei Sprecher:innen kann dialogue-audio sehr gut funktionieren. Für sehr lange Inhalte solltest du:

Das Skript in logische Szenen oder Kapitel aufteilen
Audio in Segmenten generieren und in deiner DAW organisieren
Auf konsistente Tags und Tonalität über alle Segmente hinweg achten

Wenn dein Hörbuch viele Sprecher:innen oder komplexe Erzählstimmen hat, brauchst du möglicherweise zusätzliche TTS-Setups über dieses Zwei-Sprecher-Skill hinaus.

Kann ich dialogue-audio in einen größeren Workflow automatisieren?

Ja. Da dialogue-audio auf der infsh CLI basiert, eignet es sich gut für skript- oder automatisierungsbasierte Umgebungen:

Integriere infsh app run falai/dia-tts in Shell-Skripte
Starte Generierungen aus CI/CD-Pipelines oder zeitgesteuerten Jobs
Kombiniere es mit anderen Skills aus inferen-sh/skills für größere Content-Pipelines

Das Skill ist besonders nützlich für Developer und technisch versierte Nutzer:innen, die reproduzierbare, textgetriebene Audioerzeugung wollen.

Wann ist dialogue-audio nicht die richtige Wahl?

Ziehe andere Optionen in Betracht, wenn du:

Mehr als zwei unterschiedliche Stimmen in einem Durchlauf brauchst
Einen reinen GUI-Workflow bevorzugst und nicht mit der Kommandozeile arbeiten möchtest
Automatisches Mixing, Musik oder SFX erwartest statt reiner Dialoggenerierung

In solchen Fällen kannst du spezialisierte Audiotools oder Multi-Speaker-TTS-Services mit deiner DAW kombinieren und dialogue-audio nur dort einsetzen, wo ein klarer Zwei-Sprecher-Dialog im Mittelpunkt steht.

Wo finde ich die komplette Konfiguration?

Öffne den dialogue-audio Bereich im inferen-sh/skills Repository:

Repo: https://github.com/inferen-sh/skills
Skill-Pfad: tools/audio/dialogue-audio

Beginne mit SKILL.md, um die beabsichtigte Nutzung und eventuell aktualisierte Hinweise zur Dia TTS Integration und zu den CLI-Kommandos zu verstehen.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

onboard

by pbakaus

Erstellen und optimieren Sie Onboarding-Flows, leere Zustände und First-Run-Erlebnisse, um Nutzern schnell den Produktwert zu vermitteln. Ideal zur Verbesserung der Nutzeraktivierung und zur Begleitung von Erstnutzern.

UI/UX Design

Favorites 0GitHub 0

typeset

by pbakaus

typeset verbessert die Typografie, indem es Schriftarten, Hierarchie, Größen, Gewichtung und Lesbarkeit für bewusst gestalteten, polierten Text optimiert. Ideal für UI-Design-Projekte, die eine bessere Typostruktur und Klarheit benötigen.

UI Design

Favorites 0GitHub 0

audit-website

by squirrelscan

Umfassende Website-Audit-Funktion für SEO, Performance, Sicherheit und technische Probleme mit dem squirrelscan CLI. Führt über 230 Prüfregeln aus und liefert umsetzbare, LLM-optimierte Berichte mit Gesundheitswerten, defekten Links, Meta-Tag-Prüfungen und Empfehlungen. Ideal für Entwickler, SEO-Experten und Sicherheitsprüfer.

Security Audit

Favorites 0GitHub 0

cqrs-implementation

by wshobson

Implementieren Sie Command Query Responsibility Segregation (CQRS), um Lese- und Schreiboperationen für skalierbare Backend-Architekturen zu trennen. Ideal zur Optimierung von Abfragen, Unterstützung von Event Sourcing und Bewältigung komplexer Berichtanforderungen.

Backend Development

Favorites 0GitHub 32.410

simple

by roin-orca

Der simple Skill optimiert das Brainstorming vor kreativen oder architektonischen Arbeiten und hilft Teams, schnell von Ideen zu klaren Entscheidungen zu gelangen – ganz ohne unnötigen Prozessaufwand.

Skill Scaffolding

Favorites 0GitHub 0

email-and-password-best-practices

by better-auth

Konfigurieren Sie E-Mail-Verifizierung, Passwort-Zurücksetzungsabläufe, Passwort-Richtlinien und Hashing-Algorithmen für die Better Auth E-Mail/Passwort-Authentifizierung. Ideal für Backend-Teams, die eine sichere Anmeldung, Registrierung und Verwaltung von Zugangsdaten benötigen.

Backend Development

Favorites 0GitHub 0

bolder

by pbakaus

bolder verwandelt langweilige oder zu sichere UI-Designs in visuell ansprechende und einprägsame Erlebnisse, die die Wirkung steigern und gleichzeitig die Benutzerfreundlichkeit erhalten. Ideal, wenn Feedback nach mehr Persönlichkeit oder einer stärkeren visuellen Ausrichtung verlangt.

UI Design

Favorites 0GitHub 14.142

shellcheck-configuration

by wshobson

shellcheck-configuration unterstützt bei der Konfiguration und Nutzung von ShellCheck zur Überprüfung von Shell-Skripten, Fehlererkennung und Durchsetzung von Codequalität. Ideal für CI/CD, Code-Reviews und Skript-Migrationsprozesse.

Code Review

Favorites 0GitHub 0