I

dialogue-audio

von inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Stars0
Favoriten0
Kommentare0
Hinzugefügt27. März 2026
KategorieVoice Generation
Installationsbefehl
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
Überblick

Überblick

Was das dialogue-audio Skill macht

Das dialogue-audio Skill verwandelt geschriebenen Dialog in natürlich klingendes Multi-Speaker-Audio mit Dia TTS über die inference.sh (infsh) CLI – inklusive Unterstützung für ElevenLabs-ähnliche Stimmen im Hintergrund.

Es ist ausgelegt für:

  • Dialoge mit zwei Charakteren
  • Podcast-ähnliche Gespräche und Interviews
  • Hörbuchszenen mit abwechselnden Sprecher:innen
  • Erklärinhalte im Host/Gast-Format
  • Charakterdialoge und Prototypen für Voice Acting

Der Fokus des Skills liegt auf:

  • Trennung der Sprecher mit einfachen Tags wie [S1] und [S2]
  • Konstanten Stimmen pro Sprecher innerhalb einer Session
  • Steuerung von Emotion und Ausdruck über Wortwahl und Zeichensetzung
  • Tempo und Gesprächsfluss in Hin-und-her-Dialogen
  • Hinweisen zur Postproduktion, um das Audio in deinen Medien-Workflow einzubinden

Wenn du ein automatisiertes Vorgehen suchst, um ein Skript für zwei Personen direkt aus der Kommandozeile in fertig produziertes Dialog-Audio zu verwandeln, ist dialogue-audio genau dafür gebaut.

Für wen dieses Skill gedacht ist

Dieses Skill passt gut zu dir, wenn du:

  • Podcaster:in bist und Gespräche entwerfen oder simulieren möchtest
  • Audio-Producer oder Video-Editor bist und Sprachspuren in Timelines einfügst
  • Autor:in oder Drehbuchschreiber:in bist und dialoglastige Szenen entwickelst
  • Developer oder Automation-orientierte Creator bist, die/der CLI und reproduzierbare Workflows bevorzugt

Es ist nicht ideal, wenn du brauchst:

  • Mehr als zwei unterschiedliche Sprecher:innen in einer einzelnen Generation
  • Komplexes Sounddesign, Musik oder Mixing, das automatisch erledigt wird
  • Eine Point-and-Click-GUI statt eines Command-Line-Tools

Für diese Anforderungen solltest du zusätzliche DAW-Tools oder Multi-Speaker-TTS-Services in Betracht ziehen und dialogue-audio für die zentrale Zwei-Stimmen-Dialogspur einsetzen.

Anforderungen im Überblick

Um dialogue-audio effektiv zu nutzen, benötigst du:

  • Zugriff auf die inference.sh CLI (infsh)
  • Eine Terminal- bzw. Kommandozeilen-Umgebung (macOS, Linux oder Windows mit Shell)
  • Grundlegende Erfahrung im Bearbeiten von Text-Prompts und Ausführen von CLI-Commands

Verwendung

1. dialogue-audio Skill installieren

Du kannst das dialogue-audio Skill mit npx in deine Agent-Umgebung einbinden:

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Damit wird die dialogue-audio Konfiguration aus dem inferen-sh/skills Repository geladen und als wiederverwendbarer Workflow verfügbar gemacht.

Stelle anschließend sicher, dass die inference.sh CLI (infsh) installiert ist. Folge dazu den offiziellen Anweisungen:

  • CLI Installationsanleitung: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Nach der Installation meldest du dich an:

infsh login

2. Den Kern-Workflow verstehen

Im Kern nutzt dialogue-audio die Dia TTS App über infsh:

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Dieser Befehl:

  • Ruft die falai/dia-tts App auf
  • Sendet ein JSON-Input-Payload mit einem prompt
  • Nutzt [S1] und [S2] Tags, um Sprecherwechsel zu markieren
  • Liefert generiertes Dialog-Audio für den gesamten Austausch

Das dialogue-audio Skill kapselt dieses Muster in einen klar definierten Workflow, der dir hilft, Prompts zu strukturieren, zwei Sprecher sauber zu handhaben und Ausdruck sowie Tempo iterativ zu verfeinern.

3. Sprecher-Tags richtig verwenden

Dia TTS nutzt Sprecher-Tags, um zu erkennen, wer spricht:

  • [S1] — Sprecher 1 (automatisch Stimme A zugewiesen)
  • [S2] — Sprecher 2 (automatisch Stimme B zugewiesen)

Wichtige Regeln:

  • Jeden Sprecherbeitrag immer mit dem passenden Tag beginnen
  • Tags müssen großgeschrieben werden: [S1], [S2] (nicht [s1] oder [speaker1])
  • Maximal 2 Sprecher:innen pro Generation
  • Jede Rolle behält innerhalb einer Session eine konstante Stimme

Beispiel für einen sauberen Zwei-Sprecher-Prompt:

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Emotion, Tonfall und Tempo gestalten

Das dialogue-audio Skill ermutigt dich, natürliche Schreibsignale einzusetzen, um das erzeugte Audio zu beeinflussen:

  • Nutze Zeichensetzung (Kommas, Auslassungspunkte, Ausrufezeichen), um Pausen und Betonung zu steuern
  • Nutze kürzere Sätze für schnellen, pointierten Dialog
  • Nutze längere Sätze oder beschreibende Sprache für eine ruhigere, reflektiertere Wiedergabe
  • Füge sparsam Regieanweisungen in Klammern ein, um Emotion anzudeuten, z. B.:
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Probiere kleine Änderungen aus und führe den Befehl erneut aus, um zu hören, wie sich Tonfall und Tempo verändern.

5. Den Gesprächsfluss iterativ verbessern

Für bessere Ergebnisse mit dialogue-audio:

  • Entwirf das komplette Gespräch zunächst in einem Texteditor
  • Achte darauf, dass alle Zeilen korrekt getaggt sind und keine falschen Tags vorkommen
  • Halte Sprecherbeiträge prägnant; lange Monologe klingen weniger dialogisch
  • Teile komplexe Szenen bei Bedarf in mehrere Generationen auf und setze sie anschließend im Editor zusammen

Du kannst schnell iterieren, indem du den Prompt anpasst und den infsh app run falai/dia-tts Befehl erneut ausführst, bis Timing und emotionale Wirkung zu deinem Projekt passen.

6. Postproduktion und Integration

Der Output von Dia TTS ist eine Audiodatei, die du in deine üblichen Tools importieren kannst. Das dialogue-audio Skill konzentriert sich auf die Stimmenerzeugung, nicht auf vollständiges Mixing, aber du kannst:

  • Den generierten Dialog in eine DAW importieren (z. B. Audacity, Reaper, Logic Pro)
  • Hintergrundmusik, Soundeffekte oder Raumklang hinzufügen
  • Lautstärke, EQ und Kompression an dein Gesamtprojekt anpassen
  • Die Dialogspur mit Video in Editoren wie Premiere Pro, Final Cut oder DaVinci Resolve synchronisieren

So wird dialogue-audio zu einem soliden Baustein in einem größeren Audio- oder Videoworkflow: Erzeuge die zentrale Multi-Speaker-Performance und verfeinere sie anschließend mit deinen gewohnten Tools.

7. Wichtige Dateien im Repository

Nach der Installation kannst du dir die Skill-Definition im inferen-sh/skills Repo ansehen, um mehr Kontext zu bekommen:

  • SKILL.md — Hauptbeschreibung, Quickstart und Hinweise zur Nutzung des dialogue-audio Workflows

Nutze diese Dateien als Referenz, wenn du das Setup an eigene Automatisierungen oder CI-Pipelines anpasst.


FAQ

Ist dialogue-audio auf nur zwei Sprecher:innen beschränkt?

Ja. Das dialogue-audio Skill ist über Dia TTS für maximal zwei Sprecher:innen pro Generation ausgelegt, gesteuert über die Tags [S1] und [S2]. Wenn deine Szene mehr Charaktere hat, kannst du entweder:

  • die Generierung jeweils auf zwei Figuren fokussieren oder
  • das Skript in mehrere Dialogsegmente aufteilen und diese in der Postproduktion kombinieren.

Brauche ich die inference.sh CLI, um dialogue-audio zu nutzen?

Ja. Das dialogue-audio Skill basiert auf der inference.sh CLI (infsh). Du musst sie installieren, infsh login ausführen und dann infsh app run falai/dia-tts mit deinen Prompts aufrufen. Ohne infsh ist die zugrunde liegende Dia TTS App in diesem Workflow nicht erreichbar.

Kann ich für jede Sprecherrolle bestimmte ElevenLabs-Stimmen auswählen?

Laut Repository-Dokumentation werden Stimmen automatisch pro Sprecher zugewiesen: [S1] wird einer Stimme zugeordnet, [S2] einer anderen; diese bleiben innerhalb einer Session konsistent. Das Skill beschreibt keine direkte, manuelle Stimmauswahl pro Sprecher, daher solltest du die Stimmenauswahl als Teil der Dia TTS / inference.sh Konfiguration betrachten – nicht als etwas, das du über explizite IDs im Prompt steuerst.

Wie steuere ich Emotion oder Intensität im Dialog?

Das dialogue-audio Skill setzt auf Prompt-Design und Zeichensetzung statt auf explizite Emotionsregler. Du kannst:

  • Ausdrückliche Formulierungen verwenden (z. B. "shouted", "whispered", "nervously")
  • Zeichensetzung (..., !, ?) anpassen, um Pausenlänge und Betonung zu beeinflussen
  • Kurze Hinweise in Klammern ergänzen, etwa (whispering) oder (frustrated), wenn nötig

Erzeuge kleine Varianten, um zu hören, wie das Modell reagiert, und finde einen Stil, der zu deinem Projekt passt.

Eignet sich dialogue-audio für lange Hörbücher?

Ja, für dialoglastige Passagen mit zwei Sprecher:innen kann dialogue-audio sehr gut funktionieren. Für sehr lange Inhalte solltest du:

  • Das Skript in logische Szenen oder Kapitel aufteilen
  • Audio in Segmenten generieren und in deiner DAW organisieren
  • Auf konsistente Tags und Tonalität über alle Segmente hinweg achten

Wenn dein Hörbuch viele Sprecher:innen oder komplexe Erzählstimmen hat, brauchst du möglicherweise zusätzliche TTS-Setups über dieses Zwei-Sprecher-Skill hinaus.

Kann ich dialogue-audio in einen größeren Workflow automatisieren?

Ja. Da dialogue-audio auf der infsh CLI basiert, eignet es sich gut für skript- oder automatisierungsbasierte Umgebungen:

  • Integriere infsh app run falai/dia-tts in Shell-Skripte
  • Starte Generierungen aus CI/CD-Pipelines oder zeitgesteuerten Jobs
  • Kombiniere es mit anderen Skills aus inferen-sh/skills für größere Content-Pipelines

Das Skill ist besonders nützlich für Developer und technisch versierte Nutzer:innen, die reproduzierbare, textgetriebene Audioerzeugung wollen.

Wann ist dialogue-audio nicht die richtige Wahl?

Ziehe andere Optionen in Betracht, wenn du:

  • Mehr als zwei unterschiedliche Stimmen in einem Durchlauf brauchst
  • Einen reinen GUI-Workflow bevorzugst und nicht mit der Kommandozeile arbeiten möchtest
  • Automatisches Mixing, Musik oder SFX erwartest statt reiner Dialoggenerierung

In solchen Fällen kannst du spezialisierte Audiotools oder Multi-Speaker-TTS-Services mit deiner DAW kombinieren und dialogue-audio nur dort einsetzen, wo ein klarer Zwei-Sprecher-Dialog im Mittelpunkt steht.

Wo finde ich die komplette Konfiguration?

Öffne den dialogue-audio Bereich im inferen-sh/skills Repository:

  • Repo: https://github.com/inferen-sh/skills
  • Skill-Pfad: tools/audio/dialogue-audio

Beginne mit SKILL.md, um die beabsichtigte Nutzung und eventuell aktualisierte Hinweise zur Dia TTS Integration und zu den CLI-Kommandos zu verstehen.

Bewertungen & Rezensionen

Noch keine Bewertungen
Teile deine Rezension
Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.
G
0/10000
Neueste Rezensionen
Wird gespeichert...