I

dialogue-audio

par inferen-sh

Générez un audio de dialogue réaliste avec plusieurs interlocuteurs grâce à Dia TTS et ElevenLabs via la CLI inference.sh. La skill dialogue-audio vous aide à contrôler les voix, l’émotion, le rythme et le déroulé de la conversation pour des podcasts, livres audio, contenus explicatifs, scènes de personnages et autres formats conversationnels.

Étoiles0
Favoris0
Commentaires0
Ajouté27 mars 2026
CatégorieVoice Generation
Commande d’installation
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
Vue d’ensemble

Vue d’ensemble

Ce que fait la skill dialogue-audio

La skill dialogue-audio transforme un dialogue écrit en audio naturel à plusieurs voix en utilisant Dia TTS via la CLI inference.sh (infsh), avec en coulisse des voix de qualité ElevenLabs.

Elle est conçue pour :

  • Des conversations entre deux personnages
  • Des dialogues et interviews de type podcast
  • Des scènes de livres audio avec alternance de narrateurs
  • Des contenus explicatifs avec formats hôte/invité
  • Des dialogues de personnages et prototypes de voix/off

La skill se concentre sur :

  • La séparation des interlocuteurs grâce à des tags simples comme [S1] et [S2]
  • Des voix cohérentes par interlocuteur pendant une session
  • Le contrôle de l’émotion et de l’expression via le choix des mots et la ponctuation
  • Le rythme et le flux de la conversation
  • Des recommandations de post-production pour intégrer l’audio dans votre workflow média

Si vous cherchez un moyen automatisé de transformer un script à deux voix en dialogue audio soigné depuis la ligne de commande, dialogue-audio est conçu pour cet usage.

À qui s’adresse cette skill ?

Cette skill est particulièrement adaptée si vous êtes :

  • Un podcasteur qui veut préparer ou simuler des conversations
  • Un producteur audio ou monteur vidéo qui ajoute des pistes voix à des timelines
  • Un auteur ou scénariste qui écrit des scènes très dialoguées
  • Un développeur ou créateur orienté automatisation qui préfère la CLI et les workflows reproductibles

Elle n’est pas idéale si vous avez besoin :

  • De plus de deux interlocuteurs distincts dans une même génération
  • D’un habillage sonore complexe, de musique ou de mixage gérés automatiquement
  • D’une interface graphique point‑and‑click au lieu d’un outil en ligne de commande

Pour ces besoins, il est préférable d’utiliser des outils de type DAW supplémentaires ou des services TTS multi‑interlocuteurs, puis de réserver dialogue-audio à la piste centrale de dialogue à deux voix.

Prérequis en un coup d’œil

Pour utiliser dialogue-audio efficacement, vous aurez besoin :

  • D’un accès à la CLI inference.sh (infsh)
  • D’un terminal ou environnement en ligne de commande (macOS, Linux, ou Windows avec un shell)
  • D’une connaissance de base de l’édition de prompts texte et de l’exécution de commandes CLI

Guide d’utilisation

1. Installer la skill dialogue-audio

Vous pouvez ajouter la skill dialogue-audio à votre environnement Agent avec npx :

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Cette commande récupère la configuration dialogue-audio depuis le dépôt inferen-sh/skills et la rend disponible comme workflow réutilisable.

Ensuite, assurez-vous d’avoir installé la CLI inference.sh (infsh). Suivez les instructions officielles :

  • Instructions d’installation de la CLI : https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Une fois installée, authentifiez-vous :

infsh login

2. Comprendre le workflow de base

Au cœur, dialogue-audio utilise l’app Dia TTS via infsh :

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Cette commande :

  • Appelle l’app falai/dia-tts
  • Envoie une charge utile JSON contenant un prompt
  • Utilise les tags [S1] et [S2] pour marquer les tours de parole
  • Renvoie un audio de dialogue généré pour l’échange complet

La skill dialogue-audio encapsule ce schéma dans un workflow structuré, pour vous aider à organiser vos prompts, gérer proprement deux interlocuteurs et itérer sur l’expression et le rythme.

3. Bien utiliser les tags d’interlocuteur

Dia TTS s’appuie sur des tags d’interlocuteur pour savoir qui parle :

  • [S1] — Interlocuteur 1 (voix A assignée automatiquement)
  • [S2] — Interlocuteur 2 (voix B assignée automatiquement)

Règles clés :

  • Commencez toujours chaque réplique par le tag approprié
  • Les tags doivent être en majuscules : [S1], [S2] (pas [s1] ni [speaker1])
  • Maximum de 2 interlocuteurs par génération
  • Chaque interlocuteur conserve une voix cohérente tout au long d’une session

Exemple de prompt propre à deux interlocuteurs :

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Façonner l’émotion, le ton et le rythme

La skill dialogue-audio vous encourage à utiliser des indices d’écriture naturels pour influencer l’audio généré :

  • Utilisez la ponctuation (virgules, points de suspension, points d’exclamation) pour modeler les pauses et l’emphase
  • Privilégiez des phrases courtes pour un dialogue plus rapide et dynamique
  • Optez pour des phrases plus longues ou un langage descriptif pour un ton plus calme et réfléchi
  • Ajoutez avec parcimonie des indications de jeu entre parenthèses pour suggérer une émotion, par exemple :
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Testez de petits ajustements et relancez la commande pour entendre comment le ton et le rythme évoluent.

5. Itérer sur le déroulé de la conversation

Pour de meilleurs résultats avec dialogue-audio :

  • Rédigez l’intégralité de la conversation dans un éditeur de texte
  • Vérifiez que toutes les répliques sont correctement taguées et qu’il n’y a pas de tags erronés
  • Gardez les tours de parole concises ; de longs monologues sonnent moins naturels
  • Scindez les scènes complexes en plusieurs générations si nécessaire, puis assemblez-les dans votre éditeur

Vous pouvez itérer rapidement en ajustant le prompt et en relançant la commande infsh app run falai/dia-tts jusqu’à ce que le timing et la couleur émotionnelle correspondent à votre projet.

6. Post-production et intégration

La sortie de Dia TTS est un fichier audio que vous pouvez importer dans vos outils habituels. La skill dialogue-audio se concentre sur la génération de voix, pas sur le mixage complet, mais vous pouvez :

  • Importer le dialogue généré dans un DAW (par ex. Audacity, Reaper, Logic Pro)
  • Ajouter de la musique de fond, des effets sonores ou un bruit de salle
  • Ajuster les niveaux, l’EQ et la compression pour s’aligner sur votre production globale
  • Synchroniser la piste dialogue avec la vidéo dans des monteurs comme Premiere Pro, Final Cut ou DaVinci Resolve

dialogue-audio devient ainsi un bon bloc de base dans un workflow audio ou vidéo plus large : générez la prestation multi‑interlocuteurs principale, puis peaufinez-la avec vos outils habituels.

7. Fichiers à consulter dans le dépôt

Après l’installation, vous pouvez examiner la définition de la skill dans le dépôt inferen-sh/skills pour davantage de contexte :

  • SKILL.md — Description principale, démarrage rapide et notes d’usage pour le workflow dialogue-audio

Servez-vous-en comme référence pour adapter la configuration à vos propres automatisations ou pipelines CI.


FAQ

dialogue-audio est-elle limitée à seulement deux interlocuteurs ?

Oui. La skill dialogue-audio, via Dia TTS, est conçue pour jusqu’à deux interlocuteurs par génération, en utilisant les tags [S1] et [S2]. Si votre scène comporte plus de personnages, vous pouvez soit :

  • Concentrer la génération sur deux personnages à la fois, soit
  • Découper le script en plusieurs segments de dialogue et les recomposer en post-production.

Ai-je besoin de la CLI inference.sh pour utiliser dialogue-audio ?

Oui. La skill dialogue-audio dépend de la CLI inference.sh (infsh). Vous devez l’installer, exécuter infsh login, puis appeler infsh app run falai/dia-tts avec vos prompts. Sans infsh, l’app Dia TTS sous‑jacente n’est pas accessible depuis ce workflow.

Puis-je choisir des voix ElevenLabs spécifiques pour chaque interlocuteur ?

La documentation du dépôt indique que les voix sont assignées automatiquement par interlocuteur : [S1] est associé à une voix et [S2] à une autre, de manière cohérente au sein d’une session. La skill ne documente pas de sélection manuelle de voix par interlocuteur, donc considérez que le choix des voix est géré par la configuration Dia TTS / inference.sh plutôt que par des IDs explicites dans votre prompt.

Comment contrôler l’émotion ou l’intensité du dialogue ?

La skill dialogue-audio repose sur le design du prompt et la ponctuation plutôt que sur des curseurs d’émotion explicites. Vous pouvez :

  • Utiliser un vocabulaire expressif (par ex. « shouted », « whispered », « nervously »)
  • Ajuster la ponctuation (..., !, ?) pour influencer la durée des pauses et l’emphase
  • Ajouter de brèves indications entre parenthèses comme (whispering) ou (frustrated) lorsque nécessaire

Testez de petites variantes pour entendre la réponse du modèle et stabiliser un style qui convient à votre projet.

dialogue-audio convient-elle aux livres audio longs ?

Oui, pour les sections très dialoguées à deux voix, dialogue-audio peut très bien fonctionner. Pour des contenus très longs :

  • Découpez le script en scènes ou chapitres logiques
  • Générez l’audio par segments et organisez-les dans votre DAW
  • Veillez à la cohérence des tags et du ton d’un segment à l’autre

Si votre livre audio comporte de nombreux narrateurs ou des styles de narration complexes, vous aurez peut-être besoin de configurations TTS supplémentaires en complément de cette skill centrée sur deux interlocuteurs.

Puis-je automatiser dialogue-audio dans un workflow plus large ?

Oui. Parce que dialogue-audio est construit autour de la CLI infsh, elle s’intègre bien dans des environnements scriptés ou automatisés :

  • Intégrez les commandes infsh app run falai/dia-tts dans des scripts shell
  • Lancez des générations depuis des pipelines CI/CD ou des tâches planifiées
  • Combinez-la avec d’autres skills de inferen-sh/skills pour des pipelines de contenu plus complets

La skill est particulièrement utile pour les développeurs et profils techniques qui veulent une génération audio reproductible et pilotée par le texte.

Dans quels cas dialogue-audio n’est-elle pas adaptée ?

Envisagez d’autres options si vous :

  • Avez besoin de plus de deux voix distinctes en une seule passe
  • Préférez un workflow 100 % GUI sans ligne de commande
  • Souhaitez un mixage automatique, de la musique ou des SFX plutôt que la seule génération de dialogue

Dans ces situations, associez des outils audio dédiés ou des services TTS multi‑interlocuteurs à votre DAW, et utilisez dialogue-audio uniquement lorsque vous avez besoin d’une conversation propre à deux voix comme base.

Où puis-je voir la configuration complète ?

Ouvrez la section dialogue-audio dans le dépôt inferen-sh/skills :

  • Repo : https://github.com/inferen-sh/skills
  • Chemin de la skill : tools/audio/dialogue-audio

Commencez par SKILL.md pour comprendre l’usage prévu et prendre connaissance de toute mise à jour concernant l’intégration Dia TTS et les commandes CLI.

Notes et avis

Aucune note pour le moment
Partagez votre avis
Connectez-vous pour laisser une note et un commentaire sur cet outil.
G
0/10000
Derniers avis
Enregistrement...