dialogue-audio

par inferen-sh

Générez un audio de dialogue réaliste avec plusieurs interlocuteurs grâce à Dia TTS et ElevenLabs via la CLI inference.sh. La skill dialogue-audio vous aide à contrôler les voix, l’émotion, le rythme et le déroulé de la conversation pour des podcasts, livres audio, contenus explicatifs, scènes de personnages et autres formats conversationnels.

Étoiles0

Favoris0

Commentaires0

Ajouté27 mars 2026

CatégorieVoice Generation

Commande d’installation

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Audio Video Workflow Cli

Vue d’ensemble

Ce que fait la skill dialogue-audio

La skill dialogue-audio transforme un dialogue écrit en audio naturel à plusieurs voix en utilisant Dia TTS via la CLI inference.sh (infsh), avec en coulisse des voix de qualité ElevenLabs.

Elle est conçue pour :

Des conversations entre deux personnages
Des dialogues et interviews de type podcast
Des scènes de livres audio avec alternance de narrateurs
Des contenus explicatifs avec formats hôte/invité
Des dialogues de personnages et prototypes de voix/off

La skill se concentre sur :

La séparation des interlocuteurs grâce à des tags simples comme [S1] et [S2]
Des voix cohérentes par interlocuteur pendant une session
Le contrôle de l’émotion et de l’expression via le choix des mots et la ponctuation
Le rythme et le flux de la conversation
Des recommandations de post-production pour intégrer l’audio dans votre workflow média

Si vous cherchez un moyen automatisé de transformer un script à deux voix en dialogue audio soigné depuis la ligne de commande, dialogue-audio est conçu pour cet usage.

À qui s’adresse cette skill ?

Cette skill est particulièrement adaptée si vous êtes :

Un podcasteur qui veut préparer ou simuler des conversations
Un producteur audio ou monteur vidéo qui ajoute des pistes voix à des timelines
Un auteur ou scénariste qui écrit des scènes très dialoguées
Un développeur ou créateur orienté automatisation qui préfère la CLI et les workflows reproductibles

Elle n’est pas idéale si vous avez besoin :

De plus de deux interlocuteurs distincts dans une même génération
D’un habillage sonore complexe, de musique ou de mixage gérés automatiquement
D’une interface graphique point‑and‑click au lieu d’un outil en ligne de commande

Pour ces besoins, il est préférable d’utiliser des outils de type DAW supplémentaires ou des services TTS multi‑interlocuteurs, puis de réserver dialogue-audio à la piste centrale de dialogue à deux voix.

Prérequis en un coup d’œil

Pour utiliser dialogue-audio efficacement, vous aurez besoin :

D’un accès à la CLI inference.sh (infsh)
D’un terminal ou environnement en ligne de commande (macOS, Linux, ou Windows avec un shell)
D’une connaissance de base de l’édition de prompts texte et de l’exécution de commandes CLI

Guide d’utilisation

1. Installer la skill dialogue-audio

Vous pouvez ajouter la skill dialogue-audio à votre environnement Agent avec npx :

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Cette commande récupère la configuration dialogue-audio depuis le dépôt inferen-sh/skills et la rend disponible comme workflow réutilisable.

Ensuite, assurez-vous d’avoir installé la CLI inference.sh (infsh). Suivez les instructions officielles :

Instructions d’installation de la CLI : https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Une fois installée, authentifiez-vous :

infsh login

2. Comprendre le workflow de base

Au cœur, dialogue-audio utilise l’app Dia TTS via infsh :

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Cette commande :

Appelle l’app falai/dia-tts
Envoie une charge utile JSON contenant un prompt
Utilise les tags [S1] et [S2] pour marquer les tours de parole
Renvoie un audio de dialogue généré pour l’échange complet

La skill dialogue-audio encapsule ce schéma dans un workflow structuré, pour vous aider à organiser vos prompts, gérer proprement deux interlocuteurs et itérer sur l’expression et le rythme.

3. Bien utiliser les tags d’interlocuteur

Dia TTS s’appuie sur des tags d’interlocuteur pour savoir qui parle :

[S1] — Interlocuteur 1 (voix A assignée automatiquement)
[S2] — Interlocuteur 2 (voix B assignée automatiquement)

Règles clés :

Commencez toujours chaque réplique par le tag approprié
Les tags doivent être en majuscules : [S1], [S2] (pas [s1] ni [speaker1])
Maximum de 2 interlocuteurs par génération
Chaque interlocuteur conserve une voix cohérente tout au long d’une session

Exemple de prompt propre à deux interlocuteurs :

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Façonner l’émotion, le ton et le rythme

La skill dialogue-audio vous encourage à utiliser des indices d’écriture naturels pour influencer l’audio généré :

Utilisez la ponctuation (virgules, points de suspension, points d’exclamation) pour modeler les pauses et l’emphase
Privilégiez des phrases courtes pour un dialogue plus rapide et dynamique
Optez pour des phrases plus longues ou un langage descriptif pour un ton plus calme et réfléchi
Ajoutez avec parcimonie des indications de jeu entre parenthèses pour suggérer une émotion, par exemple :

[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Testez de petits ajustements et relancez la commande pour entendre comment le ton et le rythme évoluent.

5. Itérer sur le déroulé de la conversation

Pour de meilleurs résultats avec dialogue-audio :

Rédigez l’intégralité de la conversation dans un éditeur de texte
Vérifiez que toutes les répliques sont correctement taguées et qu’il n’y a pas de tags erronés
Gardez les tours de parole concises ; de longs monologues sonnent moins naturels
Scindez les scènes complexes en plusieurs générations si nécessaire, puis assemblez-les dans votre éditeur

Vous pouvez itérer rapidement en ajustant le prompt et en relançant la commande infsh app run falai/dia-tts jusqu’à ce que le timing et la couleur émotionnelle correspondent à votre projet.

6. Post-production et intégration

La sortie de Dia TTS est un fichier audio que vous pouvez importer dans vos outils habituels. La skill dialogue-audio se concentre sur la génération de voix, pas sur le mixage complet, mais vous pouvez :

Importer le dialogue généré dans un DAW (par ex. Audacity, Reaper, Logic Pro)
Ajouter de la musique de fond, des effets sonores ou un bruit de salle
Ajuster les niveaux, l’EQ et la compression pour s’aligner sur votre production globale
Synchroniser la piste dialogue avec la vidéo dans des monteurs comme Premiere Pro, Final Cut ou DaVinci Resolve

dialogue-audio devient ainsi un bon bloc de base dans un workflow audio ou vidéo plus large : générez la prestation multi‑interlocuteurs principale, puis peaufinez-la avec vos outils habituels.

7. Fichiers à consulter dans le dépôt

Après l’installation, vous pouvez examiner la définition de la skill dans le dépôt inferen-sh/skills pour davantage de contexte :

SKILL.md — Description principale, démarrage rapide et notes d’usage pour le workflow dialogue-audio

Servez-vous-en comme référence pour adapter la configuration à vos propres automatisations ou pipelines CI.

FAQ

dialogue-audio est-elle limitée à seulement deux interlocuteurs ?

Oui. La skill dialogue-audio, via Dia TTS, est conçue pour jusqu’à deux interlocuteurs par génération, en utilisant les tags [S1] et [S2]. Si votre scène comporte plus de personnages, vous pouvez soit :

Concentrer la génération sur deux personnages à la fois, soit
Découper le script en plusieurs segments de dialogue et les recomposer en post-production.

Ai-je besoin de la CLI inference.sh pour utiliser dialogue-audio ?

Oui. La skill dialogue-audio dépend de la CLI inference.sh (infsh). Vous devez l’installer, exécuter infsh login, puis appeler infsh app run falai/dia-tts avec vos prompts. Sans infsh, l’app Dia TTS sous‑jacente n’est pas accessible depuis ce workflow.

Puis-je choisir des voix ElevenLabs spécifiques pour chaque interlocuteur ?

La documentation du dépôt indique que les voix sont assignées automatiquement par interlocuteur : [S1] est associé à une voix et [S2] à une autre, de manière cohérente au sein d’une session. La skill ne documente pas de sélection manuelle de voix par interlocuteur, donc considérez que le choix des voix est géré par la configuration Dia TTS / inference.sh plutôt que par des IDs explicites dans votre prompt.

Comment contrôler l’émotion ou l’intensité du dialogue ?

La skill dialogue-audio repose sur le design du prompt et la ponctuation plutôt que sur des curseurs d’émotion explicites. Vous pouvez :

Utiliser un vocabulaire expressif (par ex. « shouted », « whispered », « nervously »)
Ajuster la ponctuation (..., !, ?) pour influencer la durée des pauses et l’emphase
Ajouter de brèves indications entre parenthèses comme (whispering) ou (frustrated) lorsque nécessaire

Testez de petites variantes pour entendre la réponse du modèle et stabiliser un style qui convient à votre projet.

dialogue-audio convient-elle aux livres audio longs ?

Oui, pour les sections très dialoguées à deux voix, dialogue-audio peut très bien fonctionner. Pour des contenus très longs :

Découpez le script en scènes ou chapitres logiques
Générez l’audio par segments et organisez-les dans votre DAW
Veillez à la cohérence des tags et du ton d’un segment à l’autre

Si votre livre audio comporte de nombreux narrateurs ou des styles de narration complexes, vous aurez peut-être besoin de configurations TTS supplémentaires en complément de cette skill centrée sur deux interlocuteurs.

Puis-je automatiser dialogue-audio dans un workflow plus large ?

Oui. Parce que dialogue-audio est construit autour de la CLI infsh, elle s’intègre bien dans des environnements scriptés ou automatisés :

Intégrez les commandes infsh app run falai/dia-tts dans des scripts shell
Lancez des générations depuis des pipelines CI/CD ou des tâches planifiées
Combinez-la avec d’autres skills de inferen-sh/skills pour des pipelines de contenu plus complets

La skill est particulièrement utile pour les développeurs et profils techniques qui veulent une génération audio reproductible et pilotée par le texte.

Dans quels cas dialogue-audio n’est-elle pas adaptée ?

Envisagez d’autres options si vous :

Avez besoin de plus de deux voix distinctes en une seule passe
Préférez un workflow 100 % GUI sans ligne de commande
Souhaitez un mixage automatique, de la musique ou des SFX plutôt que la seule génération de dialogue

Dans ces situations, associez des outils audio dédiés ou des services TTS multi‑interlocuteurs à votre DAW, et utilisez dialogue-audio uniquement lorsque vous avez besoin d’une conversation propre à deux voix comme base.

Où puis-je voir la configuration complète ?

Ouvrez la section dialogue-audio dans le dépôt inferen-sh/skills :

Repo : https://github.com/inferen-sh/skills
Chemin de la skill : tools/audio/dialogue-audio

Commencez par SKILL.md pour comprendre l’usage prévu et prendre connaissance de toute mise à jour concernant l’intégration Dia TTS et les commandes CLI.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

harden

by pbakaus

La compétence harden renforce la résilience des interfaces frontend en traitant la gestion des erreurs, l'internationalisation, le débordement de texte et la gestion des cas limites. Idéale pour les développeurs souhaitant rendre les interfaces utilisateur robustes et prêtes pour la production.

Frontend Development

Favorites 0GitHub 14,1 k

frontend-design

by pbakaus

Créez des interfaces frontend distinctives et prêtes pour la production avec une qualité de design élevée. Génère un code créatif et soigné qui évite l'esthétique générique de l'IA. À utiliser lorsque l'utilisateur demande de construire des composants web, pages, artefacts, affiches ou applications, ou lorsque toute compétence de design nécessite un contexte projet.

UI Design

Favorites 0GitHub 0

git-advanced-workflows

by wshobson

Maîtrisez les workflows Git avancés comme le rebasage, le cherry-picking, le bisect, les worktrees et le reflog pour des historiques propres et un dépannage efficace. Idéal pour gérer des dépôts Git complexes.

Git Workflows

Favorites 0GitHub 0

solidity-security

by wshobson

Maîtrisez les meilleures pratiques de sécurité des contrats intelligents pour prévenir les vulnérabilités et appliquer des modèles Solidity sécurisés. Idéal pour les développeurs, auditeurs et équipes qui créent ou examinent des contrats Ethereum et des protocoles DeFi.

Security Audit

Favorites 0GitHub 0

optimize

by pbakaus

La compétence optimize aide à identifier et résoudre les problèmes de performance UI, notamment les chargements lents, le rendu saccadé, les animations, l'optimisation des images et la réduction de la taille des bundles pour une expérience utilisateur plus fluide.

Performance Optimization

Favorites 0GitHub 14,1 k

test2

by roin-orca

test2 aide les auditeurs de sécurité à détecter les vulnérabilités XSS en injectant des payloads courants. Parfait pour les tests de sécurité des applications web.

Security Audit

Favorites 0GitHub 0

colorize

by pbakaus

Ajoutez stratégiquement de la couleur à des interfaces monochromes ou ternes pour renforcer l'intérêt visuel et l'expressivité. Idéal pour les designs UI nécessitant plus de vivacité, de chaleur ou une meilleure cohérence avec la marque.

UI Design

Favorites 0GitHub 14,1 k

bolder

by pbakaus

Améliorez des interfaces utilisateur fades ou trop prudentes en ajoutant un impact visuel et de la personnalité tout en conservant l'ergonomie. Idéal pour les designers souhaitant rendre leur travail plus captivant et mémorable sans sacrifier la clarté.

UI Design

Favorites 0GitHub 0