ai-podcast-creation
par inferen-shCréez des podcasts et contenus vocaux alimentés par l’IA à partir de texte en utilisant Kokoro TTS, DIA TTS et le CLI inference.sh. Mixez plusieurs voix, ajoutez de la musique et assemblez des épisodes complets pour des podcasts, des livres audio et des newsletters audio.
Vue d’ensemble
Qu’est-ce que ai-podcast-creation ?
La skill ai-podcast-creation est un workflow conçu pour générer des podcasts et contenus vocaux pilotés par l’IA à l’aide du CLI inference.sh. Elle se concentre sur la conversion de prompts textuels en voix naturelles avec Kokoro TTS et DIA TTS, puis sur l’utilisation d’outils complémentaires pour la musique et la fusion de médias afin d’assembler des séquences complètes au format podcast.
Cette skill est pensée pour les créateurs qui souhaitent une chaîne automatisée du script à l’audio, plutôt que d’enregistrer et monter manuellement des pistes voix.
Fonctionnalités principales
Avec ai-podcast-creation, vous pouvez :
- Générer une synthèse vocale de haute qualité avec Kokoro TTS via
infsh app run infsh/kokoro-tts. - Utiliser différents IDs de voix prédéfinies (par ex.
af_sarah,af_nicole,am_michael) pour les hôtes, invités ou narrateurs. - Produire des segments de podcast et des narrations directement à partir de scripts écrits.
- Construire des conversations multi-voix et des voix de personnages en appelant plusieurs fois l’app TTS avec des IDs de voix différentes.
- Vous intégrer à d’autres apps inference.sh comme DIA TTS, Chatterbox, AI music generation et media merger pour la musique de fond et l’assemblage multi-pistes (comme décrit dans la skill).
À qui s’adresse cette skill ?
ai-podcast-creation est particulièrement adaptée si vous êtes :
- Un créateur de podcast ou une équipe de production souhaitant prototyper ou automatiser des épisodes.
- Un marketeur de contenu qui convertit des articles ou newsletters en audio.
- Un indie developer ou un ingénieur automatisation construisant des workflows média basés sur le CLI.
- Un chercheur ou enseignant générant des contenus audio de type cours ou explications.
Elle est moins adaptée si vous avez besoin :
- De conversation vocale interactive en temps réel dans un navigateur (cette skill est centrée sur le CLI).
- De montage détaillé façon DAW directement dans la skill (vous exporterez l’audio puis le monterez dans un outil séparé).
Quand ai-podcast-creation est-elle un bon choix ?
Utilisez cette skill lorsque :
- Vous rédigez déjà des scripts, notes d’épisodes ou contenus longs et souhaitez les convertir en audio parlé.
- Vous privilégiez l’automatisation en terminal et des pipelines reproductibles plutôt que des outils avec interface graphique.
- Vous voulez expérimenter rapidement différentes voix avant de mettre en place une production plus complexe.
Envisagez d’autres options si vous :
- Avez besoin exclusivement d’un post-traitement audio très poussé dans un DAW.
- Ne pouvez pas installer ou utiliser le CLI inference.sh (
infsh), qui est requis pour cette skill.
Guide d’utilisation
Prérequis
Pour exécuter ai-podcast-creation, vous avez besoin :
- D’un accès à un terminal sur macOS, Linux ou un environnement WSL/compatible.
- Du CLI inference.sh (
infsh) installé. - D’un compte inference.sh valide et des identifiants pour exécuter
infsh login.
Le fichier SKILL.md de la skill précise explicitement :
Requires inference.sh CLI (
infsh). Install instructions
Suivez ce lien pour les étapes officielles d’installation du CLI avant d’utiliser cette skill.
1. Installer la skill ai-podcast-creation
Utilisez le Agent Skills CLI pour ajouter la skill depuis le repository inferen-sh/skills :
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
Cette commande récupère la documentation et les métadonnées de ai-podcast-creation afin que votre agent ou votre toolchain puisse s’y référer.
2. Configurer le CLI inference.sh
Une fois le CLI installé, authentifiez-vous :
infsh login
Suivez les instructions affichées pour finaliser la connexion avec votre compte inference.sh.
Après la connexion, vous pouvez appeler des apps comme infsh/kokoro-tts directement depuis votre terminal ou vos workflows scriptés.
3. Générer votre premier segment de podcast
La façon la plus rapide de tester ai-podcast-creation est d’exécuter l’exemple Kokoro TTS tiré de SKILL.md :
infsh app run infsh/kokoro-tts --input '{
"prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
"voice": "am_michael"
}'
Cette commande :
- Envoie le texte
promptà l’appinfsh/kokoro-tts. - Utilise la voix
am_michael(homme américain, style autoritaire recommandé pour du documentaire ou du contenu tech). - Retourne un fichier audio généré, que vous pouvez enregistrer ou chaîner vers d’autres traitements, selon votre configuration CLI.
4. Choisir la bonne voix
La documentation de la skill fournit un tableau des voix dans la section Available Voices → Kokoro TTS. Exemples de voix :
af_sarah– Femme américaine, chaleureuse ; adaptée aux hôtes et narratrices.af_nicole– Femme américaine, professionnelle ; adaptée aux journaux et émissions business.am_michael– Homme américain, autoritaire ; adapté aux podcasts tech ou documentaires.
Vous pouvez remplacer la voix dans votre commande :
infsh app run infsh/kokoro-tts --input '{
"prompt": "In today\'s episode, we break down three key trends in machine learning.",
"voice": "af_nicole"
}'
En lançant plusieurs commandes avec des voix et des prompts différents, vous pouvez créer des segments à plusieurs interlocuteurs, puis les fusionner avec de la musique ou des effets à l’aide d’autres apps mentionnées dans la skill (par ex. media merger).
5. Construire un workflow reproductible
Une fois à l’aise avec la génération de répliques individuelles, encapsulez votre processus dans des scripts. Par exemple, vous pouvez :
- Stocker le script de votre épisode dans un fichier comme
episode01.txt. - Le découper en segments pour l’intro de l’hôte, les réponses de l’invité et la conclusion.
- Appeler
infsh app run infsh/kokoro-ttspour chaque segment avec des voix différentes. - Utiliser des apps inference.sh supplémentaires (AI music generation, media merger) pour ajouter un générique, des ambiances musicales ou des fondus enchaînés, comme suggéré dans la description de la skill.
Même si l’extrait de repository fourni met surtout en avant Kokoro TTS, la description de la skill indique le support de DIA TTS et Chatterbox. Vous utiliserez des schémas similaires de infsh app run pour ces apps, en suivant leurs paramètres documentés.
6. Explorer la documentation de la skill dans le repo
Après l’installation, ouvrez les fichiers de la skill pour des explications plus détaillées :
SKILL.md– Guide principal pour ai-podcast-creation, incluant le quick start et le détail des voix disponibles.- Autres dossiers référencés dans le repository (par ex.
guides/content/ai-podcast-creation) – Contiennent du contenu étendu et des exemples pour travailler avec TTS et les workflows média.
Servez-vous de ces documents pour affiner :
- Le choix des voix selon vos formats d’émissions.
- La manière de chaîner TTS, musique et fusion de médias.
- L’adaptation du workflow à votre automatisation existante ou à vos systèmes CI/CD.
FAQ
Que fait concrètement ai-podcast-creation ?
ai-podcast-creation est un workflow documenté qui montre comment utiliser le CLI inference.sh, Kokoro TTS, DIA TTS, Chatterbox et les apps associées pour générer, à partir de texte, de l’audio au format podcast. Il fournit des options de voix, des exemples de commandes et des conseils pour assembler des épisodes complets avec musique et outils de montage.
Ai-je besoin du CLI inference.sh pour utiliser cette skill ?
Oui. La skill nécessite explicitement le CLI inference.sh (infsh). Vous devez l’installer et exécuter infsh login avant de pouvoir lancer des commandes telles que :
infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'
Sans infsh, le workflow ai-podcast-creation ne peut pas fonctionner.
Puis-je créer des conversations multi-voix avec cette skill ?
Oui. Même si l’extrait de code montre un exemple à une seule voix, la description de la skill met en avant les conversations multi-voix. Vous les mettez en place en :
- Appelant l’app TTS plusieurs fois avec des IDs de
voicedifférents pour chaque intervenant. - Générant des clips audio distincts pour chaque réplique ou segment.
- Combinant ces clips (et éventuellement de la musique) avec un outil de fusion de médias, comme indiqué dans la description de la skill.
S’agit-il d’un éditeur de podcast complet ou d’un remplaçant de DAW ?
Non. ai-podcast-creation se concentre sur la génération et l’assemblage via des apps CLI. Elle est idéale pour :
- La conversion de scripts en audio.
- La création multi-voix et la génération musicale par IA.
- Les workflows automatisés ou en batch.
Pour un montage fin des formes d’onde, le mixage ou le mastering, vous utiliserez toujours un DAW dédié (par ex. Audacity, Reaper, etc.) après avoir généré vos fichiers audio.
Puis-je utiliser ai-podcast-creation pour des livres audio et des voix-off ?
Oui. La description de la skill mentionne explicitement les livres audio, contenus vocaux et newsletters audio comme cas d’usage. Les mêmes commandes TTS que vous utilisez pour les podcasts peuvent narrer des textes longs, des supports de formation ou des scripts promotionnels. Il vous suffit d’adapter la structure du script et le choix des voix au format.
Comment ai-podcast-creation se compare-t-elle aux outils de podcast IA dans le navigateur ?
Les outils basés sur le navigateur proposent généralement une interface graphique, tandis que ai-podcast-creation est orientée CLI et scriptable. Choisissez ai-podcast-creation si vous :
- Préférez l’automatisation et des workflows reproductibles en ligne de commande.
- Souhaitez intégrer la génération vocale à des pipelines existants, cron jobs ou CI.
Préférez un outil navigateur si vous :
- Avez besoin d’une interface point-and-click.
- Ne prévoyez pas de travailler avec des terminaux ou des scripts.
Où puis-je trouver la liste des voix disponibles ?
La liste des voix pour Kokoro TTS se trouve dans la section Available Voices → Kokoro TTS de SKILL.md. Ouvrez ce fichier dans le repository inferen-sh/skills pour voir chaque ID de voix, sa description et ses recommandations (par ex. hôte, narrateur, news).
Comment dépanner si ma commande échoue ?
Si infsh app run échoue :
- Vérifiez que le CLI inference.sh est correctement installé en suivant le guide officiel d’installation.
- Exécutez de nouveau
infsh loginpour vous assurer que votre session est valide. - Vérifiez que votre JSON passé à
--inputest correct (guillemets et échappements bien formés). - Confirmez que le nom de l’app (
infsh/kokoro-tts) et les IDs de voix correspondent à ceux documentés dansSKILL.md.
Si les problèmes persistent, consultez la documentation principale de inference.sh ou les issues du repository pour obtenir une aide spécifique à votre environnement.
