ai-podcast-creation

par inferen-sh

Créez des podcasts et contenus vocaux alimentés par l’IA à partir de texte en utilisant Kokoro TTS, DIA TTS et le CLI inference.sh. Mixez plusieurs voix, ajoutez de la musique et assemblez des épisodes complets pour des podcasts, des livres audio et des newsletters audio.

Étoiles0

Favoris0

Commentaires0

Ajouté27 mars 2026

CatégorieVoice Generation

Commande d’installation

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Audio Video Automation Workflow Cli Ai

Vue d’ensemble

Qu’est-ce que ai-podcast-creation ?

La skill ai-podcast-creation est un workflow conçu pour générer des podcasts et contenus vocaux pilotés par l’IA à l’aide du CLI inference.sh. Elle se concentre sur la conversion de prompts textuels en voix naturelles avec Kokoro TTS et DIA TTS, puis sur l’utilisation d’outils complémentaires pour la musique et la fusion de médias afin d’assembler des séquences complètes au format podcast.

Cette skill est pensée pour les créateurs qui souhaitent une chaîne automatisée du script à l’audio, plutôt que d’enregistrer et monter manuellement des pistes voix.

Fonctionnalités principales

Avec ai-podcast-creation, vous pouvez :

Générer une synthèse vocale de haute qualité avec Kokoro TTS via infsh app run infsh/kokoro-tts.
Utiliser différents IDs de voix prédéfinies (par ex. af_sarah, af_nicole, am_michael) pour les hôtes, invités ou narrateurs.
Produire des segments de podcast et des narrations directement à partir de scripts écrits.
Construire des conversations multi-voix et des voix de personnages en appelant plusieurs fois l’app TTS avec des IDs de voix différentes.
Vous intégrer à d’autres apps inference.sh comme DIA TTS, Chatterbox, AI music generation et media merger pour la musique de fond et l’assemblage multi-pistes (comme décrit dans la skill).

À qui s’adresse cette skill ?

ai-podcast-creation est particulièrement adaptée si vous êtes :

Un créateur de podcast ou une équipe de production souhaitant prototyper ou automatiser des épisodes.
Un marketeur de contenu qui convertit des articles ou newsletters en audio.
Un indie developer ou un ingénieur automatisation construisant des workflows média basés sur le CLI.
Un chercheur ou enseignant générant des contenus audio de type cours ou explications.

Elle est moins adaptée si vous avez besoin :

De conversation vocale interactive en temps réel dans un navigateur (cette skill est centrée sur le CLI).
De montage détaillé façon DAW directement dans la skill (vous exporterez l’audio puis le monterez dans un outil séparé).

Quand ai-podcast-creation est-elle un bon choix ?

Utilisez cette skill lorsque :

Vous rédigez déjà des scripts, notes d’épisodes ou contenus longs et souhaitez les convertir en audio parlé.
Vous privilégiez l’automatisation en terminal et des pipelines reproductibles plutôt que des outils avec interface graphique.
Vous voulez expérimenter rapidement différentes voix avant de mettre en place une production plus complexe.

Envisagez d’autres options si vous :

Avez besoin exclusivement d’un post-traitement audio très poussé dans un DAW.
Ne pouvez pas installer ou utiliser le CLI inference.sh (infsh), qui est requis pour cette skill.

Guide d’utilisation

Prérequis

Pour exécuter ai-podcast-creation, vous avez besoin :

D’un accès à un terminal sur macOS, Linux ou un environnement WSL/compatible.
Du CLI inference.sh (infsh) installé.
D’un compte inference.sh valide et des identifiants pour exécuter infsh login.

Le fichier SKILL.md de la skill précise explicitement :

Requires inference.sh CLI (infsh). Install instructions

Suivez ce lien pour les étapes officielles d’installation du CLI avant d’utiliser cette skill.

1. Installer la skill ai-podcast-creation

Utilisez le Agent Skills CLI pour ajouter la skill depuis le repository inferen-sh/skills :

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Cette commande récupère la documentation et les métadonnées de ai-podcast-creation afin que votre agent ou votre toolchain puisse s’y référer.

2. Configurer le CLI inference.sh

Une fois le CLI installé, authentifiez-vous :

infsh login

Suivez les instructions affichées pour finaliser la connexion avec votre compte inference.sh.

Après la connexion, vous pouvez appeler des apps comme infsh/kokoro-tts directement depuis votre terminal ou vos workflows scriptés.

3. Générer votre premier segment de podcast

La façon la plus rapide de tester ai-podcast-creation est d’exécuter l’exemple Kokoro TTS tiré de SKILL.md :

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

Cette commande :

Envoie le texte prompt à l’app infsh/kokoro-tts.
Utilise la voix am_michael (homme américain, style autoritaire recommandé pour du documentaire ou du contenu tech).
Retourne un fichier audio généré, que vous pouvez enregistrer ou chaîner vers d’autres traitements, selon votre configuration CLI.

4. Choisir la bonne voix

La documentation de la skill fournit un tableau des voix dans la section Available Voices → Kokoro TTS. Exemples de voix :

af_sarah – Femme américaine, chaleureuse ; adaptée aux hôtes et narratrices.
af_nicole – Femme américaine, professionnelle ; adaptée aux journaux et émissions business.
am_michael – Homme américain, autoritaire ; adapté aux podcasts tech ou documentaires.

Vous pouvez remplacer la voix dans votre commande :

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

En lançant plusieurs commandes avec des voix et des prompts différents, vous pouvez créer des segments à plusieurs interlocuteurs, puis les fusionner avec de la musique ou des effets à l’aide d’autres apps mentionnées dans la skill (par ex. media merger).

5. Construire un workflow reproductible

Une fois à l’aise avec la génération de répliques individuelles, encapsulez votre processus dans des scripts. Par exemple, vous pouvez :

Stocker le script de votre épisode dans un fichier comme episode01.txt.
Le découper en segments pour l’intro de l’hôte, les réponses de l’invité et la conclusion.
Appeler infsh app run infsh/kokoro-tts pour chaque segment avec des voix différentes.
Utiliser des apps inference.sh supplémentaires (AI music generation, media merger) pour ajouter un générique, des ambiances musicales ou des fondus enchaînés, comme suggéré dans la description de la skill.

Même si l’extrait de repository fourni met surtout en avant Kokoro TTS, la description de la skill indique le support de DIA TTS et Chatterbox. Vous utiliserez des schémas similaires de infsh app run pour ces apps, en suivant leurs paramètres documentés.

6. Explorer la documentation de la skill dans le repo

Après l’installation, ouvrez les fichiers de la skill pour des explications plus détaillées :

SKILL.md – Guide principal pour ai-podcast-creation, incluant le quick start et le détail des voix disponibles.
Autres dossiers référencés dans le repository (par ex. guides/content/ai-podcast-creation) – Contiennent du contenu étendu et des exemples pour travailler avec TTS et les workflows média.

Servez-vous de ces documents pour affiner :

Le choix des voix selon vos formats d’émissions.
La manière de chaîner TTS, musique et fusion de médias.
L’adaptation du workflow à votre automatisation existante ou à vos systèmes CI/CD.

FAQ

Que fait concrètement ai-podcast-creation ?

ai-podcast-creation est un workflow documenté qui montre comment utiliser le CLI inference.sh, Kokoro TTS, DIA TTS, Chatterbox et les apps associées pour générer, à partir de texte, de l’audio au format podcast. Il fournit des options de voix, des exemples de commandes et des conseils pour assembler des épisodes complets avec musique et outils de montage.

Ai-je besoin du CLI inference.sh pour utiliser cette skill ?

Oui. La skill nécessite explicitement le CLI inference.sh (infsh). Vous devez l’installer et exécuter infsh login avant de pouvoir lancer des commandes telles que :

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

Sans infsh, le workflow ai-podcast-creation ne peut pas fonctionner.

Puis-je créer des conversations multi-voix avec cette skill ?

Oui. Même si l’extrait de code montre un exemple à une seule voix, la description de la skill met en avant les conversations multi-voix. Vous les mettez en place en :

Appelant l’app TTS plusieurs fois avec des IDs de voice différents pour chaque intervenant.
Générant des clips audio distincts pour chaque réplique ou segment.
Combinant ces clips (et éventuellement de la musique) avec un outil de fusion de médias, comme indiqué dans la description de la skill.

S’agit-il d’un éditeur de podcast complet ou d’un remplaçant de DAW ?

Non. ai-podcast-creation se concentre sur la génération et l’assemblage via des apps CLI. Elle est idéale pour :

La conversion de scripts en audio.
La création multi-voix et la génération musicale par IA.
Les workflows automatisés ou en batch.

Pour un montage fin des formes d’onde, le mixage ou le mastering, vous utiliserez toujours un DAW dédié (par ex. Audacity, Reaper, etc.) après avoir généré vos fichiers audio.

Puis-je utiliser ai-podcast-creation pour des livres audio et des voix-off ?

Oui. La description de la skill mentionne explicitement les livres audio, contenus vocaux et newsletters audio comme cas d’usage. Les mêmes commandes TTS que vous utilisez pour les podcasts peuvent narrer des textes longs, des supports de formation ou des scripts promotionnels. Il vous suffit d’adapter la structure du script et le choix des voix au format.

Comment ai-podcast-creation se compare-t-elle aux outils de podcast IA dans le navigateur ?

Les outils basés sur le navigateur proposent généralement une interface graphique, tandis que ai-podcast-creation est orientée CLI et scriptable. Choisissez ai-podcast-creation si vous :

Préférez l’automatisation et des workflows reproductibles en ligne de commande.
Souhaitez intégrer la génération vocale à des pipelines existants, cron jobs ou CI.

Préférez un outil navigateur si vous :

Avez besoin d’une interface point-and-click.
Ne prévoyez pas de travailler avec des terminaux ou des scripts.

Où puis-je trouver la liste des voix disponibles ?

La liste des voix pour Kokoro TTS se trouve dans la section Available Voices → Kokoro TTS de SKILL.md. Ouvrez ce fichier dans le repository inferen-sh/skills pour voir chaque ID de voix, sa description et ses recommandations (par ex. hôte, narrateur, news).

Comment dépanner si ma commande échoue ?

Si infsh app run échoue :

Vérifiez que le CLI inference.sh est correctement installé en suivant le guide officiel d’installation.
Exécutez de nouveau infsh login pour vous assurer que votre session est valide.
Vérifiez que votre JSON passé à --input est correct (guillemets et échappements bien formés).
Confirmez que le nom de l’app (infsh/kokoro-tts) et les IDs de voix correspondent à ceux documentés dans SKILL.md.

Si les problèmes persistent, consultez la documentation principale de inference.sh ou les issues du repository pour obtenir une aide spécifique à votre environnement.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing permet de doubler et traduire automatiquement de l’audio ou de la vidéo dans 29 langues via le CLI inference.sh, tout en conservant la voix des locuteurs d’origine. Idéal pour les monteurs vidéo, podcasteurs et équipes de localisation qui ont besoin de versions multilingues rapides et de haute qualité à partir de contenus existants.

Video Editing

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Générez de la musique IA et des chansons complètes à partir de prompts texte avec ElevenLabs Music, Diffrythm et Tencent Song Generation via le CLI inference.sh. Idéal pour les musiques de fond, bandes-son, clips sociaux, podcasts et musique libre de droits. Prend en charge la génération rapide de chansons, les instrumentaux et les morceaux avec voix complètes.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Générez un audio de dialogue réaliste avec plusieurs interlocuteurs grâce à Dia TTS et ElevenLabs via la CLI inference.sh. La skill dialogue-audio vous aide à contrôler les voix, l’émotion, le rythme et le déroulé de la conversation pour des podcasts, livres audio, contenus explicatifs, scènes de personnages et autres formats conversationnels.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning est une compétence basée sur inference.sh pour la génération de voix par IA, le text-to-speech et le clonage de voix depuis la CLI. Elle encapsule les modèles ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs et VibeVoice pour une parole naturelle, des narrations multi-voix et des transformations de voix pour des projets audio et vidéo.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Reconnaissance vocale ElevenLabs haute précision via le CLI inference.sh, en utilisant les modèles Scribe v1/v2. Prend en charge la transcription, la diarisation des locuteurs, le tagging d’événements audio, les timecodes au mot, le forced alignment et la génération de sous-titres pour les réunions, podcasts et autres workflows audio.

Audio Editing

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

Synthèse vocale ElevenLabs via le CLI inference.sh, avec plus de 22 voix premium, prise en charge multilingue et modèles rapides adaptés aux workflows de génération vocale en production.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Générez un audio de dialogue multi-intervenants soigné avec ElevenLabs via la CLI inference.sh. Transformez des scripts structurés en conversations naturelles avec plusieurs voix dans un seul fichier pour des podcasts, des livres audio, des vidéos explicatives, des tutoriels, des dialogues de personnages et des scripts vidéo.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Générez de la musique originale avec l’IA à partir de prompts texte grâce au CLI inference.sh et à ElevenLabs. Contrôlez la durée, le style et l’ambiance pour créer depuis votre terminal de la musique de fond libre de droits, des bandes-son, des jingles, des beds pour podcasts et de l’audio pour jeux vidéo.

Audio Editing

Favorites 0GitHub 0