ai-podcast-creation
por inferen-shCrea pódcasts y contenido de voz con IA a partir de texto usando Kokoro TTS, DIA TTS y la CLI de inference.sh. Mezcla varias voces, añade música y arma episodios completos para pódcasts, audiolibros y boletines de audio.
Descripción general
¿Qué es ai-podcast-creation?
La skill ai-podcast-creation es un flujo de trabajo para crear pódcasts y contenido de voz con IA usando la CLI de inference.sh. Está centrada en convertir textos y prompts en voz natural con Kokoro TTS y DIA TTS, y luego usar herramientas adicionales para añadir música y combinar medios, de modo que puedas montar segmentos completos al estilo pódcast.
Esta skill está pensada para creadores que prefieren una canalización automatizada de guion a audio en lugar de grabar y editar pistas de voz manualmente.
Funciones clave
Con ai-podcast-creation puedes:
- Generar texto a voz de alta calidad usando Kokoro TTS mediante
infsh app run infsh/kokoro-tts. - Usar distintos IDs de voz predefinidos (por ejemplo,
af_sarah,af_nicole,am_michael) para representar presentadores, invitados o narradores. - Producir segmentos de pódcast y locuciones directamente a partir de guiones escritos.
- Crear conversaciones multivoz y voces de personajes llamando a la app TTS varias veces con diferentes IDs de voz.
- Integrarte con otras apps de inference.sh como DIA TTS, Chatterbox, AI music generation y media merger para música de fondo y montaje multicanal (tal como se describe en la skill).
¿Para quién es esta skill?
ai-podcast-creation es una buena opción si eres:
- Un creador de pódcast o miembro de un equipo de producción que quiere prototipar o automatizar episodios.
- Un especialista en marketing de contenidos que convierte artículos o newsletters en audio.
- Un desarrollador indie o ingeniero de automatización que construye flujos de trabajo de medios basados en CLI.
- Un investigador o educador que genera audio tipo clase magistral o contenido explicativo.
Es menos adecuada si necesitas:
- Chat de voz interactivo en tiempo real en el navegador (esta skill está orientada a CLI).
- Edición manual tipo DAW dentro de la propia skill (deberías exportar el audio y editarlo en otra herramienta).
Cuándo encaja bien ai-podcast-creation
Usa esta skill cuando:
- Ya escribes guiones, notas de episodio o textos largos y quieres convertirlos en audio hablado.
- Prefieres la automatización desde terminal y canalizaciones reproducibles frente a herramientas con interfaz gráfica.
- Quieres experimentar rápidamente con voces antes de montar un entorno de producción más complejo.
Valora otras opciones si:
- Necesitas un posprocesado de audio muy personalizado exclusivamente dentro de una DAW.
- No puedes instalar ni usar la CLI de inference.sh (
infsh), que es obligatoria para esta skill.
Cómo usarla
Requisitos previos
Para ejecutar ai-podcast-creation necesitas:
- Acceso a una terminal en macOS, Linux o un entorno WSL/compatible.
- La CLI de inference.sh (
infsh) instalada. - Una cuenta válida de inference.sh y credenciales para ejecutar
infsh login.
El propio SKILL.md indica explícitamente:
Requires inference.sh CLI (
infsh). Install instructions
Sigue ese enlace para ver los pasos oficiales de instalación de la CLI antes de usar esta skill.
1. Instalar la skill ai-podcast-creation
Usa Agent Skills CLI para añadir la skill desde el repositorio inferen-sh/skills:
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
Esto descarga la guía y los metadatos de ai-podcast-creation para que tu agente o toolchain puedan utilizarlos como referencia.
2. Configurar la CLI de inference.sh
Una vez instalada la CLI, autentícate:
infsh login
Sigue las instrucciones en pantalla para completar el inicio de sesión con tu cuenta de inference.sh.
Tras iniciar sesión, podrás llamar a apps como infsh/kokoro-tts directamente desde la terminal o desde tus flujos de trabajo con scripts.
3. Generar tu primer segmento de pódcast
La forma más rápida de probar ai-podcast-creation es ejecutar el ejemplo de Kokoro TTS de SKILL.md:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
"voice": "am_michael"
}'
Este comando:
- Envía el texto de
prompta la appinfsh/kokoro-tts. - Usa la voz
am_michael(varón estadounidense, estilo autoritario recomendado para contenido documental o tecnológico). - Devuelve audio de voz generado, que puedes guardar o encadenar a otros procesos según tu configuración de CLI.
4. Elegir la voz adecuada
La documentación de la skill incluye una tabla de voces en Available Voices → Kokoro TTS. Algunas voces de ejemplo son:
af_sarah– Voz femenina estadounidense, cálida; adecuada para presentadoras y narradoras.af_nicole– Voz femenina estadounidense, profesional; adecuada para programas de noticias o negocios.am_michael– Voz masculina estadounidense, autoritaria; adecuada para pódcasts de tecnología o documentales.
Puedes cambiar la voz en tu comando:
infsh app run infsh/kokoro-tts --input '{
"prompt": "In today\'s episode, we break down three key trends in machine learning.",
"voice": "af_nicole"
}'
Ejecutando varios comandos con distintas voces y prompts puedes crear segmentos con varios interlocutores y luego mezclarlos con música o efectos usando otras apps mencionadas en la skill (por ejemplo, media merger).
5. Construir un flujo de trabajo repetible
Cuando ya domines la generación de líneas individuales, encapsula el proceso en scripts. Por ejemplo, podrías:
- Guardar el guion de tu episodio en un archivo como
episode01.txt. - Dividirlo en segmentos para la intro del presentador, respuestas del invitado y cierre.
- Llamar a
infsh app run infsh/kokoro-ttspara cada segmento usando voces distintas. - Usar apps adicionales de inference.sh (AI music generation, media merger) para añadir música de entrada, fondos musicales o fundidos encadenados, tal como se sugiere en la descripción de la skill.
Aunque el fragmento de repositorio proporcionado se centra en Kokoro TTS, la descripción de la SKILL indica compatibilidad con DIA TTS y Chatterbox. Seguirás patrones similares de infsh app run para esas apps, usando sus parámetros documentados.
6. Explorar la documentación de la skill en el repositorio
Después de instalar, abre los archivos de la skill para obtener más detalles:
SKILL.md– Guía principal de ai-podcast-creation, incluyendo el inicio rápido y detalles sobre las voces disponibles.- Otras carpetas referenciadas en el repositorio (por ejemplo,
guides/content/ai-podcast-creation) – Contienen contenido ampliado y ejemplos para trabajar con TTS y flujos de trabajo de medios.
Utiliza estos documentos para afinar:
- La selección de voces según el formato de tu programa.
- Cómo encadenar TTS, música y combinación de medios.
- Cómo adaptar el flujo de trabajo a tu automatización existente o a sistemas de CI/CD.
Preguntas frecuentes
¿Qué hace exactamente ai-podcast-creation?
ai-podcast-creation es un flujo de trabajo documentado que te muestra cómo usar la CLI de inference.sh, Kokoro TTS, DIA TTS, Chatterbox y apps relacionadas para generar audio tipo pódcast a partir de texto. Te ofrece opciones de voz, ejemplos de comandos y orientación para montar episodios completos con música y herramientas de edición.
¿Necesito la CLI de inference.sh para usar esta skill?
Sí. La skill exige explícitamente la CLI de inference.sh (infsh). Debes instalarla y ejecutar infsh login antes de poder lanzar comandos como:
infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'
Sin infsh, el flujo de trabajo de ai-podcast-creation no puede ejecutarse.
¿Puedo crear conversaciones con varias voces con esta skill?
Sí. Aunque el fragmento de código muestra un ejemplo con una sola voz, la descripción de la skill destaca las conversaciones multivoz. Tú las implementas así:
- Llamando a la app TTS varias veces con distintos IDs de
voicepara cada interlocutor. - Generando clips de audio separados para cada línea o segmento.
- Combinando esos clips (y opcionalmente música) con una herramienta de mezcla de medios, tal como se indica en la descripción de la skill.
¿Es esto un editor de pódcast completo o un sustituto de una DAW?
No. ai-podcast-creation se centra en la generación y el montaje mediante apps de CLI. Es ideal para:
- Conversión de guion a audio.
- Creación multivoz y música generada por IA.
- Flujos de trabajo automatizados o por lotes.
Para edición detallada de forma de onda, mezcla o masterización, seguirás necesitando una DAW dedicada (por ejemplo, Audacity, Reaper, etc.) después de generar tus archivos de audio.
¿Puedo usar ai-podcast-creation para audiolibros y locuciones?
Sí. La descripción de la skill menciona explícitamente audiolibros, contenido de voz y boletines de audio como casos de uso. Los mismos comandos TTS que usas para pódcasts pueden narrar texto largo, materiales formativos o guiones promocionales. Solo necesitas adaptar la estructura de tu guion y la elección de voces al formato.
¿En qué se diferencia ai-podcast-creation de las herramientas de pódcast con IA basadas en navegador?
Las herramientas basadas en navegador suelen ofrecer una interfaz gráfica (GUI), mientras que ai-podcast-creation es CLI-first y fácilmente scriptable. Elige ai-podcast-creation si:
- Prefieres la automatización y flujos de trabajo reproducibles desde la línea de comandos.
- Quieres integrar la generación de voz en canalizaciones existentes, cron jobs o CI.
Elige una herramienta en navegador si:
- Necesitas una interfaz de apuntar y hacer clic.
- No piensas trabajar con terminales ni scripts.
¿Dónde puedo encontrar la lista de voces disponibles?
La lista de voces de Kokoro TTS aparece en Available Voices → Kokoro TTS dentro de SKILL.md. Abre ese archivo en el repositorio inferen-sh/skills para ver cada ID de voz, su descripción y recomendaciones (por ejemplo, presentador, narrador, noticias).
¿Cómo soluciono errores si mi comando falla?
Si infsh app run falla:
- Confirma que la CLI de inference.sh está instalada correctamente usando la guía oficial de instalación.
- Ejecuta
infsh loginde nuevo para asegurarte de que tu sesión es válida. - Revisa que el JSON en
--inputsea válido (comillas y caracteres escapados correctamente). - Verifica que el nombre de la app (
infsh/kokoro-tts) y los IDs de voz coinciden con los documentados enSKILL.md.
Si el problema continúa, consulta la documentación principal de inference.sh o los issues del repositorio para obtener ayuda específica de tu entorno.
