ai-podcast-creation

por inferen-sh

Crea pódcasts y contenido de voz con IA a partir de texto usando Kokoro TTS, DIA TTS y la CLI de inference.sh. Mezcla varias voces, añade música y arma episodios completos para pódcasts, audiolibros y boletines de audio.

Estrellas0

Favoritos0

Comentarios0

Agregado27 mar 2026

CategoríaVoice Generation

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Audio Video Workflow Cli

Resumen

Descripción general

¿Qué es ai-podcast-creation?

La skill ai-podcast-creation es un flujo de trabajo para crear pódcasts y contenido de voz con IA usando la CLI de inference.sh. Está centrada en convertir textos y prompts en voz natural con Kokoro TTS y DIA TTS, y luego usar herramientas adicionales para añadir música y combinar medios, de modo que puedas montar segmentos completos al estilo pódcast.

Esta skill está pensada para creadores que prefieren una canalización automatizada de guion a audio en lugar de grabar y editar pistas de voz manualmente.

Funciones clave

Con ai-podcast-creation puedes:

Generar texto a voz de alta calidad usando Kokoro TTS mediante infsh app run infsh/kokoro-tts.
Usar distintos IDs de voz predefinidos (por ejemplo, af_sarah, af_nicole, am_michael) para representar presentadores, invitados o narradores.
Producir segmentos de pódcast y locuciones directamente a partir de guiones escritos.
Crear conversaciones multivoz y voces de personajes llamando a la app TTS varias veces con diferentes IDs de voz.
Integrarte con otras apps de inference.sh como DIA TTS, Chatterbox, AI music generation y media merger para música de fondo y montaje multicanal (tal como se describe en la skill).

¿Para quién es esta skill?

ai-podcast-creation es una buena opción si eres:

Un creador de pódcast o miembro de un equipo de producción que quiere prototipar o automatizar episodios.
Un especialista en marketing de contenidos que convierte artículos o newsletters en audio.
Un desarrollador indie o ingeniero de automatización que construye flujos de trabajo de medios basados en CLI.
Un investigador o educador que genera audio tipo clase magistral o contenido explicativo.

Es menos adecuada si necesitas:

Chat de voz interactivo en tiempo real en el navegador (esta skill está orientada a CLI).
Edición manual tipo DAW dentro de la propia skill (deberías exportar el audio y editarlo en otra herramienta).

Cuándo encaja bien ai-podcast-creation

Usa esta skill cuando:

Ya escribes guiones, notas de episodio o textos largos y quieres convertirlos en audio hablado.
Prefieres la automatización desde terminal y canalizaciones reproducibles frente a herramientas con interfaz gráfica.
Quieres experimentar rápidamente con voces antes de montar un entorno de producción más complejo.

Valora otras opciones si:

Necesitas un posprocesado de audio muy personalizado exclusivamente dentro de una DAW.
No puedes instalar ni usar la CLI de inference.sh (infsh), que es obligatoria para esta skill.

Cómo usarla

Requisitos previos

Para ejecutar ai-podcast-creation necesitas:

Acceso a una terminal en macOS, Linux o un entorno WSL/compatible.
La CLI de inference.sh (infsh) instalada.
Una cuenta válida de inference.sh y credenciales para ejecutar infsh login.

El propio SKILL.md indica explícitamente:

Requires inference.sh CLI (infsh). Install instructions

Sigue ese enlace para ver los pasos oficiales de instalación de la CLI antes de usar esta skill.

1. Instalar la skill ai-podcast-creation

Usa Agent Skills CLI para añadir la skill desde el repositorio inferen-sh/skills:

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Esto descarga la guía y los metadatos de ai-podcast-creation para que tu agente o toolchain puedan utilizarlos como referencia.

2. Configurar la CLI de inference.sh

Una vez instalada la CLI, autentícate:

infsh login

Sigue las instrucciones en pantalla para completar el inicio de sesión con tu cuenta de inference.sh.

Tras iniciar sesión, podrás llamar a apps como infsh/kokoro-tts directamente desde la terminal o desde tus flujos de trabajo con scripts.

3. Generar tu primer segmento de pódcast

La forma más rápida de probar ai-podcast-creation es ejecutar el ejemplo de Kokoro TTS de SKILL.md:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

Este comando:

Envía el texto de prompt a la app infsh/kokoro-tts.
Usa la voz am_michael (varón estadounidense, estilo autoritario recomendado para contenido documental o tecnológico).
Devuelve audio de voz generado, que puedes guardar o encadenar a otros procesos según tu configuración de CLI.

4. Elegir la voz adecuada

La documentación de la skill incluye una tabla de voces en Available Voices → Kokoro TTS. Algunas voces de ejemplo son:

af_sarah – Voz femenina estadounidense, cálida; adecuada para presentadoras y narradoras.
af_nicole – Voz femenina estadounidense, profesional; adecuada para programas de noticias o negocios.
am_michael – Voz masculina estadounidense, autoritaria; adecuada para pódcasts de tecnología o documentales.

Puedes cambiar la voz en tu comando:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

Ejecutando varios comandos con distintas voces y prompts puedes crear segmentos con varios interlocutores y luego mezclarlos con música o efectos usando otras apps mencionadas en la skill (por ejemplo, media merger).

5. Construir un flujo de trabajo repetible

Cuando ya domines la generación de líneas individuales, encapsula el proceso en scripts. Por ejemplo, podrías:

Guardar el guion de tu episodio en un archivo como episode01.txt.
Dividirlo en segmentos para la intro del presentador, respuestas del invitado y cierre.
Llamar a infsh app run infsh/kokoro-tts para cada segmento usando voces distintas.
Usar apps adicionales de inference.sh (AI music generation, media merger) para añadir música de entrada, fondos musicales o fundidos encadenados, tal como se sugiere en la descripción de la skill.

Aunque el fragmento de repositorio proporcionado se centra en Kokoro TTS, la descripción de la SKILL indica compatibilidad con DIA TTS y Chatterbox. Seguirás patrones similares de infsh app run para esas apps, usando sus parámetros documentados.

6. Explorar la documentación de la skill en el repositorio

Después de instalar, abre los archivos de la skill para obtener más detalles:

SKILL.md – Guía principal de ai-podcast-creation, incluyendo el inicio rápido y detalles sobre las voces disponibles.
Otras carpetas referenciadas en el repositorio (por ejemplo, guides/content/ai-podcast-creation) – Contienen contenido ampliado y ejemplos para trabajar con TTS y flujos de trabajo de medios.

Utiliza estos documentos para afinar:

La selección de voces según el formato de tu programa.
Cómo encadenar TTS, música y combinación de medios.
Cómo adaptar el flujo de trabajo a tu automatización existente o a sistemas de CI/CD.

Preguntas frecuentes

¿Qué hace exactamente ai-podcast-creation?

ai-podcast-creation es un flujo de trabajo documentado que te muestra cómo usar la CLI de inference.sh, Kokoro TTS, DIA TTS, Chatterbox y apps relacionadas para generar audio tipo pódcast a partir de texto. Te ofrece opciones de voz, ejemplos de comandos y orientación para montar episodios completos con música y herramientas de edición.

¿Necesito la CLI de inference.sh para usar esta skill?

Sí. La skill exige explícitamente la CLI de inference.sh (infsh). Debes instalarla y ejecutar infsh login antes de poder lanzar comandos como:

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

Sin infsh, el flujo de trabajo de ai-podcast-creation no puede ejecutarse.

¿Puedo crear conversaciones con varias voces con esta skill?

Sí. Aunque el fragmento de código muestra un ejemplo con una sola voz, la descripción de la skill destaca las conversaciones multivoz. Tú las implementas así:

Llamando a la app TTS varias veces con distintos IDs de voice para cada interlocutor.
Generando clips de audio separados para cada línea o segmento.
Combinando esos clips (y opcionalmente música) con una herramienta de mezcla de medios, tal como se indica en la descripción de la skill.

¿Es esto un editor de pódcast completo o un sustituto de una DAW?

No. ai-podcast-creation se centra en la generación y el montaje mediante apps de CLI. Es ideal para:

Conversión de guion a audio.
Creación multivoz y música generada por IA.
Flujos de trabajo automatizados o por lotes.

Para edición detallada de forma de onda, mezcla o masterización, seguirás necesitando una DAW dedicada (por ejemplo, Audacity, Reaper, etc.) después de generar tus archivos de audio.

¿Puedo usar ai-podcast-creation para audiolibros y locuciones?

Sí. La descripción de la skill menciona explícitamente audiolibros, contenido de voz y boletines de audio como casos de uso. Los mismos comandos TTS que usas para pódcasts pueden narrar texto largo, materiales formativos o guiones promocionales. Solo necesitas adaptar la estructura de tu guion y la elección de voces al formato.

¿En qué se diferencia ai-podcast-creation de las herramientas de pódcast con IA basadas en navegador?

Las herramientas basadas en navegador suelen ofrecer una interfaz gráfica (GUI), mientras que ai-podcast-creation es CLI-first y fácilmente scriptable. Elige ai-podcast-creation si:

Prefieres la automatización y flujos de trabajo reproducibles desde la línea de comandos.
Quieres integrar la generación de voz en canalizaciones existentes, cron jobs o CI.

Elige una herramienta en navegador si:

Necesitas una interfaz de apuntar y hacer clic.
No piensas trabajar con terminales ni scripts.

¿Dónde puedo encontrar la lista de voces disponibles?

La lista de voces de Kokoro TTS aparece en Available Voices → Kokoro TTS dentro de SKILL.md. Abre ese archivo en el repositorio inferen-sh/skills para ver cada ID de voz, su descripción y recomendaciones (por ejemplo, presentador, narrador, noticias).

¿Cómo soluciono errores si mi comando falla?

Si infsh app run falla:

Confirma que la CLI de inference.sh está instalada correctamente usando la guía oficial de instalación.
Ejecuta infsh login de nuevo para asegurarte de que tu sesión es válida.
Revisa que el JSON en --input sea válido (comillas y caracteres escapados correctamente).
Verifica que el nombre de la app (infsh/kokoro-tts) y los IDs de voz coinciden con los documentados en SKILL.md.

Si el problema continúa, consulta la documentación principal de inference.sh o los issues del repositorio para obtener ayuda específica de tu entorno.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

organization-best-practices

by better-auth

Configura organizaciones multi-inquilino, gestiona miembros, roles, permisos, equipos e implementa RBAC con la skill organization de Better Auth. Ideal para desarrolladores backend que necesitan funciones robustas de gestión organizacional y control de acceso.

Backend Development

Favorites 0GitHub 0

modern-javascript-patterns

by wshobson

Aprende a aplicar características ES6+ y patrones de programación funcional para un código JavaScript limpio, eficiente y mantenible. Ideal para desarrolladores frontend que refactorizan código legado, adoptan flujos async modernos u optimizan aplicaciones web.

Frontend Development

Favorites 0GitHub 0

architecture-decision-records

by wshobson

Escribe y mantiene Architecture Decision Records (ADRs) siguiendo las mejores prácticas para documentar decisiones técnicas. Úsalo para documentar decisiones técnicas importantes, revisar elecciones arquitectónicas pasadas o establecer procesos de decisión.

Project Management

Favorites 0GitHub 0

python-performance-optimization

by wshobson

Perfila y optimiza código Python con cProfile, analizadores de memoria y técnicas comprobadas de rendimiento. Ideal para depurar código lento, solucionar cuellos de botella y mejorar la velocidad de aplicaciones Python.

Performance Optimization

Favorites 0GitHub 32,4 mil

binary-analysis-patterns

by wshobson

binary-analysis-patterns ofrece técnicas esenciales para desensamblado, descompilación, análisis de flujo de control y reconocimiento de patrones de código. Ideal para auditorías de seguridad, ingeniería inversa y análisis estático de ejecutables.

Security Audit

Favorites 0GitHub 0

nft-standards

by wshobson

Implementa estándares NFT (ERC-721, ERC-1155) con metadatos, minting e integración con marketplaces. Ideal para contratos NFT, marketplaces y sistemas de activos digitales.

Backend Development

Favorites 0GitHub 0

solidity-security

by wshobson

Domina las mejores prácticas de seguridad en contratos inteligentes para prevenir vulnerabilidades e implementar patrones seguros en Solidity. Ideal para desarrolladores, auditores y equipos que construyen o revisan contratos inteligentes Ethereum y protocolos DeFi.

Security Audit

Favorites 0GitHub 0

distill

by pbakaus

Simplifica y despeja diseños de UI eliminando complejidad innecesaria. Ideal para diseñadores y equipos frontend que buscan interfaces más limpias y enfocadas.

UI Design

Favorites 0GitHub 14,1 mil