ai-podcast-creation
por inferen-shCrie podcasts e conteúdos em áudio com IA a partir de texto usando Kokoro TTS, DIA TTS e a CLI inference.sh. Combine múltiplas vozes, adicione trilhas musicais e monte episódios completos para podcasts, audiolivros e newsletters em áudio.
Visão geral
O que é ai-podcast-creation?
A skill ai-podcast-creation é um fluxo de trabalho para gerar podcasts e conteúdo de voz com IA usando a CLI inference.sh. Ela é focada em transformar prompts de texto em fala natural com Kokoro TTS e DIA TTS, e depois usar ferramentas adicionais para trilha sonora e mesclagem de mídia, montando blocos completos em formato de podcast.
Esta skill é voltada para criadores que querem um pipeline automatizado de script-para-áudio, em vez de gravar e editar faixas de voz manualmente.
Principais recursos
Com ai-podcast-creation, você pode:
- Gerar text-to-speech de alta qualidade usando Kokoro TTS via
infsh app run infsh/kokoro-tts. - Usar diferentes IDs de voz predefinidos (por exemplo,
af_sarah,af_nicole,am_michael) para representar apresentadores, convidados ou narradores. - Produzir blocos de podcast e narrações diretamente a partir de roteiros escritos.
- Montar conversas com múltiplas vozes e personagens chamando o app de TTS várias vezes com IDs de voz diferentes.
- Integrar com outros apps do inference.sh, como DIA TTS, Chatterbox, geração de música com IA e media merger para trilhas de fundo e montagem multifaixa (conforme descrito na skill).
Para quem é esta skill?
ai-podcast-creation é ideal se você é:
- Um criador de podcast ou equipe de produção querendo prototipar ou automatizar episódios.
- Um profissional de marketing de conteúdo que transforma artigos ou newsletters em áudio.
- Um desenvolvedor indie ou engenheiro de automação montando fluxos de mídia baseados em CLI.
- Um pesquisador ou educador que gera áudio em formato de aula ou conteúdos explicativos.
Ela é menos indicada se você precisa de:
- Chat de voz interativo em tempo real no navegador (esta skill é focada em CLI).
- Edição manual em estilo DAW dentro da própria skill (nesse caso, você exporta o áudio e edita em outra ferramenta).
Quando ai-podcast-creation é uma boa escolha
Use esta skill quando:
- Você já escreve roteiros, show notes ou textos longos e quer convertê-los em áudio falado.
- Você prefere automação em terminal e pipelines reprodutíveis em vez de ferramentas com interface gráfica.
- Você quer experimentar vozes rapidamente antes de investir em uma estrutura de produção mais complexa.
Considere outras opções se você:
- Precisa de pós‑produção de áudio altamente personalizada apenas dentro de uma DAW.
- Não pode instalar ou usar a CLI inference.sh (
infsh), que é obrigatória para esta skill.
Como usar
Pré-requisitos
Para executar ai-podcast-creation, você precisa de:
- Acesso a um terminal no macOS, Linux ou WSL/ambiente compatível.
- A CLI inference.sh (
infsh) instalada. - Uma conta válida no inference.sh e credenciais para executar
infsh login.
O próprio SKILL.md da skill indica explicitamente:
Requires inference.sh CLI (
infsh). Install instructions
Siga esse link para ver o passo a passo oficial de instalação da CLI antes de usar esta skill.
1. Instalar a skill ai-podcast-creation
Use a Agent Skills CLI para adicionar a skill a partir do repositório inferen-sh/skills:
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
Esse comando baixa o guia e os metadados de ai-podcast-creation para que seu agente ou toolchain possa referenciá-los.
2. Configurar a CLI inference.sh
Depois de instalar a CLI, faça a autenticação:
infsh login
Siga as instruções no terminal para concluir o login com sua conta inference.sh.
Após fazer login, você pode chamar apps como infsh/kokoro-tts diretamente do terminal ou de scripts automatizados.
3. Gerar seu primeiro bloco de podcast
A forma mais rápida de testar ai-podcast-creation é executar o exemplo de Kokoro TTS do SKILL.md:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
"voice": "am_michael"
}'
Esse comando:
- Envia o texto em
promptpara o appinfsh/kokoro-tts. - Usa a voz
am_michael(masculina americana, estilo autoritativo recomendado para conteúdos documentais ou de tecnologia). - Retorna o áudio gerado, que você pode salvar ou encadear em etapas posteriores, conforme a configuração da sua CLI.
4. Escolher a voz certa
A documentação da skill traz uma tabela de vozes em Available Voices → Kokoro TTS. Exemplos de vozes incluem:
af_sarah– feminina americana, acolhedora; indicada para apresentadoras e narradoras.af_nicole– feminina americana, profissional; indicada para programas de notícias ou negócios.am_michael– masculino americano, autoritativo; indicado para podcasts de tecnologia ou formato documentário.
Você pode trocar a voz no seu comando:
infsh app run infsh/kokoro-tts --input '{
"prompt": "In today\'s episode, we break down three key trends in machine learning.",
"voice": "af_nicole"
}'
Executando múltiplos comandos com vozes e prompts diferentes, você cria segmentos com vários interlocutores e depois pode mesclá-los com música ou efeitos usando outros apps descritos na skill (como o media merger).
5. Montar um fluxo de trabalho repetível
Quando estiver confortável gerando frases individuais, encapsule o processo em scripts. Por exemplo, você pode:
- Guardar o roteiro do episódio em um arquivo como
episode01.txt. - Dividi-lo em trechos de abertura, respostas de convidados e encerramento.
- Chamar
infsh app run infsh/kokoro-ttspara cada trecho, com vozes diferentes. - Usar outros apps do inference.sh (AI music generation, media merger) para adicionar vinhetas, trilhas de fundo ou crossfades, conforme sugerido na descrição da skill.
Embora o trecho do repositório fornecido se concentre em Kokoro TTS, a descrição da SKILL indica suporte a DIA TTS e Chatterbox. Você seguirá padrões semelhantes de infsh app run para esses apps, usando os parâmetros documentados por eles.
6. Explorar a documentação da skill no repositório
Depois de instalar, abra os arquivos da skill para orientações mais detalhadas:
SKILL.md– Guia principal de ai-podcast-creation, incluindo o quick start e detalhes das vozes disponíveis.- Outras pastas referenciadas no repositório (por exemplo,
guides/content/ai-podcast-creation) – Contêm conteúdo estendido e exemplos para trabalhar com TTS e fluxos de mídia.
Use esses documentos para refinar:
- A escolha de vozes para diferentes formatos de programa.
- Como encadear TTS, música e mesclagem de mídia.
- Como adaptar o fluxo de trabalho à sua automação existente ou a sistemas de CI/CD.
FAQ
O que exatamente o ai-podcast-creation faz?
ai-podcast-creation é um fluxo de trabalho documentado que mostra como usar a CLI inference.sh, Kokoro TTS, DIA TTS, Chatterbox e apps relacionados para gerar áudio em formato de podcast a partir de texto. Ele oferece opções de voz, exemplos de comandos e orientações para montar episódios completos com música e ferramentas de edição.
Eu preciso da CLI inference.sh para usar esta skill?
Sim. A skill exige explicitamente a CLI inference.sh (infsh). Você precisa instalá-la e executar infsh login antes de rodar comandos como:
infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'
Sem o infsh, o fluxo de trabalho de ai-podcast-creation não consegue ser executado.
Posso criar conversas com múltiplas vozes com esta skill?
Sim. Embora o trecho de código mostre um exemplo com voz única, a descrição da skill destaca conversas com múltiplas vozes. Você implementa isso:
- Chamando o app de TTS várias vezes com IDs de
voicediferentes para cada personagem. - Gerando clipes de áudio separados para cada fala ou trecho.
- Combinando esses clipes (e, opcionalmente, música) com uma ferramenta de mesclagem de mídia, conforme indicado na descrição da skill.
Isto é um editor de podcast completo ou substituto de DAW?
Não. ai-podcast-creation é focado em geração e montagem usando apps em CLI. Ele é excelente para:
- Conversão de roteiro em áudio.
- Criação com múltiplas vozes e música gerada por IA.
- Fluxos de trabalho automatizados ou em lote.
Para edição detalhada de forma de onda, mixagem ou masterização, você ainda vai usar uma DAW dedicada (por exemplo, Audacity, Reaper etc.) depois de gerar seus arquivos de áudio.
Posso usar ai-podcast-creation para audiolivros e locuções?
Sim. A descrição da skill menciona explicitamente audiolivros, conteúdo em voz e newsletters em áudio como casos de uso. Os mesmos comandos de TTS que você usa para podcasts podem narrar textos longos, materiais de treinamento ou roteiros promocionais. Basta adaptar a estrutura do roteiro e a escolha de vozes ao formato.
Como o ai-podcast-creation se compara a ferramentas de podcast com IA baseadas em navegador?
Ferramentas em navegador geralmente oferecem uma interface gráfica, enquanto ai-podcast-creation é CLI-first e totalmente scriptável. Escolha ai-podcast-creation se você:
- Prefere automação e fluxos de trabalho reprodutíveis em linha de comando.
- Quer integrar a geração de voz em pipelines existentes, cron jobs ou CI.
Prefira uma ferramenta em navegador se você:
- Precisa de uma interface de apontar‑e‑clicar.
- Não pretende trabalhar com terminal ou scripts.
Onde encontro a lista de vozes disponíveis?
A lista de vozes do Kokoro TTS aparece em Available Voices → Kokoro TTS no SKILL.md. Abra esse arquivo no repositório inferen-sh/skills para ver cada ID de voz, sua descrição e recomendações (por exemplo, host, narrador, notícias).
Como solucionar problemas se meu comando falhar?
Se o infsh app run falhar:
- Confirme se a CLI inference.sh foi instalada corretamente usando o guia oficial de instalação.
- Execute
infsh loginnovamente para garantir que sua sessão está válida. - Verifique se o JSON em
--inputé válido (aspas e escapes corretos). - Confira se o nome do app (
infsh/kokoro-tts) e os IDs de voz correspondem ao que está documentado noSKILL.md.
Se o problema persistir, consulte a documentação principal do inference.sh ou as issues do repositório para ajuda específica de ambiente.
