ai-podcast-creation

por inferen-sh

Crie podcasts e conteúdos em áudio com IA a partir de texto usando Kokoro TTS, DIA TTS e a CLI inference.sh. Combine múltiplas vozes, adicione trilhas musicais e monte episódios completos para podcasts, audiolivros e newsletters em áudio.

Estrelas0

Favoritos0

Comentários0

Adicionado27 de mar. de 2026

CategoriaVoice Generation

Comando de instalação

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Audio Video Automation Workflow Cli Ai

Visão geral

O que é ai-podcast-creation?

A skill ai-podcast-creation é um fluxo de trabalho para gerar podcasts e conteúdo de voz com IA usando a CLI inference.sh. Ela é focada em transformar prompts de texto em fala natural com Kokoro TTS e DIA TTS, e depois usar ferramentas adicionais para trilha sonora e mesclagem de mídia, montando blocos completos em formato de podcast.

Esta skill é voltada para criadores que querem um pipeline automatizado de script-para-áudio, em vez de gravar e editar faixas de voz manualmente.

Principais recursos

Com ai-podcast-creation, você pode:

Gerar text-to-speech de alta qualidade usando Kokoro TTS via infsh app run infsh/kokoro-tts.
Usar diferentes IDs de voz predefinidos (por exemplo, af_sarah, af_nicole, am_michael) para representar apresentadores, convidados ou narradores.
Produzir blocos de podcast e narrações diretamente a partir de roteiros escritos.
Montar conversas com múltiplas vozes e personagens chamando o app de TTS várias vezes com IDs de voz diferentes.
Integrar com outros apps do inference.sh, como DIA TTS, Chatterbox, geração de música com IA e media merger para trilhas de fundo e montagem multifaixa (conforme descrito na skill).

Para quem é esta skill?

ai-podcast-creation é ideal se você é:

Um criador de podcast ou equipe de produção querendo prototipar ou automatizar episódios.
Um profissional de marketing de conteúdo que transforma artigos ou newsletters em áudio.
Um desenvolvedor indie ou engenheiro de automação montando fluxos de mídia baseados em CLI.
Um pesquisador ou educador que gera áudio em formato de aula ou conteúdos explicativos.

Ela é menos indicada se você precisa de:

Chat de voz interativo em tempo real no navegador (esta skill é focada em CLI).
Edição manual em estilo DAW dentro da própria skill (nesse caso, você exporta o áudio e edita em outra ferramenta).

Quando ai-podcast-creation é uma boa escolha

Use esta skill quando:

Você já escreve roteiros, show notes ou textos longos e quer convertê-los em áudio falado.
Você prefere automação em terminal e pipelines reprodutíveis em vez de ferramentas com interface gráfica.
Você quer experimentar vozes rapidamente antes de investir em uma estrutura de produção mais complexa.

Considere outras opções se você:

Precisa de pós‑produção de áudio altamente personalizada apenas dentro de uma DAW.
Não pode instalar ou usar a CLI inference.sh (infsh), que é obrigatória para esta skill.

Como usar

Pré-requisitos

Para executar ai-podcast-creation, você precisa de:

Acesso a um terminal no macOS, Linux ou WSL/ambiente compatível.
A CLI inference.sh (infsh) instalada.
Uma conta válida no inference.sh e credenciais para executar infsh login.

O próprio SKILL.md da skill indica explicitamente:

Requires inference.sh CLI (infsh). Install instructions

Siga esse link para ver o passo a passo oficial de instalação da CLI antes de usar esta skill.

1. Instalar a skill ai-podcast-creation

Use a Agent Skills CLI para adicionar a skill a partir do repositório inferen-sh/skills:

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Esse comando baixa o guia e os metadados de ai-podcast-creation para que seu agente ou toolchain possa referenciá-los.

2. Configurar a CLI inference.sh

Depois de instalar a CLI, faça a autenticação:

infsh login

Siga as instruções no terminal para concluir o login com sua conta inference.sh.

Após fazer login, você pode chamar apps como infsh/kokoro-tts diretamente do terminal ou de scripts automatizados.

3. Gerar seu primeiro bloco de podcast

A forma mais rápida de testar ai-podcast-creation é executar o exemplo de Kokoro TTS do SKILL.md:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

Esse comando:

Envia o texto em prompt para o app infsh/kokoro-tts.
Usa a voz am_michael (masculina americana, estilo autoritativo recomendado para conteúdos documentais ou de tecnologia).
Retorna o áudio gerado, que você pode salvar ou encadear em etapas posteriores, conforme a configuração da sua CLI.

4. Escolher a voz certa

A documentação da skill traz uma tabela de vozes em Available Voices → Kokoro TTS. Exemplos de vozes incluem:

af_sarah – feminina americana, acolhedora; indicada para apresentadoras e narradoras.
af_nicole – feminina americana, profissional; indicada para programas de notícias ou negócios.
am_michael – masculino americano, autoritativo; indicado para podcasts de tecnologia ou formato documentário.

Você pode trocar a voz no seu comando:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

Executando múltiplos comandos com vozes e prompts diferentes, você cria segmentos com vários interlocutores e depois pode mesclá-los com música ou efeitos usando outros apps descritos na skill (como o media merger).

5. Montar um fluxo de trabalho repetível

Quando estiver confortável gerando frases individuais, encapsule o processo em scripts. Por exemplo, você pode:

Guardar o roteiro do episódio em um arquivo como episode01.txt.
Dividi-lo em trechos de abertura, respostas de convidados e encerramento.
Chamar infsh app run infsh/kokoro-tts para cada trecho, com vozes diferentes.
Usar outros apps do inference.sh (AI music generation, media merger) para adicionar vinhetas, trilhas de fundo ou crossfades, conforme sugerido na descrição da skill.

Embora o trecho do repositório fornecido se concentre em Kokoro TTS, a descrição da SKILL indica suporte a DIA TTS e Chatterbox. Você seguirá padrões semelhantes de infsh app run para esses apps, usando os parâmetros documentados por eles.

6. Explorar a documentação da skill no repositório

Depois de instalar, abra os arquivos da skill para orientações mais detalhadas:

SKILL.md – Guia principal de ai-podcast-creation, incluindo o quick start e detalhes das vozes disponíveis.
Outras pastas referenciadas no repositório (por exemplo, guides/content/ai-podcast-creation) – Contêm conteúdo estendido e exemplos para trabalhar com TTS e fluxos de mídia.

Use esses documentos para refinar:

A escolha de vozes para diferentes formatos de programa.
Como encadear TTS, música e mesclagem de mídia.
Como adaptar o fluxo de trabalho à sua automação existente ou a sistemas de CI/CD.

FAQ

O que exatamente o ai-podcast-creation faz?

ai-podcast-creation é um fluxo de trabalho documentado que mostra como usar a CLI inference.sh, Kokoro TTS, DIA TTS, Chatterbox e apps relacionados para gerar áudio em formato de podcast a partir de texto. Ele oferece opções de voz, exemplos de comandos e orientações para montar episódios completos com música e ferramentas de edição.

Eu preciso da CLI inference.sh para usar esta skill?

Sim. A skill exige explicitamente a CLI inference.sh (infsh). Você precisa instalá-la e executar infsh login antes de rodar comandos como:

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

Sem o infsh, o fluxo de trabalho de ai-podcast-creation não consegue ser executado.

Posso criar conversas com múltiplas vozes com esta skill?

Sim. Embora o trecho de código mostre um exemplo com voz única, a descrição da skill destaca conversas com múltiplas vozes. Você implementa isso:

Chamando o app de TTS várias vezes com IDs de voice diferentes para cada personagem.
Gerando clipes de áudio separados para cada fala ou trecho.
Combinando esses clipes (e, opcionalmente, música) com uma ferramenta de mesclagem de mídia, conforme indicado na descrição da skill.

Isto é um editor de podcast completo ou substituto de DAW?

Não. ai-podcast-creation é focado em geração e montagem usando apps em CLI. Ele é excelente para:

Conversão de roteiro em áudio.
Criação com múltiplas vozes e música gerada por IA.
Fluxos de trabalho automatizados ou em lote.

Para edição detalhada de forma de onda, mixagem ou masterização, você ainda vai usar uma DAW dedicada (por exemplo, Audacity, Reaper etc.) depois de gerar seus arquivos de áudio.

Posso usar ai-podcast-creation para audiolivros e locuções?

Sim. A descrição da skill menciona explicitamente audiolivros, conteúdo em voz e newsletters em áudio como casos de uso. Os mesmos comandos de TTS que você usa para podcasts podem narrar textos longos, materiais de treinamento ou roteiros promocionais. Basta adaptar a estrutura do roteiro e a escolha de vozes ao formato.

Como o ai-podcast-creation se compara a ferramentas de podcast com IA baseadas em navegador?

Ferramentas em navegador geralmente oferecem uma interface gráfica, enquanto ai-podcast-creation é CLI-first e totalmente scriptável. Escolha ai-podcast-creation se você:

Prefere automação e fluxos de trabalho reprodutíveis em linha de comando.
Quer integrar a geração de voz em pipelines existentes, cron jobs ou CI.

Prefira uma ferramenta em navegador se você:

Precisa de uma interface de apontar‑e‑clicar.
Não pretende trabalhar com terminal ou scripts.

Onde encontro a lista de vozes disponíveis?

A lista de vozes do Kokoro TTS aparece em Available Voices → Kokoro TTS no SKILL.md. Abra esse arquivo no repositório inferen-sh/skills para ver cada ID de voz, sua descrição e recomendações (por exemplo, host, narrador, notícias).

Como solucionar problemas se meu comando falhar?

Se o infsh app run falhar:

Confirme se a CLI inference.sh foi instalada corretamente usando o guia oficial de instalação.
Execute infsh login novamente para garantir que sua sessão está válida.
Verifique se o JSON em --input é válido (aspas e escapes corretos).
Confira se o nome do app (infsh/kokoro-tts) e os IDs de voz correspondem ao que está documentado no SKILL.md.

Se o problema persistir, consulte a documentação principal do inference.sh ou as issues do repositório para ajuda específica de ambiente.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

elevenlabs-voice-changer

by inferen-sh

Skill de mudança de voz ElevenLabs usando o CLI inference.sh (infsh) para transformar fala gravada em outra voz sintética, preservando o conteúdo e a emoção. Suporta `eleven_multilingual_sts_v2` (70+ idiomas) e `eleven_english_sts_v2` para speech-to-speech, mudança de sotaque e disfarce de voz em criação de conteúdo, dublagem e vozes de personagem.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Gere áudios de diálogo refinados com múltiplos locutores usando ElevenLabs via a CLI do inference.sh. Transforme roteiros estruturados em conversas naturais com várias vozes em um único arquivo, ideal para podcasts, audiolivros, explicadores, tutoriais, diálogos de personagens e roteiros de vídeo.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Gere música com IA e músicas completas a partir de prompts de texto usando ElevenLabs Music, Diffrythm e Tencent Song Generation via o CLI inference.sh. Ideal para trilhas de fundo, soundtracks, clipes para redes sociais, podcasts e músicas royalty-free. Suporta geração rápida de faixas, instrumentais e músicas completas com vocais.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

Texto-para-fala da ElevenLabs via CLI do inference.sh, com mais de 22 vozes premium, suporte multilíngue e modelos rápidos para fluxos de trabalho de geração de voz em produção.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning é um skill baseado em inference.sh para geração de voz com IA, text-to-speech e clonagem de voz via CLI. Ele integra modelos ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice para fala natural, narração com múltiplas vozes e transformação de voz em projetos de áudio e vídeo.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Gere músicas originais com IA a partir de prompts em texto usando o CLI inference.sh e ElevenLabs. Controle duração, estilo e clima para criar trilhas de fundo royalty-free, trilhas sonoras, vinhetas, camas para podcasts e áudio para games diretamente pelo terminal.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing permite dublar e traduzir automaticamente áudio ou vídeo para 29 idiomas usando a CLI do inference.sh, preservando as vozes originais dos locutores. Ideal para editores de vídeo, podcasters e equipes de localização que precisam de versões multilíngues rápidas e de alta qualidade de conteúdos já existentes.

Video Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Crie diálogos em áudio realistas com múltiplos locutores usando Dia TTS e ElevenLabs via a CLI do inference.sh. A skill dialogue-audio ajuda você a controlar locutores, emoção, ritmo e fluxo de conversa para podcasts, audiolivros, vídeos explicativos, cenas de personagem e outros formatos conversacionais.

Voice Generation

Favorites 0GitHub 0