dialogue-audio
por inferen-shCrie diálogos em áudio realistas com múltiplos locutores usando Dia TTS e ElevenLabs via a CLI do inference.sh. A skill dialogue-audio ajuda você a controlar locutores, emoção, ritmo e fluxo de conversa para podcasts, audiolivros, vídeos explicativos, cenas de personagem e outros formatos conversacionais.
Visão geral
O que a skill dialogue-audio faz
A skill dialogue-audio transforma diálogos escritos em áudio com múltiplos locutores com som natural usando o Dia TTS via a CLI inference.sh (infsh), com vozes em qualidade ElevenLabs nos bastidores.
Ela foi pensada para:
- Conversas entre dois personagens
- Diálogos e entrevistas em estilo podcast
- Cenas de audiolivro com falas alternadas
- Conteúdo explicativo com formato anfitrião/convidado
- Protótipos de diálogos de personagem e voice acting
A skill é focada em:
- Separação de locutores usando tags simples como
[S1]e[S2] - Vozes consistentes por locutor em uma mesma sessão
- Controle de emoção e expressividade por meio de escolha de palavras e pontuação
- Ritmo e fluxo da conversa de pergunta e resposta
- Orientação de pós-produção para integrar o áudio ao seu fluxo de mídia
Se você quer uma forma automatizada de transformar um roteiro para duas pessoas em um áudio de diálogo refinado direto pelo terminal, dialogue-audio foi feita exatamente para esse uso.
Para quem é essa skill
Essa skill é ideal se você é:
- Um podcaster que quer rascunhar ou simular conversas
- Um produtor de áudio ou editor de vídeo adicionando trilhas de voz à timeline
- Um autor ou roteirista criando cenas com muito diálogo
- Um desenvolvedor ou criador focado em automação que prefere CLI e fluxos reprodutíveis
Ela não é a melhor escolha se você precisa de:
- Mais de dois locutores distintos em uma mesma geração
- Design de som complexo, trilhas, ou mixagem totalmente automática
- Uma interface gráfica de apontar-e-clicar em vez de uma ferramenta de linha de comando
Para esses cenários, pode ser melhor combinar ferramentas de DAW e serviços TTS multivoz e usar dialogue-audio para o núcleo da conversa com duas vozes.
Requisitos em resumo
Para usar dialogue-audio de forma eficiente, você vai precisar de:
- Acesso à inference.sh CLI (
infsh) - Um ambiente de terminal ou linha de comando (macOS, Linux ou Windows com shell)
- Familiaridade básica com edição de prompts em texto e execução de comandos em CLI
Como usar
1. Instalar a skill dialogue-audio
Você pode adicionar a skill dialogue-audio ao seu ambiente Agent usando npx:
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
Esse comando busca a configuração da dialogue-audio no repositório inferen-sh/skills e a disponibiliza como um fluxo de trabalho reutilizável.
Em seguida, garanta que a inference.sh CLI (infsh) esteja instalada. Siga as instruções oficiais:
- Instruções de instalação da CLI:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Após instalar, faça a autenticação:
infsh login
2. Entender o fluxo principal
No núcleo, dialogue-audio usa o app Dia TTS via infsh:
infsh app run falai/dia-tts --input '{
"prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'
Esse comando:
- Chama o app
falai/dia-tts - Envia um payload JSON de entrada contendo um
prompt - Usa tags
[S1]e[S2]para marcar as falas de cada locutor - Retorna o áudio do diálogo gerado para toda a troca de falas
A skill dialogue-audio envolve esse padrão em um fluxo de trabalho opinativo, ajudando você a estruturar os prompts, tratar dois locutores de forma limpa e iterar na expressividade e no ritmo.
3. Como usar corretamente as tags de locutor
O Dia TTS depende de tags de locutor para saber quem está falando:
[S1]— Locutor 1 (voz A atribuída automaticamente)[S2]— Locutor 2 (voz B atribuída automaticamente)
Regras importantes:
- Sempre inicie cada fala com a tag correspondente
- As tags devem estar em maiúsculas:
[S1],[S2](não[s1]ou[speaker1]) - Máximo de 2 locutores por geração
- Cada locutor mantém uma voz consistente ao longo da sessão
Exemplo de prompt limpo para dois locutores:
[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.
4. Moldando emoção, tom e ritmo
A skill dialogue-audio incentiva o uso de sinais naturais na escrita para influenciar o áudio gerado:
- Use pontuação (vírgulas, reticências, exclamações) para definir pausas e ênfase
- Use frases mais curtas para diálogos rápidos e ágeis
- Use frases mais longas ou linguagem descritiva para uma entrega mais calma e reflexiva
- Insira indicações de cena entre parênteses com moderação para sugerir emoção, por exemplo:
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.
Faça pequenos ajustes e rode o comando novamente para perceber como o tom e o ritmo mudam.
5. Iterando o fluxo da conversa
Para obter resultados melhores com dialogue-audio:
- Rascunhe a conversa completa em um editor de texto
- Verifique se todas as falas estão corretamente tagueadas e se não há tags soltas
- Mantenha as falas enxutas; monólogos muito longos tendem a soar menos conversacionais
- Divida cenas complexas em múltiplas gerações, se necessário, e depois una tudo no seu editor
Você pode iterar rapidamente ajustando o prompt e executando novamente o comando infsh app run falai/dia-tts até que tempo e emoção estejam alinhados com o seu projeto.
6. Pós-produção e integração
A saída do Dia TTS é um arquivo de áudio que você pode importar para suas ferramentas habituais. A skill dialogue-audio é focada em geração de voz, não em mixagem completa, mas você pode:
- Importar o diálogo gerado para uma DAW (por exemplo, Audacity, Reaper, Logic Pro)
- Adicionar trilha de fundo, efeitos sonoros ou ambience
- Ajustar volume, EQ e compressão para combinar com a sua produção geral
- Sincronizar a faixa de diálogo com vídeo em editores como Premiere Pro, Final Cut ou DaVinci Resolve
Isso torna dialogue-audio um bom bloco de construção em um fluxo maior de áudio ou vídeo: gere a performance central com múltiplos locutores e finalize com as ferramentas que você já usa.
7. Arquivos para revisar no repositório
Após a instalação, você pode inspecionar a definição da skill no repositório inferen-sh/skills para mais contexto:
SKILL.md— Descrição principal, guia rápido e notas de uso para o fluxo de trabalho dialogue-audio
Use esses arquivos como referência ao adaptar a configuração para suas próprias automações ou pipelines de CI.
FAQ
A dialogue-audio é limitada a apenas dois locutores?
Sim. A skill dialogue-audio, via Dia TTS, foi projetada para até dois locutores por geração, usando as tags [S1] e [S2]. Se sua cena tiver mais personagens, você pode:
- Focar a geração em dois por vez, ou
- Dividir o roteiro em vários trechos de diálogo e combiná-los depois na pós-produção.
Eu preciso da inference.sh CLI para usar dialogue-audio?
Sim. A skill dialogue-audio depende da inference.sh CLI (infsh). Você precisa instalá-la, executar infsh login e então chamar infsh app run falai/dia-tts com seus prompts. Sem o infsh, o app Dia TTS não pode ser acessado por esse fluxo de trabalho.
Posso escolher vozes específicas da ElevenLabs para cada locutor?
A documentação do repositório indica que as vozes são atribuídas automaticamente por locutor: [S1] é mapeado para uma voz e [S2] para outra, mantendo a consistência dentro da sessão. A skill não documenta seleção manual de voz por locutor, então considere a escolha de vozes como algo gerenciado pela configuração do Dia TTS / inference.sh, e não por IDs explícitos no seu prompt.
Como controlo a emoção ou a intensidade do diálogo?
A skill dialogue-audio se baseia em design de prompt e pontuação, não em controles explícitos de emoção. Você pode:
- Usar palavras expressivas (por exemplo, "shouted", "whispered", "nervously")
- Ajustar a pontuação (
...,!,?) para influenciar a duração das pausas e a ênfase - Adicionar pequenas indicações entre parênteses, como
(whispering)ou(frustrated), quando necessário
Faça pequenas variações para ouvir como o modelo responde e chegue a um estilo que soe adequado para seu projeto.
A dialogue-audio é adequada para audiolivros longos?
Sim, para trechos com muito diálogo entre dois locutores, dialogue-audio pode funcionar muito bem. Para conteúdos muito longos:
- Divida o roteiro em cenas ou capítulos lógicos
- Gere o áudio em segmentos e organize tudo na sua DAW
- Mantenha tagging e tom consistentes entre os segmentos
Se o seu audiolivro tiver muitos narradores ou estilos de narração mais complexos, talvez você precise de configurações TTS adicionais além dessa skill focada em dois locutores.
Posso automatizar o uso de dialogue-audio em um fluxo maior?
Sim. Como dialogue-audio é construída em torno da infsh CLI, ela funciona bem em ambientes automatizados ou scriptados:
- Integrar comandos
infsh app run falai/dia-ttsem shell scripts - Rodar gerações a partir de pipelines de CI/CD ou jobs agendados
- Combinar com outras skills do repositório
inferen-sh/skillspara pipelines de conteúdo mais amplos
A skill é especialmente útil para desenvolvedores e usuários técnicos que querem geração de áudio reprodutível e guiada por texto.
Quando a dialogue-audio não é a melhor escolha?
Considere outras opções se você:
- Precisa de mais de duas vozes distintas em uma única passada
- Prefere um fluxo de trabalho totalmente em GUI, sem usar linha de comando
- Quer mixagem automática, trilhas ou SFX em vez de apenas geração de diálogo
Nesses casos, combine ferramentas de áudio dedicadas ou serviços TTS multivoz com sua DAW e use dialogue-audio apenas quando uma conversa limpa entre dois locutores for a exigência central.
Onde posso ver a configuração completa?
Abra a seção dialogue-audio no repositório inferen-sh/skills:
- Repo:
https://github.com/inferen-sh/skills - Caminho da skill:
tools/audio/dialogue-audio
Comece pelo SKILL.md para entender o uso recomendado e quaisquer notas atualizadas sobre a integração com Dia TTS e os comandos de CLI.
