I

dialogue-audio

por inferen-sh

Crie diálogos em áudio realistas com múltiplos locutores usando Dia TTS e ElevenLabs via a CLI do inference.sh. A skill dialogue-audio ajuda você a controlar locutores, emoção, ritmo e fluxo de conversa para podcasts, audiolivros, vídeos explicativos, cenas de personagem e outros formatos conversacionais.

Estrelas0
Favoritos0
Comentários0
Adicionado27 de mar. de 2026
CategoriaVoice Generation
Comando de instalação
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
Visão geral

Visão geral

O que a skill dialogue-audio faz

A skill dialogue-audio transforma diálogos escritos em áudio com múltiplos locutores com som natural usando o Dia TTS via a CLI inference.sh (infsh), com vozes em qualidade ElevenLabs nos bastidores.

Ela foi pensada para:

  • Conversas entre dois personagens
  • Diálogos e entrevistas em estilo podcast
  • Cenas de audiolivro com falas alternadas
  • Conteúdo explicativo com formato anfitrião/convidado
  • Protótipos de diálogos de personagem e voice acting

A skill é focada em:

  • Separação de locutores usando tags simples como [S1] e [S2]
  • Vozes consistentes por locutor em uma mesma sessão
  • Controle de emoção e expressividade por meio de escolha de palavras e pontuação
  • Ritmo e fluxo da conversa de pergunta e resposta
  • Orientação de pós-produção para integrar o áudio ao seu fluxo de mídia

Se você quer uma forma automatizada de transformar um roteiro para duas pessoas em um áudio de diálogo refinado direto pelo terminal, dialogue-audio foi feita exatamente para esse uso.

Para quem é essa skill

Essa skill é ideal se você é:

  • Um podcaster que quer rascunhar ou simular conversas
  • Um produtor de áudio ou editor de vídeo adicionando trilhas de voz à timeline
  • Um autor ou roteirista criando cenas com muito diálogo
  • Um desenvolvedor ou criador focado em automação que prefere CLI e fluxos reprodutíveis

Ela não é a melhor escolha se você precisa de:

  • Mais de dois locutores distintos em uma mesma geração
  • Design de som complexo, trilhas, ou mixagem totalmente automática
  • Uma interface gráfica de apontar-e-clicar em vez de uma ferramenta de linha de comando

Para esses cenários, pode ser melhor combinar ferramentas de DAW e serviços TTS multivoz e usar dialogue-audio para o núcleo da conversa com duas vozes.

Requisitos em resumo

Para usar dialogue-audio de forma eficiente, você vai precisar de:

  • Acesso à inference.sh CLI (infsh)
  • Um ambiente de terminal ou linha de comando (macOS, Linux ou Windows com shell)
  • Familiaridade básica com edição de prompts em texto e execução de comandos em CLI

Como usar

1. Instalar a skill dialogue-audio

Você pode adicionar a skill dialogue-audio ao seu ambiente Agent usando npx:

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Esse comando busca a configuração da dialogue-audio no repositório inferen-sh/skills e a disponibiliza como um fluxo de trabalho reutilizável.

Em seguida, garanta que a inference.sh CLI (infsh) esteja instalada. Siga as instruções oficiais:

  • Instruções de instalação da CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Após instalar, faça a autenticação:

infsh login

2. Entender o fluxo principal

No núcleo, dialogue-audio usa o app Dia TTS via infsh:

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Esse comando:

  • Chama o app falai/dia-tts
  • Envia um payload JSON de entrada contendo um prompt
  • Usa tags [S1] e [S2] para marcar as falas de cada locutor
  • Retorna o áudio do diálogo gerado para toda a troca de falas

A skill dialogue-audio envolve esse padrão em um fluxo de trabalho opinativo, ajudando você a estruturar os prompts, tratar dois locutores de forma limpa e iterar na expressividade e no ritmo.

3. Como usar corretamente as tags de locutor

O Dia TTS depende de tags de locutor para saber quem está falando:

  • [S1] — Locutor 1 (voz A atribuída automaticamente)
  • [S2] — Locutor 2 (voz B atribuída automaticamente)

Regras importantes:

  • Sempre inicie cada fala com a tag correspondente
  • As tags devem estar em maiúsculas: [S1], [S2] (não [s1] ou [speaker1])
  • Máximo de 2 locutores por geração
  • Cada locutor mantém uma voz consistente ao longo da sessão

Exemplo de prompt limpo para dois locutores:

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Moldando emoção, tom e ritmo

A skill dialogue-audio incentiva o uso de sinais naturais na escrita para influenciar o áudio gerado:

  • Use pontuação (vírgulas, reticências, exclamações) para definir pausas e ênfase
  • Use frases mais curtas para diálogos rápidos e ágeis
  • Use frases mais longas ou linguagem descritiva para uma entrega mais calma e reflexiva
  • Insira indicações de cena entre parênteses com moderação para sugerir emoção, por exemplo:
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Faça pequenos ajustes e rode o comando novamente para perceber como o tom e o ritmo mudam.

5. Iterando o fluxo da conversa

Para obter resultados melhores com dialogue-audio:

  • Rascunhe a conversa completa em um editor de texto
  • Verifique se todas as falas estão corretamente tagueadas e se não há tags soltas
  • Mantenha as falas enxutas; monólogos muito longos tendem a soar menos conversacionais
  • Divida cenas complexas em múltiplas gerações, se necessário, e depois una tudo no seu editor

Você pode iterar rapidamente ajustando o prompt e executando novamente o comando infsh app run falai/dia-tts até que tempo e emoção estejam alinhados com o seu projeto.

6. Pós-produção e integração

A saída do Dia TTS é um arquivo de áudio que você pode importar para suas ferramentas habituais. A skill dialogue-audio é focada em geração de voz, não em mixagem completa, mas você pode:

  • Importar o diálogo gerado para uma DAW (por exemplo, Audacity, Reaper, Logic Pro)
  • Adicionar trilha de fundo, efeitos sonoros ou ambience
  • Ajustar volume, EQ e compressão para combinar com a sua produção geral
  • Sincronizar a faixa de diálogo com vídeo em editores como Premiere Pro, Final Cut ou DaVinci Resolve

Isso torna dialogue-audio um bom bloco de construção em um fluxo maior de áudio ou vídeo: gere a performance central com múltiplos locutores e finalize com as ferramentas que você já usa.

7. Arquivos para revisar no repositório

Após a instalação, você pode inspecionar a definição da skill no repositório inferen-sh/skills para mais contexto:

  • SKILL.md — Descrição principal, guia rápido e notas de uso para o fluxo de trabalho dialogue-audio

Use esses arquivos como referência ao adaptar a configuração para suas próprias automações ou pipelines de CI.


FAQ

A dialogue-audio é limitada a apenas dois locutores?

Sim. A skill dialogue-audio, via Dia TTS, foi projetada para até dois locutores por geração, usando as tags [S1] e [S2]. Se sua cena tiver mais personagens, você pode:

  • Focar a geração em dois por vez, ou
  • Dividir o roteiro em vários trechos de diálogo e combiná-los depois na pós-produção.

Eu preciso da inference.sh CLI para usar dialogue-audio?

Sim. A skill dialogue-audio depende da inference.sh CLI (infsh). Você precisa instalá-la, executar infsh login e então chamar infsh app run falai/dia-tts com seus prompts. Sem o infsh, o app Dia TTS não pode ser acessado por esse fluxo de trabalho.

Posso escolher vozes específicas da ElevenLabs para cada locutor?

A documentação do repositório indica que as vozes são atribuídas automaticamente por locutor: [S1] é mapeado para uma voz e [S2] para outra, mantendo a consistência dentro da sessão. A skill não documenta seleção manual de voz por locutor, então considere a escolha de vozes como algo gerenciado pela configuração do Dia TTS / inference.sh, e não por IDs explícitos no seu prompt.

A skill dialogue-audio se baseia em design de prompt e pontuação, não em controles explícitos de emoção. Você pode:

  • Usar palavras expressivas (por exemplo, "shouted", "whispered", "nervously")
  • Ajustar a pontuação (..., !, ?) para influenciar a duração das pausas e a ênfase
  • Adicionar pequenas indicações entre parênteses, como (whispering) ou (frustrated), quando necessário

Faça pequenas variações para ouvir como o modelo responde e chegue a um estilo que soe adequado para seu projeto.

A dialogue-audio é adequada para audiolivros longos?

Sim, para trechos com muito diálogo entre dois locutores, dialogue-audio pode funcionar muito bem. Para conteúdos muito longos:

  • Divida o roteiro em cenas ou capítulos lógicos
  • Gere o áudio em segmentos e organize tudo na sua DAW
  • Mantenha tagging e tom consistentes entre os segmentos

Se o seu audiolivro tiver muitos narradores ou estilos de narração mais complexos, talvez você precise de configurações TTS adicionais além dessa skill focada em dois locutores.

Posso automatizar o uso de dialogue-audio em um fluxo maior?

Sim. Como dialogue-audio é construída em torno da infsh CLI, ela funciona bem em ambientes automatizados ou scriptados:

  • Integrar comandos infsh app run falai/dia-tts em shell scripts
  • Rodar gerações a partir de pipelines de CI/CD ou jobs agendados
  • Combinar com outras skills do repositório inferen-sh/skills para pipelines de conteúdo mais amplos

A skill é especialmente útil para desenvolvedores e usuários técnicos que querem geração de áudio reprodutível e guiada por texto.

Quando a dialogue-audio não é a melhor escolha?

Considere outras opções se você:

  • Precisa de mais de duas vozes distintas em uma única passada
  • Prefere um fluxo de trabalho totalmente em GUI, sem usar linha de comando
  • Quer mixagem automática, trilhas ou SFX em vez de apenas geração de diálogo

Nesses casos, combine ferramentas de áudio dedicadas ou serviços TTS multivoz com sua DAW e use dialogue-audio apenas quando uma conversa limpa entre dois locutores for a exigência central.

Onde posso ver a configuração completa?

Abra a seção dialogue-audio no repositório inferen-sh/skills:

  • Repo: https://github.com/inferen-sh/skills
  • Caminho da skill: tools/audio/dialogue-audio

Comece pelo SKILL.md para entender o uso recomendado e quaisquer notas atualizadas sobre a integração com Dia TTS e os comandos de CLI.

Avaliações e comentários

Ainda não há avaliações
Compartilhe sua avaliação
Faça login para deixar uma nota e um comentário sobre esta skill.
G
0/10000
Avaliações mais recentes
Salvando...