dialogue-audio

por inferen-sh

Crie diálogos em áudio realistas com múltiplos locutores usando Dia TTS e ElevenLabs via a CLI do inference.sh. A skill dialogue-audio ajuda você a controlar locutores, emoção, ritmo e fluxo de conversa para podcasts, audiolivros, vídeos explicativos, cenas de personagem e outros formatos conversacionais.

Estrelas0

Favoritos0

Comentários0

Adicionado27 de mar. de 2026

CategoriaVoice Generation

Comando de instalação

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Audio Video Workflow Cli

Visão geral

O que a skill dialogue-audio faz

A skill dialogue-audio transforma diálogos escritos em áudio com múltiplos locutores com som natural usando o Dia TTS via a CLI inference.sh (infsh), com vozes em qualidade ElevenLabs nos bastidores.

Ela foi pensada para:

Conversas entre dois personagens
Diálogos e entrevistas em estilo podcast
Cenas de audiolivro com falas alternadas
Conteúdo explicativo com formato anfitrião/convidado
Protótipos de diálogos de personagem e voice acting

A skill é focada em:

Separação de locutores usando tags simples como [S1] e [S2]
Vozes consistentes por locutor em uma mesma sessão
Controle de emoção e expressividade por meio de escolha de palavras e pontuação
Ritmo e fluxo da conversa de pergunta e resposta
Orientação de pós-produção para integrar o áudio ao seu fluxo de mídia

Se você quer uma forma automatizada de transformar um roteiro para duas pessoas em um áudio de diálogo refinado direto pelo terminal, dialogue-audio foi feita exatamente para esse uso.

Para quem é essa skill

Essa skill é ideal se você é:

Um podcaster que quer rascunhar ou simular conversas
Um produtor de áudio ou editor de vídeo adicionando trilhas de voz à timeline
Um autor ou roteirista criando cenas com muito diálogo
Um desenvolvedor ou criador focado em automação que prefere CLI e fluxos reprodutíveis

Ela não é a melhor escolha se você precisa de:

Mais de dois locutores distintos em uma mesma geração
Design de som complexo, trilhas, ou mixagem totalmente automática
Uma interface gráfica de apontar-e-clicar em vez de uma ferramenta de linha de comando

Para esses cenários, pode ser melhor combinar ferramentas de DAW e serviços TTS multivoz e usar dialogue-audio para o núcleo da conversa com duas vozes.

Requisitos em resumo

Para usar dialogue-audio de forma eficiente, você vai precisar de:

Acesso à inference.sh CLI (infsh)
Um ambiente de terminal ou linha de comando (macOS, Linux ou Windows com shell)
Familiaridade básica com edição de prompts em texto e execução de comandos em CLI

Como usar

1. Instalar a skill dialogue-audio

Você pode adicionar a skill dialogue-audio ao seu ambiente Agent usando npx:

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Esse comando busca a configuração da dialogue-audio no repositório inferen-sh/skills e a disponibiliza como um fluxo de trabalho reutilizável.

Em seguida, garanta que a inference.sh CLI (infsh) esteja instalada. Siga as instruções oficiais:

Instruções de instalação da CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Após instalar, faça a autenticação:

infsh login

2. Entender o fluxo principal

No núcleo, dialogue-audio usa o app Dia TTS via infsh:

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Esse comando:

Chama o app falai/dia-tts
Envia um payload JSON de entrada contendo um prompt
Usa tags [S1] e [S2] para marcar as falas de cada locutor
Retorna o áudio do diálogo gerado para toda a troca de falas

A skill dialogue-audio envolve esse padrão em um fluxo de trabalho opinativo, ajudando você a estruturar os prompts, tratar dois locutores de forma limpa e iterar na expressividade e no ritmo.

3. Como usar corretamente as tags de locutor

O Dia TTS depende de tags de locutor para saber quem está falando:

[S1] — Locutor 1 (voz A atribuída automaticamente)
[S2] — Locutor 2 (voz B atribuída automaticamente)

Regras importantes:

Sempre inicie cada fala com a tag correspondente
As tags devem estar em maiúsculas: [S1], [S2] (não [s1] ou [speaker1])
Máximo de 2 locutores por geração
Cada locutor mantém uma voz consistente ao longo da sessão

Exemplo de prompt limpo para dois locutores:

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Moldando emoção, tom e ritmo

A skill dialogue-audio incentiva o uso de sinais naturais na escrita para influenciar o áudio gerado:

Use pontuação (vírgulas, reticências, exclamações) para definir pausas e ênfase
Use frases mais curtas para diálogos rápidos e ágeis
Use frases mais longas ou linguagem descritiva para uma entrega mais calma e reflexiva
Insira indicações de cena entre parênteses com moderação para sugerir emoção, por exemplo:

[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Faça pequenos ajustes e rode o comando novamente para perceber como o tom e o ritmo mudam.

5. Iterando o fluxo da conversa

Para obter resultados melhores com dialogue-audio:

Rascunhe a conversa completa em um editor de texto
Verifique se todas as falas estão corretamente tagueadas e se não há tags soltas
Mantenha as falas enxutas; monólogos muito longos tendem a soar menos conversacionais
Divida cenas complexas em múltiplas gerações, se necessário, e depois una tudo no seu editor

Você pode iterar rapidamente ajustando o prompt e executando novamente o comando infsh app run falai/dia-tts até que tempo e emoção estejam alinhados com o seu projeto.

6. Pós-produção e integração

A saída do Dia TTS é um arquivo de áudio que você pode importar para suas ferramentas habituais. A skill dialogue-audio é focada em geração de voz, não em mixagem completa, mas você pode:

Importar o diálogo gerado para uma DAW (por exemplo, Audacity, Reaper, Logic Pro)
Adicionar trilha de fundo, efeitos sonoros ou ambience
Ajustar volume, EQ e compressão para combinar com a sua produção geral
Sincronizar a faixa de diálogo com vídeo em editores como Premiere Pro, Final Cut ou DaVinci Resolve

Isso torna dialogue-audio um bom bloco de construção em um fluxo maior de áudio ou vídeo: gere a performance central com múltiplos locutores e finalize com as ferramentas que você já usa.

7. Arquivos para revisar no repositório

Após a instalação, você pode inspecionar a definição da skill no repositório inferen-sh/skills para mais contexto:

SKILL.md — Descrição principal, guia rápido e notas de uso para o fluxo de trabalho dialogue-audio

Use esses arquivos como referência ao adaptar a configuração para suas próprias automações ou pipelines de CI.

FAQ

A dialogue-audio é limitada a apenas dois locutores?

Sim. A skill dialogue-audio, via Dia TTS, foi projetada para até dois locutores por geração, usando as tags [S1] e [S2]. Se sua cena tiver mais personagens, você pode:

Focar a geração em dois por vez, ou
Dividir o roteiro em vários trechos de diálogo e combiná-los depois na pós-produção.

Eu preciso da inference.sh CLI para usar dialogue-audio?

Sim. A skill dialogue-audio depende da inference.sh CLI (infsh). Você precisa instalá-la, executar infsh login e então chamar infsh app run falai/dia-tts com seus prompts. Sem o infsh, o app Dia TTS não pode ser acessado por esse fluxo de trabalho.

Posso escolher vozes específicas da ElevenLabs para cada locutor?

A documentação do repositório indica que as vozes são atribuídas automaticamente por locutor: [S1] é mapeado para uma voz e [S2] para outra, mantendo a consistência dentro da sessão. A skill não documenta seleção manual de voz por locutor, então considere a escolha de vozes como algo gerenciado pela configuração do Dia TTS / inference.sh, e não por IDs explícitos no seu prompt.

Como controlo a emoção ou a intensidade do diálogo?

A skill dialogue-audio se baseia em design de prompt e pontuação, não em controles explícitos de emoção. Você pode:

Usar palavras expressivas (por exemplo, "shouted", "whispered", "nervously")
Ajustar a pontuação (..., !, ?) para influenciar a duração das pausas e a ênfase
Adicionar pequenas indicações entre parênteses, como (whispering) ou (frustrated), quando necessário

Faça pequenas variações para ouvir como o modelo responde e chegue a um estilo que soe adequado para seu projeto.

A dialogue-audio é adequada para audiolivros longos?

Sim, para trechos com muito diálogo entre dois locutores, dialogue-audio pode funcionar muito bem. Para conteúdos muito longos:

Divida o roteiro em cenas ou capítulos lógicos
Gere o áudio em segmentos e organize tudo na sua DAW
Mantenha tagging e tom consistentes entre os segmentos

Se o seu audiolivro tiver muitos narradores ou estilos de narração mais complexos, talvez você precise de configurações TTS adicionais além dessa skill focada em dois locutores.

Posso automatizar o uso de dialogue-audio em um fluxo maior?

Sim. Como dialogue-audio é construída em torno da infsh CLI, ela funciona bem em ambientes automatizados ou scriptados:

Integrar comandos infsh app run falai/dia-tts em shell scripts
Rodar gerações a partir de pipelines de CI/CD ou jobs agendados
Combinar com outras skills do repositório inferen-sh/skills para pipelines de conteúdo mais amplos

A skill é especialmente útil para desenvolvedores e usuários técnicos que querem geração de áudio reprodutível e guiada por texto.

Quando a dialogue-audio não é a melhor escolha?

Considere outras opções se você:

Precisa de mais de duas vozes distintas em uma única passada
Prefere um fluxo de trabalho totalmente em GUI, sem usar linha de comando
Quer mixagem automática, trilhas ou SFX em vez de apenas geração de diálogo

Nesses casos, combine ferramentas de áudio dedicadas ou serviços TTS multivoz com sua DAW e use dialogue-audio apenas quando uma conversa limpa entre dois locutores for a exigência central.

Onde posso ver a configuração completa?

Abra a seção dialogue-audio no repositório inferen-sh/skills:

Repo: https://github.com/inferen-sh/skills
Caminho da skill: tools/audio/dialogue-audio

Comece pelo SKILL.md para entender o uso recomendado e quaisquer notas atualizadas sobre a integração com Dia TTS e os comandos de CLI.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

rag-implementation

by wshobson

Construa sistemas de Retrieval-Augmented Generation (RAG) para aplicações com LLM usando bancos de dados vetoriais e busca semântica. Use quando for implementar IA fundamentada em conhecimento, criar sistemas de perguntas e respostas sobre documentos ou integrar LLMs com bases de conhecimento externas.

RAG Workflows

Favorites 0GitHub 0

optimize

by pbakaus

A skill optimize ajuda você a identificar e resolver problemas de performance na interface, incluindo carregamento lento, renderização travada, problemas de animação, otimização de imagens e redução do tamanho dos bundles. Ideal para desenvolvedores que querem entregar experiências mais rápidas e fluidas aos usuários.

Performance Optimization

Favorites 0GitHub 0

team-communication-protocols

by wshobson

A skill team-communication-protocols oferece fluxos de trabalho estruturados para mensagens em equipes de agentes, incluindo seleção de tipos de mensagem, aprovação de planos, procedimentos de encerramento e melhores práticas. Ideal para equipes que estão estabelecendo normas de comunicação ou solucionando problemas de coordenação.

Project Management

Favorites 0GitHub 32,4 mil

cost-optimization

by wshobson

cost-optimization ajuda organizações a reduzir despesas com infraestrutura em nuvem na AWS, Azure, GCP e OCI, implementando redimensionamento adequado de recursos, padrões de tagging, estratégias de instâncias reservadas e análise de gastos. Ideal para equipes que buscam melhorar a governança de custos em nuvem e otimizar orçamentos operacionais.

Internal Operations

Favorites 0GitHub 0

bolder

by pbakaus

Melhore designs de interface sem graça ou excessivamente seguros adicionando impacto visual e personalidade, mantendo a usabilidade. Ideal para designers que querem tornar seu trabalho mais envolvente e memorável sem perder clareza.

UI Design

Favorites 0GitHub 0

prometheus-configuration

by wshobson

Configure o Prometheus para coleta robusta de métricas, alertas e monitoramento da sua infraestrutura e aplicações. Ideal para equipes que estão implementando soluções de observabilidade e monitoramento.

Monitoring

Favorites 0GitHub 0

fastapi-templates

by wshobson

Crie projetos FastAPI prontos para produção com padrões async, injeção de dependência e tratamento completo de erros. Use ao construir novas aplicações FastAPI ou configurar projetos backend de API.

Backend Development

Favorites 0GitHub 32,4 mil

mtls-configuration

by wshobson

Configure mutual TLS (mTLS) para comunicação zero-trust entre serviços. Use ao implementar redes zero-trust, gerenciamento de certificados ou para proteger comunicação interna entre serviços.

Security Audit

Favorites 0GitHub 0