dialogue-audio
por inferen-shCrea audio de diálogos realistas con varios locutores usando Dia TTS y ElevenLabs a través de la CLI inference.sh. La skill dialogue-audio te ayuda a controlar locutores, emoción, ritmo y flujo de conversación para pódcasts, audiolibros, vídeos explicativos, escenas de personajes y otros contenidos conversacionales.
Descripción general
Qué hace la skill dialogue-audio
La skill dialogue-audio convierte diálogos escritos en audio con varios locutores de sonido natural usando Dia TTS a través de la CLI inference.sh (infsh), con voces de calidad ElevenLabs gestionadas en segundo plano.
Está pensada para:
- Conversaciones entre dos personajes
- Diálogos e entrevistas tipo pódcast
- Escenas de audiolibro con locutores alternos
- Contenidos explicativos con formato anfitrión/invitado
- Diálogos de personajes y prototipos de acting de voz
La skill se centra en:
- Separación de locutores usando etiquetas simples como
[S1]y[S2] - Voces consistentes por locutor en cada sesión
- Control de emoción y expresividad a través de la redacción y la puntuación
- Ritmo y flujo de la conversación de ida y vuelta
- Orientación de postproducción para integrar el audio en tu flujo de trabajo multimedia
Si buscas una forma automatizada de convertir un guion de dos personas en un diálogo pulido desde la línea de comandos, dialogue-audio está diseñada justo para ese caso de uso.
A quién va dirigida esta skill
Esta skill encaja bien si eres:
- Un podcaster que quiere redactar o simular conversaciones
- Un productor de audio o editor de vídeo que añade pistas de voz a las líneas de tiempo
- Una autora o un guionista que crea escenas con mucho diálogo
- Una persona desarrolladora o creadora orientada a la automatización que prefiere la CLI y flujos reproducibles
No es la mejor opción si necesitas:
- Más de dos locutores distintos en una sola generación
- Diseño sonoro complejo, música o mezcla automática
- Una interfaz gráfica de tipo apuntar-y-clicar en lugar de una herramienta de línea de comandos
Para esos casos, puede que necesites herramientas adicionales de DAW o servicios TTS multillocutor, y usar dialogue-audio para la pista central de conversación a dos voces.
Requisitos de un vistazo
Para usar dialogue-audio de forma eficaz, necesitarás:
- Acceso a la CLI inference.sh (
infsh) - Un entorno de terminal o línea de comandos (macOS, Linux o Windows con shell)
- Conocimientos básicos para editar prompts de texto y ejecutar comandos en la CLI
Cómo usarla
1. Instalar la skill dialogue-audio
Puedes añadir la skill dialogue-audio a tu entorno Agent usando npx:
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
Este comando descarga la configuración de dialogue-audio desde el repositorio inferen-sh/skills y la deja disponible como flujo de trabajo reutilizable.
A continuación, asegúrate de tener instalada la CLI inference.sh (infsh). Sigue las instrucciones oficiales:
- CLI install instructions:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Una vez instalada, autentícate:
infsh login
2. Entender el flujo de trabajo principal
En esencia, dialogue-audio usa la app Dia TTS a través de infsh:
infsh app run falai/dia-tts --input '{
"prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'
Este comando:
- Llama a la app
falai/dia-tts - Envía un payload de entrada JSON con un
prompt - Usa las etiquetas
[S1]y[S2]para marcar los turnos de cada locutor - Devuelve audio de diálogo generado para todo el intercambio
La skill dialogue-audio envuelve este patrón en un flujo de trabajo estructurado, ayudándote a redactar los prompts, gestionar bien a los dos locutores e iterar sobre la expresión y el ritmo.
3. Usar correctamente las etiquetas de locutor
Dia TTS depende de las etiquetas de locutor para saber quién habla:
[S1]— Locutor 1 (voz A asignada automáticamente)[S2]— Locutor 2 (voz B asignada automáticamente)
Reglas clave:
- Empieza siempre cada turno con la etiqueta correspondiente
- Las etiquetas deben ir en mayúsculas:
[S1],[S2](no[s1]ni[speaker1]) - Máximo de 2 locutores por generación
- Cada locutor mantiene una voz consistente durante la sesión
Ejemplo de prompt limpio para dos locutores:
[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.
4. Moldear emoción, tono y ritmo
La skill dialogue-audio te anima a usar recursos naturales de escritura para influir en el audio generado:
- Usa puntuación (comas, puntos suspensivos, signos de exclamación) para marcar pausas y énfasis
- Usa frases más cortas para diálogos rápidos y ágiles
- Usa frases más largas o lenguaje descriptivo para una locución más calmada y reflexiva
- Introduce acotaciones escénicas entre paréntesis con moderación para sugerir emoción, por ejemplo:
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.
Prueba pequeños cambios y vuelve a ejecutar el comando para oír cómo varían el tono y el ritmo.
5. Iterar en el flujo de la conversación
Para obtener mejores resultados con dialogue-audio:
- Redacta toda la conversación en un editor de texto
- Comprueba que todas las líneas estén bien etiquetadas y no haya etiquetas sueltas
- Mantén los turnos concisos; los monólogos largos suenan menos conversacionales
- Divide escenas complejas en varias generaciones si hace falta y después móntalas en tu editor
Puedes iterar rápido modificando el prompt y volviendo a ejecutar el comando infsh app run falai/dia-tts hasta que el tiempo y la carga emocional encajen con tu proyecto.
6. Postproducción e integración
La salida de Dia TTS es un archivo de audio que puedes llevar a tus herramientas habituales. La skill dialogue-audio se centra en la generación de voz, no en la mezcla completa, pero puedes:
- Importar el diálogo generado en un DAW (p. ej., Audacity, Reaper, Logic Pro)
- Añadir música de fondo, efectos de sonido o ambiente
- Ajustar niveles de volumen, EQ y compresión para encajar con tu producción general
- Sincronizar la pista de diálogo con vídeo en editores como Premiere Pro, Final Cut o DaVinci Resolve
Así, dialogue-audio se convierte en un buen bloque de construcción dentro de un flujo de trabajo de audio o vídeo más amplio: genera la interpretación principal a varias voces y luego púlela con tus herramientas de siempre.
7. Archivos que revisar en el repositorio
Tras la instalación, puedes revisar la definición de la skill en el repositorio inferen-sh/skills para más contexto:
SKILL.md— Descripción principal, inicio rápido y notas de uso para el flujo de trabajo dialogue-audio
Úsalos como referencia al adaptar la configuración a tus propias automatizaciones o pipelines de CI.
Preguntas frecuentes
¿dialogue-audio está limitada solo a dos locutores?
Sí. La skill dialogue-audio, a través de Dia TTS, está diseñada para hasta dos locutores por generación, usando las etiquetas [S1] y [S2]. Si tu escena tiene más personajes, puedes:
- Centrar la generación en dos a la vez, o
- Dividir el guion en varios segmentos de diálogo y combinarlos en postproducción.
¿Necesito la CLI inference.sh para usar dialogue-audio?
Sí. La skill dialogue-audio depende de la CLI inference.sh (infsh). Debes instalarla, ejecutar infsh login y luego llamar a infsh app run falai/dia-tts con tus prompts. Sin infsh, no se puede acceder a la app Dia TTS desde este flujo de trabajo.
¿Puedo elegir voces ElevenLabs específicas para cada locutor?
La documentación del repositorio indica que las voces se asignan automáticamente por locutor: [S1] se vincula a una voz y [S2] a otra, que se mantienen consistentes dentro de la sesión. La skill no documenta una selección manual directa de voz por locutor, así que considera que la elección de voz la gestionan la configuración de Dia TTS / inference.sh en lugar de IDs explícitos en tu prompt.
¿Cómo controlo la emoción o la intensidad del diálogo?
La skill dialogue-audio se basa en el diseño del prompt y la puntuación, más que en controles explícitos de emoción. Puedes:
- Usar redacción expresiva (por ejemplo, "shouted", "whispered", "nervously")
- Ajustar la puntuación (
...,!,?) para influir en la duración de las pausas y el énfasis - Añadir breves indicaciones entre paréntesis como
(whispering)o(frustrated)cuando lo necesites
Prueba variaciones pequeñas para oír cómo responde el modelo y qué estilo encaja mejor con tu proyecto.
¿dialogue-audio es adecuada para audiolibros largos?
Sí, para secciones con mucho diálogo entre dos locutores, dialogue-audio puede funcionar muy bien. Para contenidos muy largos:
- Divide el guion en escenas o capítulos lógicos
- Genera el audio por segmentos y organízalos en tu DAW
- Asegúrate de mantener etiquetas y tono consistentes entre segmentos
Si tu audiolibro tiene muchas voces narradoras o estilos de narración complejos, quizá necesites configuraciones TTS adicionales más allá de esta skill centrada en dos locutores.
¿Puedo automatizar dialogue-audio dentro de un flujo de trabajo más grande?
Sí. Como dialogue-audio se basa en la CLI infsh, funciona muy bien en entornos scriptados o automatizados:
- Integra comandos
infsh app run falai/dia-ttsen scripts de shell - Ejecuta generaciones desde pipelines de CI/CD o tareas programadas
- Combínala con otras skills de
inferen-sh/skillspara pipelines de contenido más amplios
La skill es especialmente útil para perfiles técnicos y desarrolladores que buscan generación de audio reproducible y dirigida por texto.
¿Cuándo no es dialogue-audio la opción adecuada?
Valora otras alternativas si:
- Necesitas más de dos voces distintas en una sola pasada
- Prefieres un flujo solo con interfaz gráfica sin usar la línea de comandos
- Quieres mezcla automática, música o efectos en lugar de solo generación de diálogo
En esos casos, combina herramientas de audio especializadas o servicios TTS multillocutor con tu DAW y recurre a dialogue-audio solo cuando necesites una conversación limpia a dos voces como elemento central.
¿Dónde puedo ver la configuración completa?
Abre la sección de dialogue-audio en el repositorio inferen-sh/skills:
- Repo:
https://github.com/inferen-sh/skills - Skill path:
tools/audio/dialogue-audio
Empieza por SKILL.md para entender el uso previsto y cualquier nota actualizada sobre la integración con Dia TTS y los comandos de la CLI.
