dialogue-audio

por inferen-sh

Crea audio de diálogos realistas con varios locutores usando Dia TTS y ElevenLabs a través de la CLI inference.sh. La skill dialogue-audio te ayuda a controlar locutores, emoción, ritmo y flujo de conversación para pódcasts, audiolibros, vídeos explicativos, escenas de personajes y otros contenidos conversacionales.

Estrellas0

Favoritos0

Comentarios0

Agregado27 mar 2026

CategoríaVoice Generation

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Audio Video Workflow Cli

Resumen

Descripción general

Qué hace la skill dialogue-audio

La skill dialogue-audio convierte diálogos escritos en audio con varios locutores de sonido natural usando Dia TTS a través de la CLI inference.sh (infsh), con voces de calidad ElevenLabs gestionadas en segundo plano.

Está pensada para:

Conversaciones entre dos personajes
Diálogos e entrevistas tipo pódcast
Escenas de audiolibro con locutores alternos
Contenidos explicativos con formato anfitrión/invitado
Diálogos de personajes y prototipos de acting de voz

La skill se centra en:

Separación de locutores usando etiquetas simples como [S1] y [S2]
Voces consistentes por locutor en cada sesión
Control de emoción y expresividad a través de la redacción y la puntuación
Ritmo y flujo de la conversación de ida y vuelta
Orientación de postproducción para integrar el audio en tu flujo de trabajo multimedia

Si buscas una forma automatizada de convertir un guion de dos personas en un diálogo pulido desde la línea de comandos, dialogue-audio está diseñada justo para ese caso de uso.

A quién va dirigida esta skill

Esta skill encaja bien si eres:

Un podcaster que quiere redactar o simular conversaciones
Un productor de audio o editor de vídeo que añade pistas de voz a las líneas de tiempo
Una autora o un guionista que crea escenas con mucho diálogo
Una persona desarrolladora o creadora orientada a la automatización que prefiere la CLI y flujos reproducibles

No es la mejor opción si necesitas:

Más de dos locutores distintos en una sola generación
Diseño sonoro complejo, música o mezcla automática
Una interfaz gráfica de tipo apuntar-y-clicar en lugar de una herramienta de línea de comandos

Para esos casos, puede que necesites herramientas adicionales de DAW o servicios TTS multillocutor, y usar dialogue-audio para la pista central de conversación a dos voces.

Requisitos de un vistazo

Para usar dialogue-audio de forma eficaz, necesitarás:

Acceso a la CLI inference.sh (infsh)
Un entorno de terminal o línea de comandos (macOS, Linux o Windows con shell)
Conocimientos básicos para editar prompts de texto y ejecutar comandos en la CLI

Cómo usarla

1. Instalar la skill dialogue-audio

Puedes añadir la skill dialogue-audio a tu entorno Agent usando npx:

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Este comando descarga la configuración de dialogue-audio desde el repositorio inferen-sh/skills y la deja disponible como flujo de trabajo reutilizable.

A continuación, asegúrate de tener instalada la CLI inference.sh (infsh). Sigue las instrucciones oficiales:

CLI install instructions: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Una vez instalada, autentícate:

infsh login

2. Entender el flujo de trabajo principal

En esencia, dialogue-audio usa la app Dia TTS a través de infsh:

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Este comando:

Llama a la app falai/dia-tts
Envía un payload de entrada JSON con un prompt
Usa las etiquetas [S1] y [S2] para marcar los turnos de cada locutor
Devuelve audio de diálogo generado para todo el intercambio

La skill dialogue-audio envuelve este patrón en un flujo de trabajo estructurado, ayudándote a redactar los prompts, gestionar bien a los dos locutores e iterar sobre la expresión y el ritmo.

3. Usar correctamente las etiquetas de locutor

Dia TTS depende de las etiquetas de locutor para saber quién habla:

[S1] — Locutor 1 (voz A asignada automáticamente)
[S2] — Locutor 2 (voz B asignada automáticamente)

Reglas clave:

Empieza siempre cada turno con la etiqueta correspondiente
Las etiquetas deben ir en mayúsculas: [S1], [S2] (no [s1] ni [speaker1])
Máximo de 2 locutores por generación
Cada locutor mantiene una voz consistente durante la sesión

Ejemplo de prompt limpio para dos locutores:

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Moldear emoción, tono y ritmo

La skill dialogue-audio te anima a usar recursos naturales de escritura para influir en el audio generado:

Usa puntuación (comas, puntos suspensivos, signos de exclamación) para marcar pausas y énfasis
Usa frases más cortas para diálogos rápidos y ágiles
Usa frases más largas o lenguaje descriptivo para una locución más calmada y reflexiva
Introduce acotaciones escénicas entre paréntesis con moderación para sugerir emoción, por ejemplo:

[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Prueba pequeños cambios y vuelve a ejecutar el comando para oír cómo varían el tono y el ritmo.

5. Iterar en el flujo de la conversación

Para obtener mejores resultados con dialogue-audio:

Redacta toda la conversación en un editor de texto
Comprueba que todas las líneas estén bien etiquetadas y no haya etiquetas sueltas
Mantén los turnos concisos; los monólogos largos suenan menos conversacionales
Divide escenas complejas en varias generaciones si hace falta y después móntalas en tu editor

Puedes iterar rápido modificando el prompt y volviendo a ejecutar el comando infsh app run falai/dia-tts hasta que el tiempo y la carga emocional encajen con tu proyecto.

6. Postproducción e integración

La salida de Dia TTS es un archivo de audio que puedes llevar a tus herramientas habituales. La skill dialogue-audio se centra en la generación de voz, no en la mezcla completa, pero puedes:

Importar el diálogo generado en un DAW (p. ej., Audacity, Reaper, Logic Pro)
Añadir música de fondo, efectos de sonido o ambiente
Ajustar niveles de volumen, EQ y compresión para encajar con tu producción general
Sincronizar la pista de diálogo con vídeo en editores como Premiere Pro, Final Cut o DaVinci Resolve

Así, dialogue-audio se convierte en un buen bloque de construcción dentro de un flujo de trabajo de audio o vídeo más amplio: genera la interpretación principal a varias voces y luego púlela con tus herramientas de siempre.

7. Archivos que revisar en el repositorio

Tras la instalación, puedes revisar la definición de la skill en el repositorio inferen-sh/skills para más contexto:

SKILL.md — Descripción principal, inicio rápido y notas de uso para el flujo de trabajo dialogue-audio

Úsalos como referencia al adaptar la configuración a tus propias automatizaciones o pipelines de CI.

Preguntas frecuentes

¿dialogue-audio está limitada solo a dos locutores?

Sí. La skill dialogue-audio, a través de Dia TTS, está diseñada para hasta dos locutores por generación, usando las etiquetas [S1] y [S2]. Si tu escena tiene más personajes, puedes:

Centrar la generación en dos a la vez, o
Dividir el guion en varios segmentos de diálogo y combinarlos en postproducción.

¿Necesito la CLI inference.sh para usar dialogue-audio?

Sí. La skill dialogue-audio depende de la CLI inference.sh (infsh). Debes instalarla, ejecutar infsh login y luego llamar a infsh app run falai/dia-tts con tus prompts. Sin infsh, no se puede acceder a la app Dia TTS desde este flujo de trabajo.

¿Puedo elegir voces ElevenLabs específicas para cada locutor?

La documentación del repositorio indica que las voces se asignan automáticamente por locutor: [S1] se vincula a una voz y [S2] a otra, que se mantienen consistentes dentro de la sesión. La skill no documenta una selección manual directa de voz por locutor, así que considera que la elección de voz la gestionan la configuración de Dia TTS / inference.sh en lugar de IDs explícitos en tu prompt.

¿Cómo controlo la emoción o la intensidad del diálogo?

La skill dialogue-audio se basa en el diseño del prompt y la puntuación, más que en controles explícitos de emoción. Puedes:

Usar redacción expresiva (por ejemplo, "shouted", "whispered", "nervously")
Ajustar la puntuación (..., !, ?) para influir en la duración de las pausas y el énfasis
Añadir breves indicaciones entre paréntesis como (whispering) o (frustrated) cuando lo necesites

Prueba variaciones pequeñas para oír cómo responde el modelo y qué estilo encaja mejor con tu proyecto.

¿dialogue-audio es adecuada para audiolibros largos?

Sí, para secciones con mucho diálogo entre dos locutores, dialogue-audio puede funcionar muy bien. Para contenidos muy largos:

Divide el guion en escenas o capítulos lógicos
Genera el audio por segmentos y organízalos en tu DAW
Asegúrate de mantener etiquetas y tono consistentes entre segmentos

Si tu audiolibro tiene muchas voces narradoras o estilos de narración complejos, quizá necesites configuraciones TTS adicionales más allá de esta skill centrada en dos locutores.

¿Puedo automatizar dialogue-audio dentro de un flujo de trabajo más grande?

Sí. Como dialogue-audio se basa en la CLI infsh, funciona muy bien en entornos scriptados o automatizados:

Integra comandos infsh app run falai/dia-tts en scripts de shell
Ejecuta generaciones desde pipelines de CI/CD o tareas programadas
Combínala con otras skills de inferen-sh/skills para pipelines de contenido más amplios

La skill es especialmente útil para perfiles técnicos y desarrolladores que buscan generación de audio reproducible y dirigida por texto.

¿Cuándo no es dialogue-audio la opción adecuada?

Valora otras alternativas si:

Necesitas más de dos voces distintas en una sola pasada
Prefieres un flujo solo con interfaz gráfica sin usar la línea de comandos
Quieres mezcla automática, música o efectos en lugar de solo generación de diálogo

En esos casos, combina herramientas de audio especializadas o servicios TTS multillocutor con tu DAW y recurre a dialogue-audio solo cuando necesites una conversación limpia a dos voces como elemento central.

¿Dónde puedo ver la configuración completa?

Abre la sección de dialogue-audio en el repositorio inferen-sh/skills:

Repo: https://github.com/inferen-sh/skills
Skill path: tools/audio/dialogue-audio

Empieza por SKILL.md para entender el uso previsto y cualquier nota actualizada sobre la integración con Dia TTS y los comandos de la CLI.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

nft-standards

by wshobson

Implementa estándares NFT (ERC-721, ERC-1155) con metadatos, minting e integración con marketplaces. Ideal para contratos NFT, marketplaces y sistemas de activos digitales.

Backend Development

Favorites 0GitHub 0

secrets-management

by wshobson

Implementa una gestión segura de secretos para pipelines CI/CD usando Vault, AWS Secrets Manager, Azure Key Vault o Google Secret Manager. Ideal para manejar credenciales sensibles, automatizar la rotación de secretos y proteger los flujos de despliegue.

Security Audit

Favorites 0GitHub 0

normalize

by pbakaus

Audita y realinea la interfaz de usuario para que coincida con los estándares del sistema de diseño, incluyendo espacios, tokens y patrones. Úsala cuando el usuario mencione consistencia, desviaciones de diseño, estilos desajustados, tokens o quiera que una función vuelva a alinearse con el sistema.

UI Design

Favorites 0GitHub 0

security-requirement-extraction

by wshobson

Deriva requisitos de seguridad a partir de modelos de amenazas y el contexto empresarial. Úsalo para traducir amenazas en requisitos accionables, crear historias de usuario de seguridad o desarrollar casos de prueba de seguridad.

Security Audit

Favorites 0GitHub 0

delight

by pbakaus

La skill delight ayuda a diseñadores y desarrolladores a añadir toques alegres y memorables a las interfaces de usuario, transformando diseños funcionales en experiencias encantadoras. Úsala para introducir acabado, personalidad, animaciones y microinteracciones que hacen que las interfaces destaquen.

UI Design

Favorites 0GitHub 14,1 mil

auth-implementation-patterns

by wshobson

Domina patrones de autenticación y autorización como JWT, OAuth2, gestión de sesiones y RBAC para construir sistemas seguros y escalables de control de acceso. Útil al implementar sistemas de auth, asegurar APIs o depurar problemas de seguridad.

Access Control

Favorites 0GitHub 0

python-error-handling

by wshobson

Patrones de manejo de errores en Python para validación de entradas, jerarquías de excepciones y gestión de fallos parciales. Ideal para desarrolladores backend que construyen aplicaciones Python robustas.

Backend Development

Favorites 0GitHub 32,4 mil

openapi-spec-generation

by wshobson

Genera y mantiene especificaciones OpenAPI 3.1 a partir de código o patrones de diseño. Ideal para documentación de APIs, validación de contratos y flujos de trabajo de generación de SDKs.

API Development

Favorites 0GitHub 0