elevenlabs-tts

por inferen-sh

Texto a voz de ElevenLabs a través de la CLI de inference.sh, con más de 22 voces premium, compatibilidad multilingüe y modelos rápidos para flujos de trabajo de generación de voz en producción.

Estrellas0

Favoritos0

Comentarios0

Agregado27 mar 2026

CategoríaVoice Generation

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-tts

Audio Video Cli

Resumen

Descripción general

¿Qué es elevenlabs-tts?

La skill elevenlabs-tts conecta la API de texto a voz de ElevenLabs con la CLI inference.sh (infsh), ofreciéndote una forma rápida y scriptable de convertir texto en voz de alta calidad. Expone los modelos y opciones de voz de ElevenLabs como una herramienta reutilizable dentro del ecosistema de skills de inferen-sh.

Esta skill se centra en voces premium y naturales, con compatibilidad para 32 idiomas y varios niveles de rendimiento para que puedas elegir entre máxima calidad o latencia ultrabaja.

Capacidades principales

Generación de texto a voz a partir de texto plano
Más de 22 voces premium accesibles desde la CLI
Selección de modelo para distintos equilibrios entre velocidad y calidad:
- eleven_multilingual_v2 – máxima calidad, multilingüe
- eleven_turbo_v2_5 – equilibrio entre velocidad y calidad
- eleven_flash_v2_5 – ultrarrápido, baja latencia
Selección de voz desde la biblioteca de voces de ElevenLabs
Diseñada para CLI y flujos de automatización usando infsh

¿Para quién es elevenlabs-tts?

Esta skill está dirigida a personas que:

Ya usan o se sienten cómodas con una interfaz de línea de comandos
Quieren automatizar o producir en lote locuciones y narraciones
Necesitan voces consistentes y reutilizables en distintos proyectos
Trabajan dentro del ecosistema de inference.sh / inferen-sh skills

Usuarios habituales incluyen:

Editores y creadores de vídeo que necesitan locuciones para YouTube, demos de producto y vídeos explicativos
Podcasters y productores de audio que generan intros, outros y segmentos
Equipos de e-learning y formación que producen narraciones de cursos
Desarrolladores que crean IVR, asistentes o funcionalidades de accesibilidad que requieren voz natural

¿Cuándo encaja bien elevenlabs-tts?

Usa elevenlabs-tts cuando:

Necesitas voces fiables y listas para producción, no solo modelos experimentales
Prefieres ejecutar todo desde la CLI en lugar de una interfaz web
Necesitas scriptar o programar la generación TTS como parte de CI, pipelines o procesos por lotes
Ya usas o estás dispuesto a instalar la CLI de inference.sh (infsh)

No es la mejor opción si:

Solo quieres una interfaz web de apuntar y hacer clic para uso manual
Necesitas edición de audio detallada (corte, mezcla, efectos) dentro de la propia skill — aquí generarás el audio y luego lo editarás en un DAW (por ejemplo, Audacity, Reaper, Premiere)
No puedes usar CLIs externas ni acceso de red saliente en tu entorno

Cómo usarla

Requisitos previos

Antes de usar elevenlabs-tts, asegúrate de tener:

CLI de inference.sh (infsh) instalada
Un login de infsh funcionando y configurado
Acceso a la app ElevenLabs TTS a través de inference.sh

Puedes encontrar las instrucciones de instalación de la CLI en el archivo cli-install.md del repositorio referenciado desde SKILL.md.

Paso 1 – Instalar la skill elevenlabs-tts

Desde un entorno compatible de Agent Skills / inferen-sh, añade la skill:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-tts

Este comando descarga la skill elevenlabs-tts del repositorio inferen-sh/skills y la registra para que tus agentes o flujos de trabajo puedan llamarla.

Paso 2 – Inicia sesión con la CLI de inference.sh

La skill se apoya en la CLI infsh para comunicarse con el backend de ElevenLabs.

infsh login

Sigue las indicaciones para autenticarte. Una vez iniciada la sesión, la CLI puede ejecutar la app ElevenLabs TTS en tu nombre.

Paso 3 – Ejecutar una conversión básica de texto a voz

La forma más rápida de ver elevenlabs-tts en acción es llamando a la app ElevenLabs TTS directamente mediante infsh:

infsh app run elevenlabs/tts --input '{"text": "Hello, welcome to our product demo.", "voice": "aria"}'

En este ejemplo:

Se envía el texto "Hello, welcome to our product demo."
Se usa la voz "aria" (un ID de voz de ejemplo de la biblioteca de voces de ElevenLabs)
Se devuelve el audio de voz generado (por ejemplo, como archivo o flujo, según tu configuración de infsh)

Una vez integrada la skill, tus agentes pueden llamar a esta misma capacidad de forma programática.

Paso 4 – Elegir el modelo adecuado de ElevenLabs

La skill elevenlabs-tts admite varios modelos, cada uno optimizado para un equilibrio específico entre calidad y latencia:

eleven_multilingual_v2
- Ideal para: máxima calidad, contenido de larga duración y compatibilidad con 32 idiomas
- Usos típicos: audiolibros, narraciones de cursos, locuciones de marca
eleven_turbo_v2_5
- Ideal para: un equilibrio sólido entre calidad y velocidad
- Usos típicos: demos de producto, vídeos de marketing, formación interna
eleven_flash_v2_5
- Ideal para: latencia ultrabaja donde la velocidad es crítica
- Usos típicos: chatbots, asistentes, sistemas IVR que deben responder con rapidez

La forma de especificar el modelo puede variar según tu configuración de infsh app run o el wiring del agente. Consulta la documentación de tu toolchain local para saber cómo pasar los IDs de modelo como parámetros cuando aproveches esta skill.

Paso 5 – Integrarla en tus flujos de trabajo

Una vez instalada y probada, puedes:

Conectar elevenlabs-tts a prompts de agentes para convertir automáticamente en voz las respuestas de texto
Usarla en scripts de CLI para generar locuciones en lote a partir de una lista de archivos de texto
Añadirla a pipelines de CI para producir narraciones actualizadas automáticamente cuando cambie la documentación o los guiones

Para más contexto sobre cómo está definida la skill y cualquier lógica auxiliar, abre el siguiente archivo del repositorio:

tools/audio/elevenlabs-tts/SKILL.md

Ese archivo documenta los metadatos de la skill, su descripción y cualquier nota específica sobre las herramientas permitidas (actualmente permite Bash mediante infsh).

Preguntas frecuentes

¿Qué hace exactamente la skill elevenlabs-tts?

La skill elevenlabs-tts ofrece una forma preconfigurada para que agentes y flujos de trabajo en CLI llamen al texto a voz de ElevenLabs a través de la CLI de inference.sh. Está centrada en generar audio de voz natural a partir de texto plano, con acceso a varios modelos y voces.

¿Necesito la CLI de inference.sh para usar elevenlabs-tts?

Sí. El archivo SKILL.md del repositorio menciona explícitamente infsh y la CLI de inference.sh como requisitos. Debes instalar la CLI, ejecutar infsh login y asegurarte de que tenga acceso a la app elevenlabs/tts.

¿Para qué tipo de proyectos es mejor elevenlabs-tts?

Esta skill es especialmente adecuada para:

Locuciones para demos de producto, tutoriales y vídeos de marketing
Audiolibros y narraciones de larga duración, especialmente con eleven_multilingual_v2
Narración para e-learning y formación
Podcasts y trailers (intros, outros, segmentos guionizados)
Sistemas de accesibilidad e IVR que necesitan voces claras y naturales

¿Puedo usar elevenlabs-tts para aplicaciones en tiempo casi real?

Para casos de uso que requieran mayor rapidez, elige eleven_turbo_v2_5 o eleven_flash_v2_5, diseñados con menor latencia que el modelo multilingüe de máxima calidad. El comportamiento realmente "en tiempo real" dependerá de tu red e integración, pero estos modelos están pensados para ofrecer respuestas más rápidas.

¿Cuántas voces admite elevenlabs-tts?

La descripción de la skill en SKILL.md indica más de 22 voces premium. Puedes elegir entre ellas usando el campo voice (por ejemplo, "aria") al llamar a infsh app run elevenlabs/tts o al conectar la skill a tus agentes.

¿elevenlabs-tts admite varios idiomas?

Sí. El modelo eleven_multilingual_v2 está descrito como compatible con 32 idiomas, lo que hace que elevenlabs-tts sea adecuado para narraciones multilingües y productos globales. Otros modelos pueden estar más optimizados para baja latencia, pero siguen ofreciendo una amplia compatibilidad de idiomas a través de ElevenLabs.

¿Dónde puedo ver cómo está configurada la skill?

Consulta el repositorio inferen-sh/skills en:

tools/audio/elevenlabs-tts/SKILL.md

Este archivo contiene la descripción oficial, las herramientas permitidas y enlaces a la información de instalación de la CLI de inference.sh.

¿Puedo editar audio dentro de elevenlabs-tts?

No. La skill elevenlabs-tts está centrada en la generación de audio, no en la edición. Normalmente seguirás estos pasos:

Usar elevenlabs-tts para generar audio de voz limpio a partir de texto.
Importar ese audio en un DAW o editor de vídeo (por ejemplo, Audacity, Reaper, Premiere, Resolve) para cortar, mezclar y añadir efectos.

¿Y si solo quiero una interfaz web y no una CLI?

Si prefieres un flujo de trabajo totalmente basado en la web, es posible que elevenlabs-tts no sea la mejor opción, ya que está construida alrededor de la CLI de inference.sh y el ecosistema de agent skills. En ese caso, plantéate usar el panel web de ElevenLabs u otras herramientas centradas en interfaz gráfica.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

grafana-dashboards

by wshobson

Crea y gestiona dashboards de Grafana en producción para la visualización en tiempo real de métricas de sistemas y aplicaciones. Úsalo para construir dashboards de monitoreo, visualizar métricas o crear interfaces de observabilidad operativa.

Monitoring

Favorites 0GitHub 0

onboard

by pbakaus

Crea y mejora flujos de incorporación, estados vacíos y experiencias de primera ejecución para ayudar a los usuarios a descubrir rápidamente el valor del producto. Ideal para mejorar la activación y guiar a los usuarios primerizos.

UI/UX Design

Favorites 0GitHub 0

normalize

by pbakaus

Audita y realinea las características de la interfaz de usuario para que cumplan con los estándares del sistema de diseño, asegurando un espaciado, tokens y patrones consistentes. Ideal para corregir desviaciones en el diseño y aplicar los principios del sistema de diseño.

UI Design

Favorites 0GitHub 14,1 mil

mobile-android-design

by wshobson

Crea interfaces Android adaptativas y accesibles usando Material Design 3 y Jetpack Compose. Ideal para desarrolladores que diseñan interfaces móviles modernas y patrones de navegación.

UI Design

Favorites 0GitHub 0

cqrs-implementation

by wshobson

Implementa Command Query Responsibility Segregation (CQRS) para separar las operaciones de lectura y escritura en arquitecturas backend escalables. Ideal para optimizar consultas, soportar event sourcing y manejar necesidades complejas de informes.

Backend Development

Favorites 0GitHub 32,4 mil

prompt-engineering-patterns

by wshobson

Domina técnicas avanzadas de ingeniería de prompts para maximizar el rendimiento, la fiabilidad y el control de LLM en producción. Úsalo para optimizar prompts, mejorar salidas de LLM o diseñar plantillas de prompts para producción.

Skill Authoring

Favorites 0GitHub 0

uv-package-manager

by wshobson

Aprende a instalar y usar uv-package-manager para una gestión ultra rápida de dependencias Python, entornos virtuales y flujos backend modernos. Ideal para desarrolladores Python que buscan velocidad y fiabilidad.

Backend Development

Favorites 0GitHub 32,4 mil

k8s-security-policies

by wshobson

Implementa políticas de seguridad de Kubernetes incluyendo NetworkPolicy, RBAC y estándares de seguridad para pods, para clústeres seguros y listos para producción. Ideal para aplicar aislamiento de red y controles de acceso.

Security Audit

Favorites 0GitHub 0