elevenlabs-voice-changer

por inferen-sh

Skill de cambio de voz de ElevenLabs que utiliza la CLI de inference.sh (infsh) para transformar locuciones grabadas en otra voz sintética, manteniendo el contenido y la emoción. Es compatible con `eleven_multilingual_sts_v2` (70+ idiomas) y `eleven_english_sts_v2` para tareas de speech-to-speech, cambio de acento y camuflaje de voz en creación de contenidos, doblaje y voces de personaje.

Estrellas0

Favoritos0

Comentarios0

CategoríaVoice Generation

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

Audio Video Marketing Social Media Ai

Resumen

Descripción general

¿Qué es elevenlabs-voice-changer?

elevenlabs-voice-changer es una skill que conecta el cambiador de voz speech-to-speech de ElevenLabs con la interfaz de línea de comandos de inference.sh (infsh). Te permite enviar una grabación de audio existente y recibir de vuelta el mismo discurso en otra voz sintética, conservando tanto lo que se dice como la forma en que se expresa.

Internamente, la skill invoca la app voice-changer de ElevenLabs mediante infsh app run elevenlabs/voice-changer, de modo que no necesitas conectar APIs manualmente. Solo describes el audio de entrada y la voz de destino, y el servicio devuelve el audio transformado.

Funciones clave

Conversión speech-to-speech: convierte cualquier audio hablado a una voz nueva sin tener que regrabar.
Compatibilidad multilingüe (70+ idiomas): mediante eleven_multilingual_sts_v2.
Modelo optimizado para inglés: mediante eleven_english_sts_v2 para resultados en inglés de mayor calidad.
Cambios de acento y estilo: cambia acentos, tono o personalidad usando las voces premium de ElevenLabs.
Camuflaje de voz y privacidad: anonimiza o enmascara tu voz real para contenidos públicos.

¿Para quién es esta skill?

Esta skill encaja bien si:

Creas contenido para YouTube, TikTok u otras redes sociales y quieres cambiar o mejorar la voz de tu narración.
Produces podcasts o locuciones y necesitas cambios rápidos de idioma, acento o voz.
Trabajas en marketing o vídeos explicativos de producto y quieres varias voces de marca sin contratar a diferentes actores.
Desarrollas personajes de IA o demos y necesitas voces consistentes y reutilizables.

Es menos adecuada si:

Necesitas un flujo de trabajo solo con interfaz gráfica y edición en línea de tiempo (está centrada en CLI).
Requieres procesamiento completamente offline (depende de inference.sh y de ElevenLabs en la nube).
Buscas herramientas avanzadas de ingeniería de audio como EQ, mezcla o edición multipista; esta skill se centra en la transformación de voz, no en funciones completas de un DAW.

Modelos y opciones de voz

La skill elevenlabs-voice-changer expone los mismos modelos descritos en el repositorio:

Multilingual STS v2 – ID de modelo: eleven_multilingual_sts_v2 (por defecto, compatible con 70+ idiomas).
English STS v2 – ID de modelo: eleven_english_sts_v2 (optimizado para voz en inglés).

Puede utilizar las 22+ voces premium de ElevenLabs disponibles también en sus productos de TTS, incluidas voces predeterminadas como:

george – británico, tono autoritario (voz por defecto en la documentación).
aria – estadounidense, tono conversacional.

Seleccionas estas voces pasando el parámetro voice al llamar a la app.

Cómo usarla

1. Requisitos previos e instalación

Antes de usar elevenlabs-voice-changer, debes tener la CLI de inference.sh instalada y autenticada.

Instala la CLI de inference.sh (infsh)
Sigue las instrucciones oficiales del repositorio:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Inicia sesión en inference.sh con tu cuenta:
```
infsh login
```
Añade la skill (Agent Skills Finder / skills registry)
Si la utilizas como skill dentro de la colección de skills, añádela con:
```
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
```

Tras estos pasos, tu entorno estará listo para llamar a la app de cambio de voz de ElevenLabs mediante infsh.

2. Transformación básica de voz

La forma más rápida de probar elevenlabs-voice-changer es ejecutar el ejemplo incluido en la documentación de la skill:

infsh login

# Transformar voz
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

En este ejemplo:

audio es una URL que apunta a tu grabación de entrada (por ejemplo, un archivo .mp3 alojado online).
voice es el ID de la voz de ElevenLabs de destino (aria en este caso).

La app procesa la grabación y devuelve un nuevo archivo de audio con el mismo contenido de voz, pero usando la voz aria.

3. Elegir modelos e idiomas

Por defecto, la skill está configurada para usar:

eleven_multilingual_sts_v2 para una amplia cobertura de idiomas (70+ idiomas).

Si tu caso de uso es exclusivamente en inglés y quieres un modelo optimizado para ese idioma, configura la entrada de la app o tu flujo de trabajo para utilizar:

eleven_english_sts_v2 para una mayor claridad y prosodia en inglés.

El campo concreto para seleccionar el modelo se gestiona dentro de la configuración de la app de ElevenLabs, pero cuando elijas modelos, usa estos IDs tal como se indica en la documentación de la skill.

4. Trabajar con distintas voces y acentos

Para probar diferentes acentos o estilos, cambia el parámetro voice en el JSON de --input.

Ejemplos (patrón):

# Británico, autoritario
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'

# Estadounidense, conversacional
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

Puedes reutilizar el mismo audio original en varias ejecuciones con distintos IDs de voice para audicionar rápidamente voces para tu proyecto.

5. Integración en tu flujo de trabajo

Como elevenlabs-voice-changer se ejecuta íntegramente desde la CLI, se integra bien en pipelines scriptados o automatizados:

Procesamiento por lotes: recorre una carpeta de URLs de audio o grabaciones ya subidas y llama repetidamente a infsh app run.
Localización de contenidos: graba una vez y transforma las narraciones a distintos acentos o voces para diferentes mercados.
Anonimización de voz: posprocesa llamadas grabadas, entrevistas o envíos de usuarios antes de publicarlos.

Si utilizas un framework de agentes u orquestación más amplio, puedes invocar esta skill como un paso más dentro de tu pipeline siempre que necesites “conversión de voz” o “doblaje”.

6. Archivos que revisar en el repositorio

Cuando abras la skill en el repositorio inferen-sh/skills, empieza por:

SKILL.md – descripción de alto nivel, funciones y comando de inicio rápido que puedes copiar y adaptar.

Otros archivos habituales del repositorio de skills (como AGENTS.md, metadata.json y las carpetas rules/ o scripts/ cuando existan en otras herramientas) muestran cómo encajan las skills en flujos de trabajo de agentes más amplios. Para elevenlabs-voice-changer, SKILL.md es la documentación principal.

Preguntas frecuentes (FAQ)

¿Qué hace exactamente elevenlabs-voice-changer?

elevenlabs-voice-changer utiliza los modelos speech-to-speech de ElevenLabs, llamados a través de la CLI de inference.sh, para convertir una grabación de voz existente en otra voz generada por IA. Mantiene el contenido y la emoción del original, pero cambia el timbre y la forma en que suena la voz.

¿Cómo instalo elevenlabs-voice-changer?

No se instala la skill como una app independiente. En lugar de eso:

Instala la CLI infsh siguiendo las instrucciones en:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Ejecuta infsh login para autenticarte.

De forma opcional, registra la skill en tu configuración de skills con:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

Después de eso, puedes llamar a la app de cambio de voz de ElevenLabs con infsh app run elevenlabs/voice-changer.

¿Necesito una cuenta de ElevenLabs para usar esto?

La skill en sí es un envoltorio sobre los modelos de ElevenLabs que se ejecutan vía inference.sh. Cualquier requisito asociado al uso de ElevenLabs (como cuentas, créditos o cuotas) se gestiona a través de tu configuración de inference.sh y ElevenLabs. Consulta la documentación de inference.sh y ElevenLabs para conocer las condiciones actuales de acceso y facturación.

¿Puedo ejecutar elevenlabs-voice-changer localmente sin la nube?

La documentación del repositorio muestra la skill ejecutándose mediante infsh contra una app de ElevenLabs online. No documenta un modo totalmente offline. Debes contar con conexión de red a inference.sh y al backend de ElevenLabs.

¿Qué formatos de audio puedo usar como entrada?

El ejemplo utiliza un archivo .mp3 servido por HTTP ("https://recording.mp3"). El formato y los límites de tamaño concretos los determina la propia app de ElevenLabs. Para obtener mejores resultados, utiliza formatos de audio web habituales (como mp3) alojados en una URL estable.

¿Puedo usar una voz personalizada?

La descripción de la skill se centra en el conjunto estándar de voces de ElevenLabs (22+ voces premium) como george y aria. No describe flujos de entrenamiento de voces personalizadas. Si necesitas una voz a medida, consulta la documentación de ElevenLabs para ver cómo se integran las voces personalizadas con su app de speech-to-speech.

¿Es adecuada para cambio de voz en tiempo real?

El repositorio muestra un uso basado en archivos de speech-to-speech vía CLI, donde proporcionas la URL de un archivo grabado y recibes un archivo procesado. No describe conversión de voz en tiempo real o en llamadas en vivo, así que trátala como una herramienta asíncrona y basada en archivos, no como un cambiador de voz en vivo.

¿Cuándo no debería usar elevenlabs-voice-changer?

Valora otras herramientas si:

Necesitas un DAW completo o un editor no lineal para mezcla y masterización detalladas de audio.
Requieres efectos de voz en vivo y con baja latencia para streaming o gaming.
Debes ejecutar todo offline sin servicios en la nube.

Para una conversión de voz speech-to-speech scriptable, repetible y vía CLI, elevenlabs-voice-changer es una opción muy adecuada.

¿Dónde puedo ver o modificar la configuración?

Abre la skill en el repositorio de GitHub inferen-sh/skills en:

tools/audio/elevenlabs-voice-changer/

Revisa SKILL.md allí para ver el inicio rápido oficial, los modelos y las opciones de voz, y adapta los comandos de ejemplo a tu entorno.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

ai-podcast-creation

by inferen-sh

Crea pódcasts y contenido de voz con IA a partir de texto usando Kokoro TTS, DIA TTS y la CLI de inference.sh. Mezcla varias voces, añade música y arma episodios completos para pódcasts, audiolibros y boletines de audio.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Genera música original con IA a partir de prompts de texto usando la CLI de inference.sh y ElevenLabs. Controla duración, estilo y estado de ánimo para crear música de fondo libre de regalías, bandas sonoras, jingles, camas para podcasts y audio para videojuegos directamente desde tu terminal.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing te permite doblar y traducir automáticamente audio o vídeo a 29 idiomas usando la CLI de inference.sh, preservando las voces originales de los locutores. Es ideal para editores de vídeo, podcasters y equipos de localización que necesitan versiones multilingües rápidas y de alta calidad de contenido ya existente.

Video Editing

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Genera música con IA y canciones completas a partir de prompts de texto usando ElevenLabs Music, Diffrythm y Tencent Song Generation a través de la CLI de inference.sh. Ideal para música de fondo, bandas sonoras, clips para redes sociales, pódcasts y música libre de royalties. Permite generación rápida de canciones, instrumentales y temas completos con voz.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Crea audio de diálogos realistas con varios locutores usando Dia TTS y ElevenLabs a través de la CLI inference.sh. La skill dialogue-audio te ayuda a controlar locutores, emoción, ritmo y flujo de conversación para pódcasts, audiolibros, vídeos explicativos, escenas de personajes y otros contenidos conversacionales.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

Texto a voz de ElevenLabs a través de la CLI de inference.sh, con más de 22 voces premium, compatibilidad multilingüe y modelos rápidos para flujos de trabajo de generación de voz en producción.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Conversión de voz a texto de alta precisión con ElevenLabs a través de la CLI de inference.sh usando los modelos Scribe v1/v2. Permite transcripción, diarización de hablantes, etiquetado de eventos de audio, marcas de tiempo a nivel de palabra, forced alignment y generación de subtítulos para reuniones, pódcast y otros flujos de trabajo de audio.

Audio Editing

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning es un skill basado en inference.sh para generación de voz con IA, text-to-speech y clonación de voz desde la CLI. Envuelve modelos de ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs y VibeVoice para locuciones naturales, narración multivoz y transformación de voz para proyectos de audio y video.

Voice Generation

Favorites 0GitHub 0