I

ai-voice-cloning

por inferen-sh

ai-voice-cloning es un skill basado en inference.sh para generación de voz con IA, text-to-speech y clonación de voz desde la CLI. Envuelve modelos de ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs y VibeVoice para locuciones naturales, narración multivoz y transformación de voz para proyectos de audio y video.

Estrellas0
Favoritos0
Comentarios0
Agregado27 mar 2026
CategoríaVoice Generation
Comando de instalación
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
Resumen

Descripción general

¿Qué es ai-voice-cloning?

ai-voice-cloning es un skill para generación y clonación de voz con IA centrado en la CLI, creado sobre la plataforma inference.sh. Te permite invocar modelos de text-to-speech y transformación de voz desde la línea de comandos, incluyendo ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs y VibeVoice.

El skill está definido en el repositorio inferen-sh/skills y está pensado para integrarse en flujos de trabajo de agentes que puedan llamar a Bash mediante infsh (la CLI de inference.sh). Se centra en generar voz natural y transformar grabaciones de voz existentes, en lugar de entrenar modelos o gestionar datasets.

Capacidades principales

  • Text-to-speech (TTS) desde la CLI usando infsh app run ...
  • Varios modelos de voz con IA en un solo lugar (por ejemplo, elevenlabs/tts, infsh/kokoro-tts)
  • Clonación de voz / cambio de voz para grabaciones existentes mediante ElevenLabs Voice Changer
  • Compatibilidad con muchas voces e idiomas (a través de modelos de ElevenLabs, según la descripción upstream)
  • Narración de larga duración adecuada para voiceovers, audiolibros y pódcasts
  • Lecturas conversacionales y expresivas usando modelos ajustados para voz natural

Como ai-voice-cloning es una definición de skill y no una app independiente, interactúas con él a través de la CLI de inference.sh y de cualquier agente o herramienta que pueda ejecutar comandos Bash.

¿Para quién es ai-voice-cloning?

Este skill encaja bien si:

  • Trabajas con audio o video y necesitas generación de voz rápida y guionizada
  • Creas agentes de IA, CLIs o automatizaciones que deban hablar o narrar
  • Produces voiceovers, videos explicativos, tutoriales o videos de formación
  • Quieres voces de calidad ElevenLabs y otros modelos TTS especializados detrás de una única CLI
  • Prefieres flujos de trabajo por línea de comandos en lugar de interfaces web

Es menos adecuado si:

  • Necesitas una interfaz puramente gráfica sin uso de CLI
  • Quieres entrenar modelos personalizados a partir de datasets de audio en bruto (no cubierto por este skill)
  • Requieres funcionamiento en navegador o en dispositivo sin llamar al servicio de inference.sh

Casos de uso habituales

  • Generar pistas de narración para YouTube o videos de marketing
  • Crear voz para audiolibros o pódcasts a partir de guiones de texto
  • Producir múltiples voces de personaje para diálogos y conversaciones
  • Aplicar cambio de voz a grabaciones existentes usando ElevenLabs Voice Changer
  • Añadir prompts de audio y voces de sistema a agentes, bots y herramientas interactivas

Cómo usarlo

1. Requisitos previos y opciones de instalación

Para usar ai-voice-cloning necesitas:

  • Acceso a la CLI de inference.sh (infsh)
  • Conectividad de red a las APIs de inference.sh
  • Un entorno de shell donde se permitan comandos Bash

Puedes integrar el skill en tu entorno de agente usando:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Esto descarga la definición del skill desde inferen-sh/skills y la registra para que tu agente pueda llamar a las herramientas asociadas (en especial Bash con infsh).

Para usarlo directamente desde la CLI fuera de un agente, instala la propia CLI de inference.sh. El SKILL.md del skill enlaza a las instrucciones de instalación de la CLI en:

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Sigue ese documento para instalar infsh en tu sistema.

2. Iniciar sesión en inference.sh

Una vez instalado infsh, autentícate:

infsh login

Sigue las indicaciones para iniciar sesión o configurar tus credenciales según lo descrito en la guía de instalación de la CLI.

3. Inicio rápido: generar voz con Kokoro TTS

El SKILL.md incluye un ejemplo sencillo con Kokoro TTS. Tras iniciar sesión, puedes generar voz con:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Qué hace este comando:

  • Llama a la app infsh/kokoro-tts
  • Envía entrada JSON con un prompt (el texto a leer) y una selección de voice
  • Produce voz sintetizada como salida (consulta la documentación de la CLI para rutas de salida o comportamiento de streaming)

Puedes adaptar este patrón a distintos prompts y voces compatibles.

4. Uso de modelos diferentes (ElevenLabs, DIA y más)

El SKILL.md muestra los modelos disponibles en una tabla de Available Models. Por el fragmento visible, puedes esperar entradas similares a:

  • ElevenLabs TTS – App ID: elevenlabs/tts
  • ElevenLabs Voice Changer – App ID: elevenlabs/voice-changer
  • Kokoro TTS – App ID: infsh/kokoro-tts
  • DIA – App ID que empieza por infsh/dia-...
  • Otros modelos como Chatterbox, Higgs y VibeVoice también se mencionan en la descripción del skill.

Para llamar a otra app, cambia el App ID en tu comando de CLI. Por ejemplo, un patrón típico para TTS con ElevenLabs podría ser:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Utiliza la documentación del repositorio y cualquier README específico de modelo (si existe) para confirmar el esquema de entrada exacto de cada app, ya que los distintos modelos pueden usar campos diferentes como prompt, text o voice_id.

5. Cambio de voz / clonación de voz con ElevenLabs Voice Changer

La descripción del skill incluye explícitamente ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) para transformar grabaciones existentes. Una llamada típica por CLI:

  1. Hace referencia a un archivo de audio de entrada (tu grabación original)
  2. Especifica la voz de destino o los ajustes
  3. Genera un archivo de audio transformado

Un patrón genérico tendrá un aspecto similar a:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Consulta la documentación de la app en inference.sh para confirmar los campos exactos y los formatos admitidos.

6. Integrar ai-voice-cloning en agentes

Cuando añades ai-voice-cloning como skill mediante npx skills add, una plataforma de agentes que entienda el formato inferen-sh/skills puede:

  • Ver que Bash (infsh \*) es una herramienta permitida
  • Usar los ejemplos y la descripción de SKILL.md como referencia
  • Generar automáticamente los comandos infsh app run ... adecuados para crear o transformar audio

Para ajustar el comportamiento en tu agente:

  1. Abre SKILL.md en el directorio tools/audio/ai-voice-cloning.
  2. Revisa los ejemplos, tablas de modelos disponibles y notas sobre casos de uso.
  3. Añade tus propios patrones de prompts, selecciones de voces o pasos de postprocesado en la configuración de tu agente o en tu capa de orquestación.

7. Archivos que conviene revisar en el repositorio

Para entender mejor cómo está definido el skill y cómo debe usarse:

  • tools/audio/ai-voice-cloning/SKILL.md – Descripción principal, inicio rápido y lista de modelos
  • Documentos en la raíz como README.md y cli-install.md – Guía general de inference.sh y de la configuración de la CLI

También puede haber documentación adicional en la carpeta tools que aporte más contexto sobre las herramientas.


Preguntas frecuentes (FAQ)

¿ai-voice-cloning es una app independiente o una definición de skill?

ai-voice-cloning es una definición de skill dentro del repositorio inferen-sh/skills. Describe cómo un agente puede usar la CLI de inference.sh (infsh) para generación y clonación de voz con IA. No ofrece una aplicación con interfaz gráfica; en su lugar, proporciona una forma clara de invocar modelos TTS y de cambio de voz desde la línea de comandos o desde flujos de trabajo de agentes que puedan ejecutar Bash.

¿Qué necesito tener instalado para usar ai-voice-cloning?

Necesitas:

  • La CLI de inference.sh (infsh) instalada y accesible en tu shell
  • Autenticación válida para inference.sh (configurada mediante infsh login)
  • Un entorno que permita comandos Bash (por ejemplo, un terminal local o un runtime de agente que exponga Bash)

Opcionalmente, si lo integras en una plataforma de agentes que admita el formato skills, instala el skill con:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

¿Qué modelos de voz con IA son compatibles?

Según la descripción del skill y SKILL.md, ai-voice-cloning está diseñado para funcionar con varios modelos disponibles vía inference.sh, incluyendo:

  • ElevenLabs TTSelevenlabs/tts
  • ElevenLabs Voice Changerelevenlabs/voice-changer
  • Kokoro TTSinfsh/kokoro-tts
  • Apps TTS de DIA (App IDs que empiezan por infsh/dia-...)
  • Modelos adicionales como Chatterbox, Higgs y VibeVoice mencionados en la descripción

Consulta la tabla Available Models en SKILL.md y la documentación de inference.sh para obtener la lista completa y actualizada y sus parámetros.

¿ai-voice-cloning puede manejar narración de larga duración?

Sí. El skill se describe explícitamente como apto para narración de larga duración y casos como audiolibros, pódcasts y narración de video. Dicho esto, los detalles sobre cómo manejar textos largos (como particionado, longitud máxima de texto y unión de fragmentos) dependen de los límites de cada modelo subyacente y del runtime de inference.sh. Si vas a procesar guiones muy extensos, haz pruebas primero con secciones más cortas y consulta la documentación de cada modelo.

¿En qué se diferencia esto de usar directamente ElevenLabs u otros proveedores?

ai-voice-cloning:

  • Utiliza la CLI de inference.sh como interfaz unificada
  • Te permite cambiar entre múltiples modelos TTS y de cambio de voz con comandos similares infsh app run ...
  • Se integra de forma natural en skills de agentes, scripts Bash y flujos de trabajo automatizados

Si ya utilizas la API nativa de un proveedor directamente, ai-voice-cloning puede seguir siendo útil cuando quieres:

  • Una única CLI que abstraiga varios proveedores y modelos
  • Integración más sencilla con frameworks de agentes que entienden el formato de skills

¿ai-voice-cloning admite audio en streaming en tiempo real?

El fragmento de SKILL.md se centra en comandos de tipo batch (infsh app run ...) y no describe explícitamente comportamiento de streaming en tiempo real. Cualquier opción de streaming o baja latencia depende de las apps específicas en inference.sh, no del propio wrapper del skill. Revisa la documentación de inference.sh para los modelos que quieras usar si el output en tiempo real es importante para tu caso de uso.

¿En qué formato de salida recibo el audio de ai-voice-cloning?

Los formatos de salida (por ejemplo, wav, mp3) y los métodos de entrega (archivos locales, URLs, etc.) los determinan las apps subyacentes de inference.sh como infsh/kokoro-tts o elevenlabs/tts. El skill no impone un formato de audio concreto; simplemente define cómo pueden los agentes llamar a estos modelos. Consulta la documentación de cada app o ejecuta un comando de prueba para ver el comportamiento de salida por defecto.

¿Cuándo no es buena opción usar ai-voice-cloning?

Tal vez prefieras otra solución si:

  • Necesitas un flujo de trabajo sin CLI, totalmente basado en navegador
  • Requieres TTS offline en dispositivo sin llamadas a APIs externas
  • Tu prioridad es entrenar modelos personalizados a partir de grandes datasets en lugar de usar voces predefinidas

En esos casos, busca DAWs de escritorio con plugins TTS integrados o librerías TTS on-device. Si tu foco es la generación de voz con IA de forma guionizada y automatizada mediante CLI o agentes, ai-voice-cloning es un candidato sólido.

¿Dónde puedo aprender más sobre configuración y opciones avanzadas?

Empieza por:

  • tools/audio/ai-voice-cloning/SKILL.md en el repositorio inferen-sh/skills
  • El documento de instalación de la CLI: cli-install.md referenciado en SKILL.md
  • Cualquier documentación específica de modelo enlazada desde inference.sh para apps como infsh/kokoro-tts o elevenlabs/tts

Estos recursos te darán los últimos comandos de ejemplo, listas de parámetros y notas de uso más allá de los patrones de inicio rápido incluidos aquí.

Calificaciones y reseñas

Aún no hay calificaciones
Comparte tu reseña
Inicia sesión para dejar una calificación y un comentario sobre esta skill.
G
0/10000
Reseñas más recientes
Guardando...