ai-voice-cloning

por inferen-sh

ai-voice-cloning es un skill basado en inference.sh para generación de voz con IA, text-to-speech y clonación de voz desde la CLI. Envuelve modelos de ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs y VibeVoice para locuciones naturales, narración multivoz y transformación de voz para proyectos de audio y video.

Estrellas0

Favoritos0

Comentarios0

Agregado27 mar 2026

CategoríaVoice Generation

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Audio Video Developer Audience Cli Ai

Resumen

Descripción general

¿Qué es ai-voice-cloning?

ai-voice-cloning es un skill para generación y clonación de voz con IA centrado en la CLI, creado sobre la plataforma inference.sh. Te permite invocar modelos de text-to-speech y transformación de voz desde la línea de comandos, incluyendo ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs y VibeVoice.

El skill está definido en el repositorio inferen-sh/skills y está pensado para integrarse en flujos de trabajo de agentes que puedan llamar a Bash mediante infsh (la CLI de inference.sh). Se centra en generar voz natural y transformar grabaciones de voz existentes, en lugar de entrenar modelos o gestionar datasets.

Capacidades principales

Text-to-speech (TTS) desde la CLI usando infsh app run ...
Varios modelos de voz con IA en un solo lugar (por ejemplo, elevenlabs/tts, infsh/kokoro-tts)
Clonación de voz / cambio de voz para grabaciones existentes mediante ElevenLabs Voice Changer
Compatibilidad con muchas voces e idiomas (a través de modelos de ElevenLabs, según la descripción upstream)
Narración de larga duración adecuada para voiceovers, audiolibros y pódcasts
Lecturas conversacionales y expresivas usando modelos ajustados para voz natural

Como ai-voice-cloning es una definición de skill y no una app independiente, interactúas con él a través de la CLI de inference.sh y de cualquier agente o herramienta que pueda ejecutar comandos Bash.

¿Para quién es ai-voice-cloning?

Este skill encaja bien si:

Trabajas con audio o video y necesitas generación de voz rápida y guionizada
Creas agentes de IA, CLIs o automatizaciones que deban hablar o narrar
Produces voiceovers, videos explicativos, tutoriales o videos de formación
Quieres voces de calidad ElevenLabs y otros modelos TTS especializados detrás de una única CLI
Prefieres flujos de trabajo por línea de comandos en lugar de interfaces web

Es menos adecuado si:

Necesitas una interfaz puramente gráfica sin uso de CLI
Quieres entrenar modelos personalizados a partir de datasets de audio en bruto (no cubierto por este skill)
Requieres funcionamiento en navegador o en dispositivo sin llamar al servicio de inference.sh

Casos de uso habituales

Generar pistas de narración para YouTube o videos de marketing
Crear voz para audiolibros o pódcasts a partir de guiones de texto
Producir múltiples voces de personaje para diálogos y conversaciones
Aplicar cambio de voz a grabaciones existentes usando ElevenLabs Voice Changer
Añadir prompts de audio y voces de sistema a agentes, bots y herramientas interactivas

Cómo usarlo

1. Requisitos previos y opciones de instalación

Para usar ai-voice-cloning necesitas:

Acceso a la CLI de inference.sh (infsh)
Conectividad de red a las APIs de inference.sh
Un entorno de shell donde se permitan comandos Bash

Puedes integrar el skill en tu entorno de agente usando:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Esto descarga la definición del skill desde inferen-sh/skills y la registra para que tu agente pueda llamar a las herramientas asociadas (en especial Bash con infsh).

Para usarlo directamente desde la CLI fuera de un agente, instala la propia CLI de inference.sh. El SKILL.md del skill enlaza a las instrucciones de instalación de la CLI en:

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Sigue ese documento para instalar infsh en tu sistema.

2. Iniciar sesión en inference.sh

Una vez instalado infsh, autentícate:

infsh login

Sigue las indicaciones para iniciar sesión o configurar tus credenciales según lo descrito en la guía de instalación de la CLI.

3. Inicio rápido: generar voz con Kokoro TTS

El SKILL.md incluye un ejemplo sencillo con Kokoro TTS. Tras iniciar sesión, puedes generar voz con:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Qué hace este comando:

Llama a la app infsh/kokoro-tts
Envía entrada JSON con un prompt (el texto a leer) y una selección de voice
Produce voz sintetizada como salida (consulta la documentación de la CLI para rutas de salida o comportamiento de streaming)

Puedes adaptar este patrón a distintos prompts y voces compatibles.

4. Uso de modelos diferentes (ElevenLabs, DIA y más)

El SKILL.md muestra los modelos disponibles en una tabla de Available Models. Por el fragmento visible, puedes esperar entradas similares a:

ElevenLabs TTS – App ID: elevenlabs/tts
ElevenLabs Voice Changer – App ID: elevenlabs/voice-changer
Kokoro TTS – App ID: infsh/kokoro-tts
DIA – App ID que empieza por infsh/dia-...
Otros modelos como Chatterbox, Higgs y VibeVoice también se mencionan en la descripción del skill.

Para llamar a otra app, cambia el App ID en tu comando de CLI. Por ejemplo, un patrón típico para TTS con ElevenLabs podría ser:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Utiliza la documentación del repositorio y cualquier README específico de modelo (si existe) para confirmar el esquema de entrada exacto de cada app, ya que los distintos modelos pueden usar campos diferentes como prompt, text o voice_id.

5. Cambio de voz / clonación de voz con ElevenLabs Voice Changer

La descripción del skill incluye explícitamente ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) para transformar grabaciones existentes. Una llamada típica por CLI:

Hace referencia a un archivo de audio de entrada (tu grabación original)
Especifica la voz de destino o los ajustes
Genera un archivo de audio transformado

Un patrón genérico tendrá un aspecto similar a:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Consulta la documentación de la app en inference.sh para confirmar los campos exactos y los formatos admitidos.

6. Integrar ai-voice-cloning en agentes

Cuando añades ai-voice-cloning como skill mediante npx skills add, una plataforma de agentes que entienda el formato inferen-sh/skills puede:

Ver que Bash (infsh \*) es una herramienta permitida
Usar los ejemplos y la descripción de SKILL.md como referencia
Generar automáticamente los comandos infsh app run ... adecuados para crear o transformar audio

Para ajustar el comportamiento en tu agente:

Abre SKILL.md en el directorio tools/audio/ai-voice-cloning.
Revisa los ejemplos, tablas de modelos disponibles y notas sobre casos de uso.
Añade tus propios patrones de prompts, selecciones de voces o pasos de postprocesado en la configuración de tu agente o en tu capa de orquestación.

7. Archivos que conviene revisar en el repositorio

Para entender mejor cómo está definido el skill y cómo debe usarse:

tools/audio/ai-voice-cloning/SKILL.md – Descripción principal, inicio rápido y lista de modelos
Documentos en la raíz como README.md y cli-install.md – Guía general de inference.sh y de la configuración de la CLI

También puede haber documentación adicional en la carpeta tools que aporte más contexto sobre las herramientas.

Preguntas frecuentes (FAQ)

¿ai-voice-cloning es una app independiente o una definición de skill?

ai-voice-cloning es una definición de skill dentro del repositorio inferen-sh/skills. Describe cómo un agente puede usar la CLI de inference.sh (infsh) para generación y clonación de voz con IA. No ofrece una aplicación con interfaz gráfica; en su lugar, proporciona una forma clara de invocar modelos TTS y de cambio de voz desde la línea de comandos o desde flujos de trabajo de agentes que puedan ejecutar Bash.

¿Qué necesito tener instalado para usar ai-voice-cloning?

Necesitas:

La CLI de inference.sh (infsh) instalada y accesible en tu shell
Autenticación válida para inference.sh (configurada mediante infsh login)
Un entorno que permita comandos Bash (por ejemplo, un terminal local o un runtime de agente que exponga Bash)

Opcionalmente, si lo integras en una plataforma de agentes que admita el formato skills, instala el skill con:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

¿Qué modelos de voz con IA son compatibles?

Según la descripción del skill y SKILL.md, ai-voice-cloning está diseñado para funcionar con varios modelos disponibles vía inference.sh, incluyendo:

ElevenLabs TTS – elevenlabs/tts
ElevenLabs Voice Changer – elevenlabs/voice-changer
Kokoro TTS – infsh/kokoro-tts
Apps TTS de DIA (App IDs que empiezan por infsh/dia-...)
Modelos adicionales como Chatterbox, Higgs y VibeVoice mencionados en la descripción

Consulta la tabla Available Models en SKILL.md y la documentación de inference.sh para obtener la lista completa y actualizada y sus parámetros.

¿ai-voice-cloning puede manejar narración de larga duración?

Sí. El skill se describe explícitamente como apto para narración de larga duración y casos como audiolibros, pódcasts y narración de video. Dicho esto, los detalles sobre cómo manejar textos largos (como particionado, longitud máxima de texto y unión de fragmentos) dependen de los límites de cada modelo subyacente y del runtime de inference.sh. Si vas a procesar guiones muy extensos, haz pruebas primero con secciones más cortas y consulta la documentación de cada modelo.

¿En qué se diferencia esto de usar directamente ElevenLabs u otros proveedores?

ai-voice-cloning:

Utiliza la CLI de inference.sh como interfaz unificada
Te permite cambiar entre múltiples modelos TTS y de cambio de voz con comandos similares infsh app run ...
Se integra de forma natural en skills de agentes, scripts Bash y flujos de trabajo automatizados

Si ya utilizas la API nativa de un proveedor directamente, ai-voice-cloning puede seguir siendo útil cuando quieres:

Una única CLI que abstraiga varios proveedores y modelos
Integración más sencilla con frameworks de agentes que entienden el formato de skills

¿ai-voice-cloning admite audio en streaming en tiempo real?

El fragmento de SKILL.md se centra en comandos de tipo batch (infsh app run ...) y no describe explícitamente comportamiento de streaming en tiempo real. Cualquier opción de streaming o baja latencia depende de las apps específicas en inference.sh, no del propio wrapper del skill. Revisa la documentación de inference.sh para los modelos que quieras usar si el output en tiempo real es importante para tu caso de uso.

¿En qué formato de salida recibo el audio de ai-voice-cloning?

Los formatos de salida (por ejemplo, wav, mp3) y los métodos de entrega (archivos locales, URLs, etc.) los determinan las apps subyacentes de inference.sh como infsh/kokoro-tts o elevenlabs/tts. El skill no impone un formato de audio concreto; simplemente define cómo pueden los agentes llamar a estos modelos. Consulta la documentación de cada app o ejecuta un comando de prueba para ver el comportamiento de salida por defecto.

¿Cuándo no es buena opción usar ai-voice-cloning?

Tal vez prefieras otra solución si:

Necesitas un flujo de trabajo sin CLI, totalmente basado en navegador
Requieres TTS offline en dispositivo sin llamadas a APIs externas
Tu prioridad es entrenar modelos personalizados a partir de grandes datasets en lugar de usar voces predefinidas

En esos casos, busca DAWs de escritorio con plugins TTS integrados o librerías TTS on-device. Si tu foco es la generación de voz con IA de forma guionizada y automatizada mediante CLI o agentes, ai-voice-cloning es un candidato sólido.

¿Dónde puedo aprender más sobre configuración y opciones avanzadas?

Empieza por:

tools/audio/ai-voice-cloning/SKILL.md en el repositorio inferen-sh/skills
El documento de instalación de la CLI: cli-install.md referenciado en SKILL.md
Cualquier documentación específica de modelo enlazada desde inference.sh para apps como infsh/kokoro-tts o elevenlabs/tts

Estos recursos te darán los últimos comandos de ejemplo, listas de parámetros y notas de uso más allá de los patrones de inicio rápido incluidos aquí.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

ai-music-generation

by inferen-sh

Genera música con IA y canciones completas a partir de prompts de texto usando ElevenLabs Music, Diffrythm y Tencent Song Generation a través de la CLI de inference.sh. Ideal para música de fondo, bandas sonoras, clips para redes sociales, pódcasts y música libre de royalties. Permite generación rápida de canciones, instrumentales y temas completos con voz.

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

Skill de cambio de voz de ElevenLabs que utiliza la CLI de inference.sh (infsh) para transformar locuciones grabadas en otra voz sintética, manteniendo el contenido y la emoción. Es compatible con `eleven_multilingual_sts_v2` (70+ idiomas) y `eleven_english_sts_v2` para tareas de speech-to-speech, cambio de acento y camuflaje de voz en creación de contenidos, doblaje y voces de personaje.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Genera música original con IA a partir de prompts de texto usando la CLI de inference.sh y ElevenLabs. Controla duración, estilo y estado de ánimo para crear música de fondo libre de regalías, bandas sonoras, jingles, camas para podcasts y audio para videojuegos directamente desde tu terminal.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing te permite doblar y traducir automáticamente audio o vídeo a 29 idiomas usando la CLI de inference.sh, preservando las voces originales de los locutores. Es ideal para editores de vídeo, podcasters y equipos de localización que necesitan versiones multilingües rápidas y de alta calidad de contenido ya existente.

Video Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Crea audio de diálogos realistas con varios locutores usando Dia TTS y ElevenLabs a través de la CLI inference.sh. La skill dialogue-audio te ayuda a controlar locutores, emoción, ritmo y flujo de conversación para pódcasts, audiolibros, vídeos explicativos, escenas de personajes y otros contenidos conversacionales.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Conversión de voz a texto de alta precisión con ElevenLabs a través de la CLI de inference.sh usando los modelos Scribe v1/v2. Permite transcripción, diarización de hablantes, etiquetado de eventos de audio, marcas de tiempo a nivel de palabra, forced alignment y generación de subtítulos para reuniones, pódcast y otros flujos de trabajo de audio.

Audio Editing

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Crea pódcasts y contenido de voz con IA a partir de texto usando Kokoro TTS, DIA TTS y la CLI de inference.sh. Mezcla varias voces, añade música y arma episodios completos para pódcasts, audiolibros y boletines de audio.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Genera audio de diálogos pulidos con múltiples voces usando ElevenLabs a través de la CLI de inference.sh. Convierte guiones estructurados en conversaciones naturales con varias voces en un solo archivo para pódcasts, audiolibros, vídeos explicativos, tutoriales, diálogos de personajes y guiones de vídeo.

Voice Generation

Favorites 0GitHub 0