ai-voice-cloning
por inferen-shai-voice-cloning é um skill baseado em inference.sh para geração de voz com IA, text-to-speech e clonagem de voz via CLI. Ele integra modelos ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice para fala natural, narração com múltiplas vozes e transformação de voz em projetos de áudio e vídeo.
Visão geral
O que é o ai-voice-cloning?
ai-voice-cloning é um skill focado em CLI para geração de voz com IA e clonagem de voz, construído sobre a plataforma inference.sh. Ele permite chamar modelos de text-to-speech e transformação de voz a partir da linha de comando, incluindo ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice.
O skill é definido no repositório inferen-sh/skills e foi pensado para ser incorporado em fluxos de agentes que conseguem chamar Bash via infsh (o CLI do inference.sh). O foco está em gerar fala com som natural e transformar gravações de voz existentes, e não em treinamento de modelos ou gestão de datasets.
Principais recursos
- Text-to-speech (TTS) via CLI usando
infsh app run ... - Vários modelos de voz com IA em um só lugar (por exemplo,
elevenlabs/tts,infsh/kokoro-tts) - Clonagem / alteração de voz para gravações existentes via ElevenLabs Voice Changer
- Suporte a muitas vozes e idiomas (via modelos ElevenLabs, conforme a descrição original)
- Narração de longa duração adequada para locuções, audiolivros e podcasts
- Leituras conversacionais e expressivas usando modelos ajustados para fala natural
Como ai-voice-cloning é uma definição de skill e não um app independente, você interage com ele pelo CLI do inference.sh e por quaisquer agentes ou ferramentas que tenham permissão para executar comandos Bash.
Para quem é o ai-voice-cloning?
Este skill é ideal se você:
- Trabalha com áudio ou vídeo e precisa de geração de voz rápida e roteirizada
- Cria agentes de IA, CLIs ou automações que precisam falar ou narrar
- Produz locuções, explicadores, tutoriais ou vídeos de treinamento
- Quer vozes com qualidade ElevenLabs e outros modelos TTS especializados por trás de uma única CLI
- Prefere fluxos de trabalho em linha de comando em vez de interfaces gráficas web
Ele é menos indicado se você:
- Precisa de uma interface totalmente gráfica, sem uso de CLI
- Quer treinar modelos personalizados a partir de datasets de áudio bruto (não coberto por este skill)
- Requer operação no navegador ou no dispositivo, sem chamar o serviço inference.sh
Casos de uso típicos
- Geração de trilhas de narração para vídeos no YouTube ou materiais de marketing
- Criação de audiolivros ou podcasts a partir de roteiros em texto
- Produção de múltiplas vozes de personagem para diálogos e conversas
- Aplicação de voice changing em gravações existentes usando ElevenLabs Voice Changer
- Inclusão de prompts de áudio e vozes de sistema em agentes, bots e ferramentas interativas
Como usar
1. Pré-requisitos e opções de instalação
Para usar o ai-voice-cloning, você precisa de:
- Acesso ao CLI do inference.sh (
infsh) - Conectividade de rede com as APIs do inference.sh
- Um ambiente de shell em que comandos Bash sejam permitidos
Você pode integrar o skill ao seu ambiente de agente usando:
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
Esse comando baixa a definição do skill de inferen-sh/skills e registra para que seu agente possa chamar as ferramentas associadas (principalmente Bash com infsh).
Para uso direto via CLI, fora de um agente, instale o próprio CLI do inference.sh. O SKILL.md do skill aponta para as instruções de instalação do CLI em:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Siga esse documento para instalar o infsh no seu sistema.
2. Fazer login no inference.sh
Depois que o infsh estiver instalado, faça a autenticação:
infsh login
Siga as instruções exibidas para fazer login ou configurar suas credenciais, conforme descrito no guia de instalação do CLI.
3. Início rápido: gerar fala com Kokoro TTS
O SKILL.md traz um exemplo simples com Kokoro TTS. Após fazer login, você pode gerar fala com:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
"voice": "af_sarah"
}'
O que esse comando faz:
- Chama o app
infsh/kokoro-tts - Envia um input em JSON com um
prompt(o texto a ser lido) e uma seleção devoice - Gera fala sintetizada como saída (consulte a documentação do CLI para caminhos de saída ou comportamento de streaming)
Você pode adaptar esse padrão para prompts diferentes e vozes suportadas.
4. Usando modelos diferentes (ElevenLabs, DIA e outros)
O SKILL.md lista os modelos disponíveis em uma tabela de Available Models. Pelo trecho visível, você pode esperar entradas como:
- ElevenLabs TTS – App ID:
elevenlabs/tts - ElevenLabs Voice Changer – App ID:
elevenlabs/voice-changer - Kokoro TTS – App ID:
infsh/kokoro-tts - DIA – App ID começando com
infsh/dia-... - Outros modelos como Chatterbox, Higgs e VibeVoice também são mencionados na descrição do skill.
Para chamar outro app, basta trocar o App ID no seu comando de CLI. Por exemplo, um padrão típico para TTS com ElevenLabs pode ser:
infsh app run elevenlabs/tts --input '{
"text": "This audio was generated using the ai-voice-cloning skill.",
"voice": "some_voice_id"
}'
Use a documentação do repositório e qualquer README específico de cada modelo (se houver) para confirmar o schema exato de input de cada app, já que modelos diferentes podem usar campos como prompt, text ou voice_id.
5. Voice changing / voice cloning com ElevenLabs Voice Changer
A descrição do skill inclui explicitamente o ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) para transformar gravações existentes. Um fluxo típico via CLI vai:
- Referenciar um arquivo de áudio de entrada (sua gravação original)
- Especificar a voz alvo ou configurações
- Gerar um arquivo de áudio transformado como saída
Um padrão genérico seria algo como:
infsh app run elevenlabs/voice-changer --input '{
"audio_url": "https://.../your-input-audio.wav",
"voice": "target_voice_id"
}'
Confira a documentação do app no inference.sh para confirmar os campos exatos e os formatos suportados.
6. Integrando o ai-voice-cloning em agentes
Quando você adiciona o ai-voice-cloning como skill usando npx skills add, uma plataforma de agentes que entenda o formato inferen-sh/skills pode:
- Identificar que Bash (infsh \*) é uma ferramenta permitida
- Usar os exemplos e a descrição do
SKILL.mdcomo referência - Gerar automaticamente comandos
infsh app run ...adequados para criar ou transformar áudio
Para ajustar o comportamento no seu agente:
- Abra o arquivo
SKILL.mdno diretóriotools/audio/ai-voice-cloning. - Revise os exemplos, a lista de modelos disponíveis e eventuais observações sobre casos de uso.
- Adicione seus próprios padrões de prompt, escolhas de voz ou etapas de pós-processamento na configuração ou camada de orquestração do seu agente.
7. Arquivos importantes no repositório
Para entender melhor como o skill é definido e como deve ser usado:
tools/audio/ai-voice-cloning/SKILL.md– Descrição principal, início rápido e lista de modelos- Documentos na raiz como
README.mdecli-install.md– Orientações gerais sobre inference.sh e configuração do CLI
Podem existir também documentos adicionais na pasta tools dando contexto sobre outras ferramentas.
FAQ
O ai-voice-cloning é um app independente ou uma definição de skill?
ai-voice-cloning é uma definição de skill dentro do repositório inferen-sh/skills. Ele descreve como um agente pode usar o CLI do inference.sh (infsh) para geração de voz com IA e clonagem de voz. Você não recebe um aplicativo com interface gráfica; em vez disso, recebe uma forma clara de chamar modelos de TTS e voice changer pela linha de comando ou por fluxos de agentes que conseguem executar Bash.
O que eu preciso instalar para usar o ai-voice-cloning?
Você precisa de:
- O CLI do inference.sh (
infsh) instalado e acessível no seu shell - Autenticação válida no inference.sh (configurada via
infsh login) - Um ambiente que permita comandos Bash (por exemplo, um terminal local ou um runtime de agente que exponha Bash)
Opcionalmente, se for integrar em uma plataforma de agentes que suporta o formato skills, instale o skill com:
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
Quais modelos de voz com IA são suportados?
Pela descrição do skill e pelo SKILL.md, o ai-voice-cloning foi projetado para funcionar com vários modelos disponíveis via inference.sh, incluindo:
- ElevenLabs TTS –
elevenlabs/tts - ElevenLabs Voice Changer –
elevenlabs/voice-changer - Kokoro TTS –
infsh/kokoro-tts - Apps TTS DIA (App IDs começando com
infsh/dia-...) - Modelos adicionais como Chatterbox, Higgs e VibeVoice, mencionados na descrição
Consulte a tabela Available Models no SKILL.md e a documentação do inference.sh para obter a lista atualizada, com parâmetros de cada modelo.
O ai-voice-cloning aguenta narração de longa duração?
Sim. O skill é descrito explicitamente como adequado para narração de longa duração e usos como audiolivros, podcasts e narração de vídeos. Porém, detalhes de tratamento de longos textos (como divisão em partes, tamanho máximo de texto e forma de juntar os trechos) dependem dos limites de cada modelo e do runtime do inference.sh. Se você pretende processar roteiros muito longos, faça testes com trechos menores primeiro e consulte a documentação do modelo.
Em que isso é diferente de usar ElevenLabs ou outros provedores diretamente?
O ai-voice-cloning:
- Usa o CLI do inference.sh como interface unificada
- Permite alternar entre vários modelos de TTS e voice changer com comandos similares
infsh app run ... - Se integra naturalmente em skills de agentes, scripts Bash e fluxos automatizados
Se você já usa a API nativa de um provedor diretamente, o ai-voice-cloning ainda pode ser útil quando você quer:
- Uma única CLI que abstrai vários provedores e modelos
- Integração mais simples com frameworks de agentes que entendem o formato de skills
O ai-voice-cloning suporta áudio em streaming em tempo real?
O trecho do SKILL.md foca em comandos em modo batch (infsh app run ...) e não descreve explicitamente comportamento de streaming em tempo real. Qualquer opção de streaming ou baixa latência depende dos apps específicos no inference.sh, não do wrapper de skill em si. Verifique a documentação do inference.sh para os modelos que pretende usar se o output em tempo real for importante para o seu caso.
Qual é o formato de saída gerado pelo ai-voice-cloning?
Os formatos de saída (por exemplo, wav, mp3) e a forma de entrega (arquivos locais, URLs etc.) são determinados pelos apps do inference.sh, como infsh/kokoro-tts ou elevenlabs/tts. O skill não impõe um formato de áudio específico; ele apenas define como os agentes podem chamar esses modelos. Consulte a documentação de cada app ou execute um comando de teste para ver o comportamento padrão de saída.
Quando o ai-voice-cloning não é uma boa opção?
Talvez você precise de outra solução se:
- Quer um fluxo sem CLI, totalmente baseado em navegador
- Precisa de TTS offline, no próprio dispositivo, sem chamadas a APIs externas
- Sua prioridade é treinar modelos personalizados a partir de grandes datasets, em vez de usar vozes prontas
Nesses casos, procure DAWs de desktop com plugins TTS integrados ou bibliotecas TTS embarcadas. Se o seu foco for geração de voz com IA de forma roteirizada e automatizada via CLI ou agentes, o ai-voice-cloning é um forte candidato.
Onde posso aprender mais sobre configuração e opções avançadas?
Comece por:
tools/audio/ai-voice-cloning/SKILL.mdno repositórioinferen-sh/skills- O documento de instalação do CLI:
cli-install.md, citado emSKILL.md - Quaisquer documentos específicos de modelos linkados no inference.sh para apps como
infsh/kokoro-ttsouelevenlabs/tts
Esses recursos trazem os comandos mais recentes de exemplo, listas de parâmetros e observações de uso que complementam os padrões de início rápido apresentados aqui.
