elevenlabs-voice-changer
por inferen-shSkill de mudança de voz ElevenLabs usando o CLI inference.sh (infsh) para transformar fala gravada em outra voz sintética, preservando o conteúdo e a emoção. Suporta `eleven_multilingual_sts_v2` (70+ idiomas) e `eleven_english_sts_v2` para speech-to-speech, mudança de sotaque e disfarce de voz em criação de conteúdo, dublagem e vozes de personagem.
Visão geral
O que é o elevenlabs-voice-changer?
elevenlabs-voice-changer é uma skill que conecta o voice changer speech-to-speech da ElevenLabs à interface de linha de comando inference.sh (infsh). Ela permite enviar uma gravação de áudio existente e receber de volta a mesma fala em outra voz sintética, preservando o que é dito e como é expressado.
Por baixo dos panos, a skill chama o app voice-changer da ElevenLabs via infsh app run elevenlabs/voice-changer, então você não precisa integrar APIs manualmente. Você descreve o áudio de entrada e a voz de destino, e o serviço retorna o áudio transformado.
Principais recursos
- Conversão speech-to-speech – transforme qualquer áudio falado em uma nova voz sem regravar.
- Suporte multilíngue (70+ idiomas) – via
eleven_multilingual_sts_v2. - Modelo otimizado para inglês – via
eleven_english_sts_v2para resultados em inglês de maior qualidade. - Mudança de sotaque e estilo – altere sotaque, tom ou persona usando as vozes premium da ElevenLabs.
- Disfarce de voz e privacidade – anonimiza ou mascara sua voz real em conteúdos públicos.
Para quem é essa skill?
Esta skill é uma boa opção se você:
- Cria conteúdo para YouTube, TikTok ou redes sociais e quer trocar ou aprimorar a voz da narração.
- Produz podcasts ou locuções e precisa trocar rapidamente idioma, sotaque ou voz.
- Trabalha com marketing ou vídeos explicativos de produto e quer múltiplas vozes de marca sem contratar vários locutores.
- Constrói personagens de IA ou demos e precisa de vozes consistentes e reutilizáveis.
Ela é menos indicada se você:
- Precisa de um fluxo só com interface visual (GUI) e edição em timeline (o foco aqui é CLI).
- Exige processamento totalmente offline (depende de inference.sh e ElevenLabs na nuvem).
- Quer ferramentas avançadas de engenharia de áudio como EQ, mixagem ou edição multitrilha; o foco aqui é transformação de voz, não recursos completos de uma DAW.
Modelos e opções de voz
A skill elevenlabs-voice-changer expõe os mesmos modelos descritos no repositório:
- Multilingual STS v2 – ID do modelo:
eleven_multilingual_sts_v2(padrão, suporta 70+ idiomas). - English STS v2 – ID do modelo:
eleven_english_sts_v2(otimizado para fala em inglês).
Ela pode usar as 22+ vozes premium ElevenLabs também disponíveis nos produtos de TTS, incluindo padrões como:
george– britânico, autoritário (voz padrão na documentação).aria– americana, conversacional.
Você seleciona essas vozes passando o parâmetro voice ao chamar o app.
Como usar
1. Pré-requisitos e instalação
Antes de usar o elevenlabs-voice-changer, você precisa ter o CLI inference.sh instalado e autenticado.
-
Instale o CLI inference.sh (
infsh)
Siga as instruções oficiais do repositório:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
Faça login no inference.sh usando sua conta:
infsh login -
Adicione a skill (Agent Skills Finder / skills registry)
Se estiver usando isto como uma skill dentro da coleção de skills, adicione com:npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
Depois desses passos, seu ambiente estará pronto para chamar o app de voice changer da ElevenLabs via infsh.
2. Transformação de voz básica
A forma mais rápida de testar o elevenlabs-voice-changer é rodar o exemplo fornecido na documentação da skill:
infsh login
# Transformar voz
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
Neste exemplo:
audioé uma URL apontando para a sua gravação de entrada (por exemplo, um arquivo.mp3hospedado online).voiceé o ID da voz de destino da ElevenLabs (arianeste caso).
O app processa a gravação e retorna um novo arquivo de áudio com o mesmo conteúdo de fala, mas na voz aria.
3. Escolhendo modelos e idiomas
Por padrão, a skill está configurada para usar:
eleven_multilingual_sts_v2para ampla cobertura de idiomas (70+ idiomas).
Se seu caso de uso for estritamente em inglês e você quiser um modelo otimizado para inglês, configure a entrada do app ou seu fluxo de trabalho para usar:
eleven_english_sts_v2para melhor clareza e prosódia em inglês.
O campo exato para selecionar o modelo é tratado dentro da configuração do app ElevenLabs, mas ao escolher modelos, use esses IDs conforme referenciado na documentação da skill.
4. Trabalhando com diferentes vozes e sotaques
Para experimentar diferentes sotaques ou estilos, altere o parâmetro voice no JSON passado em --input.
Exemplos (padrão):
# Britânico, autoritário
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'
# Americano, conversacional
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
Você pode reutilizar o mesmo áudio original em várias execuções com IDs de voice diferentes para testar rapidamente qual voz funciona melhor para o seu projeto.
5. Integração ao seu fluxo de trabalho
Como o elevenlabs-voice-changer roda totalmente via CLI, ele se integra bem a pipelines automatizados ou com scripts:
- Processamento em lote – faça loop sobre uma pasta de URLs de áudio ou gravações pré-enviadas e chame
infsh app runrepetidamente. - Localização de conteúdo – grave uma vez e depois transforme as narrações para diferentes sotaques ou vozes para cada mercado.
- Anonimização de voz – pós-processe chamadas gravadas, entrevistas ou envios de usuários antes de publicar.
Se você usa um framework de agentes ou uma camada de orquestração mais ampla, pode chamar essa skill como uma etapa do pipeline sempre que precisar de “conversão de voz” ou “dublagem”.
6. Arquivos para revisar no repositório
Ao abrir a skill no repositório inferen-sh/skills, comece por:
SKILL.md– descrição em alto nível, recursos e comando de quick start que você pode copiar e adaptar.
Outros arquivos comuns no repositório de skills (como AGENTS.md, metadata.json e pastas rules/ ou scripts/ quando presentes em outras ferramentas) mostram como as skills se encaixam em fluxos de trabalho de agentes maiores. No caso do elevenlabs-voice-changer, SKILL.md é a documentação principal.
FAQ
O que exatamente o elevenlabs-voice-changer faz?
elevenlabs-voice-changer usa os modelos speech-to-speech da ElevenLabs, chamados via CLI inference.sh, para converter uma gravação de voz existente em uma voz diferente gerada por IA. Ele mantém as palavras e a emoção do original, mas altera como a voz soa.
Como instalo o elevenlabs-voice-changer?
Você não instala a skill como um app independente. Em vez disso, você:
-
Instala o CLI
infshusando as instruções em:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
Roda
infsh loginpara autenticar. -
Opcionalmente, registra a skill na sua configuração de skills com:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
Depois disso, você pode chamar o app de voice changer da ElevenLabs com infsh app run elevenlabs/voice-changer.
Preciso de uma conta ElevenLabs para usar isto?
A skill em si é um wrapper em torno dos modelos da ElevenLabs rodando via inference.sh. Quaisquer requisitos da ElevenLabs (como contas, créditos ou cotas) são tratados pela sua configuração do inference.sh e da própria ElevenLabs. Consulte a documentação do inference.sh e da ElevenLabs para detalhes atuais de acesso e cobrança.
Posso rodar o elevenlabs-voice-changer localmente, sem nuvem?
A documentação do repositório mostra a skill rodando via infsh contra um app ElevenLabs online. Ela não documenta um modo totalmente offline. Você deve considerar que é necessário ter acesso de rede ao inference.sh e ao backend da ElevenLabs.
Quais formatos de áudio posso usar como entrada?
O exemplo usa um arquivo .mp3 servido via HTTP ("https://recording.mp3"). O formato e os limites de tamanho específicos são definidos pelo próprio app ElevenLabs. Para melhores resultados, use formatos de áudio web comuns (como mp3) hospedados em uma URL estável.
Posso usar uma voz personalizada minha?
A descrição da skill foca no conjunto padrão de vozes ElevenLabs (22+ vozes premium), como george e aria. Ela não descreve fluxos de criação de vozes personalizadas. Se você precisa de uma voz sob medida, consulte a documentação da ElevenLabs para ver como vozes customizadas se integram ao app speech-to-speech deles.
Isso é bom para mudança de voz em tempo real?
O repositório mostra o uso baseado em arquivos para speech-to-speech via CLI, em que você fornece a URL de um arquivo gravado e recebe outro arquivo processado. Ele não descreve conversão de voz em tempo real ou em chamadas ao vivo, então trate a ferramenta como um recurso assíncrono, baseado em arquivo, e não como um voice changer ao vivo.
Quando eu não devo usar o elevenlabs-voice-changer?
Considere outras ferramentas se você:
- Precisa de uma DAW completa ou editor não linear para mixagem e masterização detalhada.
- Exige efeitos de voz ao vivo, com baixa latência, para streaming ou games.
- Precisa rodar tudo offline, sem serviços em nuvem.
Para conversão de voz speech-to-speech roteirizada e repetível via CLI, o elevenlabs-voice-changer é uma excelente opção.
Onde posso ver ou modificar a configuração?
Abra a skill no repositório GitHub inferen-sh/skills em:
tools/audio/elevenlabs-voice-changer/
Consulte SKILL.md ali para ver o quick start oficial, modelos e opções de vozes, e adapte os comandos de exemplo ao seu ambiente.
