elevenlabs-voice-changer

por inferen-sh

Skill de mudança de voz ElevenLabs usando o CLI inference.sh (infsh) para transformar fala gravada em outra voz sintética, preservando o conteúdo e a emoção. Suporta `eleven_multilingual_sts_v2` (70+ idiomas) e `eleven_english_sts_v2` para speech-to-speech, mudança de sotaque e disfarce de voz em criação de conteúdo, dublagem e vozes de personagem.

Estrelas0

Favoritos0

Comentários0

Adicionado27 de mar. de 2026

CategoriaVoice Generation

Comando de instalação

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

Audio Video Marketing Social Media Ai

Visão geral

O que é o elevenlabs-voice-changer?

elevenlabs-voice-changer é uma skill que conecta o voice changer speech-to-speech da ElevenLabs à interface de linha de comando inference.sh (infsh). Ela permite enviar uma gravação de áudio existente e receber de volta a mesma fala em outra voz sintética, preservando o que é dito e como é expressado.

Por baixo dos panos, a skill chama o app voice-changer da ElevenLabs via infsh app run elevenlabs/voice-changer, então você não precisa integrar APIs manualmente. Você descreve o áudio de entrada e a voz de destino, e o serviço retorna o áudio transformado.

Principais recursos

Conversão speech-to-speech – transforme qualquer áudio falado em uma nova voz sem regravar.
Suporte multilíngue (70+ idiomas) – via eleven_multilingual_sts_v2.
Modelo otimizado para inglês – via eleven_english_sts_v2 para resultados em inglês de maior qualidade.
Mudança de sotaque e estilo – altere sotaque, tom ou persona usando as vozes premium da ElevenLabs.
Disfarce de voz e privacidade – anonimiza ou mascara sua voz real em conteúdos públicos.

Para quem é essa skill?

Esta skill é uma boa opção se você:

Cria conteúdo para YouTube, TikTok ou redes sociais e quer trocar ou aprimorar a voz da narração.
Produz podcasts ou locuções e precisa trocar rapidamente idioma, sotaque ou voz.
Trabalha com marketing ou vídeos explicativos de produto e quer múltiplas vozes de marca sem contratar vários locutores.
Constrói personagens de IA ou demos e precisa de vozes consistentes e reutilizáveis.

Ela é menos indicada se você:

Precisa de um fluxo só com interface visual (GUI) e edição em timeline (o foco aqui é CLI).
Exige processamento totalmente offline (depende de inference.sh e ElevenLabs na nuvem).
Quer ferramentas avançadas de engenharia de áudio como EQ, mixagem ou edição multitrilha; o foco aqui é transformação de voz, não recursos completos de uma DAW.

Modelos e opções de voz

A skill elevenlabs-voice-changer expõe os mesmos modelos descritos no repositório:

Multilingual STS v2 – ID do modelo: eleven_multilingual_sts_v2 (padrão, suporta 70+ idiomas).
English STS v2 – ID do modelo: eleven_english_sts_v2 (otimizado para fala em inglês).

Ela pode usar as 22+ vozes premium ElevenLabs também disponíveis nos produtos de TTS, incluindo padrões como:

george – britânico, autoritário (voz padrão na documentação).
aria – americana, conversacional.

Você seleciona essas vozes passando o parâmetro voice ao chamar o app.

Como usar

1. Pré-requisitos e instalação

Antes de usar o elevenlabs-voice-changer, você precisa ter o CLI inference.sh instalado e autenticado.

Instale o CLI inference.sh (infsh)
Siga as instruções oficiais do repositório:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Faça login no inference.sh usando sua conta:
```
infsh login
```
Adicione a skill (Agent Skills Finder / skills registry)
Se estiver usando isto como uma skill dentro da coleção de skills, adicione com:
```
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
```

Depois desses passos, seu ambiente estará pronto para chamar o app de voice changer da ElevenLabs via infsh.

2. Transformação de voz básica

A forma mais rápida de testar o elevenlabs-voice-changer é rodar o exemplo fornecido na documentação da skill:

infsh login

# Transformar voz
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

Neste exemplo:

audio é uma URL apontando para a sua gravação de entrada (por exemplo, um arquivo .mp3 hospedado online).
voice é o ID da voz de destino da ElevenLabs (aria neste caso).

O app processa a gravação e retorna um novo arquivo de áudio com o mesmo conteúdo de fala, mas na voz aria.

3. Escolhendo modelos e idiomas

Por padrão, a skill está configurada para usar:

eleven_multilingual_sts_v2 para ampla cobertura de idiomas (70+ idiomas).

Se seu caso de uso for estritamente em inglês e você quiser um modelo otimizado para inglês, configure a entrada do app ou seu fluxo de trabalho para usar:

eleven_english_sts_v2 para melhor clareza e prosódia em inglês.

O campo exato para selecionar o modelo é tratado dentro da configuração do app ElevenLabs, mas ao escolher modelos, use esses IDs conforme referenciado na documentação da skill.

4. Trabalhando com diferentes vozes e sotaques

Para experimentar diferentes sotaques ou estilos, altere o parâmetro voice no JSON passado em --input.

Exemplos (padrão):

# Britânico, autoritário
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'

# Americano, conversacional
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

Você pode reutilizar o mesmo áudio original em várias execuções com IDs de voice diferentes para testar rapidamente qual voz funciona melhor para o seu projeto.

5. Integração ao seu fluxo de trabalho

Como o elevenlabs-voice-changer roda totalmente via CLI, ele se integra bem a pipelines automatizados ou com scripts:

Processamento em lote – faça loop sobre uma pasta de URLs de áudio ou gravações pré-enviadas e chame infsh app run repetidamente.
Localização de conteúdo – grave uma vez e depois transforme as narrações para diferentes sotaques ou vozes para cada mercado.
Anonimização de voz – pós-processe chamadas gravadas, entrevistas ou envios de usuários antes de publicar.

Se você usa um framework de agentes ou uma camada de orquestração mais ampla, pode chamar essa skill como uma etapa do pipeline sempre que precisar de “conversão de voz” ou “dublagem”.

6. Arquivos para revisar no repositório

Ao abrir a skill no repositório inferen-sh/skills, comece por:

SKILL.md – descrição em alto nível, recursos e comando de quick start que você pode copiar e adaptar.

Outros arquivos comuns no repositório de skills (como AGENTS.md, metadata.json e pastas rules/ ou scripts/ quando presentes em outras ferramentas) mostram como as skills se encaixam em fluxos de trabalho de agentes maiores. No caso do elevenlabs-voice-changer, SKILL.md é a documentação principal.

FAQ

O que exatamente o elevenlabs-voice-changer faz?

elevenlabs-voice-changer usa os modelos speech-to-speech da ElevenLabs, chamados via CLI inference.sh, para converter uma gravação de voz existente em uma voz diferente gerada por IA. Ele mantém as palavras e a emoção do original, mas altera como a voz soa.

Como instalo o elevenlabs-voice-changer?

Você não instala a skill como um app independente. Em vez disso, você:

Instala o CLI infsh usando as instruções em:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Roda infsh login para autenticar.

Opcionalmente, registra a skill na sua configuração de skills com:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

Depois disso, você pode chamar o app de voice changer da ElevenLabs com infsh app run elevenlabs/voice-changer.

Preciso de uma conta ElevenLabs para usar isto?

A skill em si é um wrapper em torno dos modelos da ElevenLabs rodando via inference.sh. Quaisquer requisitos da ElevenLabs (como contas, créditos ou cotas) são tratados pela sua configuração do inference.sh e da própria ElevenLabs. Consulte a documentação do inference.sh e da ElevenLabs para detalhes atuais de acesso e cobrança.

Posso rodar o elevenlabs-voice-changer localmente, sem nuvem?

A documentação do repositório mostra a skill rodando via infsh contra um app ElevenLabs online. Ela não documenta um modo totalmente offline. Você deve considerar que é necessário ter acesso de rede ao inference.sh e ao backend da ElevenLabs.

Quais formatos de áudio posso usar como entrada?

O exemplo usa um arquivo .mp3 servido via HTTP ("https://recording.mp3"). O formato e os limites de tamanho específicos são definidos pelo próprio app ElevenLabs. Para melhores resultados, use formatos de áudio web comuns (como mp3) hospedados em uma URL estável.

Posso usar uma voz personalizada minha?

A descrição da skill foca no conjunto padrão de vozes ElevenLabs (22+ vozes premium), como george e aria. Ela não descreve fluxos de criação de vozes personalizadas. Se você precisa de uma voz sob medida, consulte a documentação da ElevenLabs para ver como vozes customizadas se integram ao app speech-to-speech deles.

Isso é bom para mudança de voz em tempo real?

O repositório mostra o uso baseado em arquivos para speech-to-speech via CLI, em que você fornece a URL de um arquivo gravado e recebe outro arquivo processado. Ele não descreve conversão de voz em tempo real ou em chamadas ao vivo, então trate a ferramenta como um recurso assíncrono, baseado em arquivo, e não como um voice changer ao vivo.

Quando eu não devo usar o elevenlabs-voice-changer?

Considere outras ferramentas se você:

Precisa de uma DAW completa ou editor não linear para mixagem e masterização detalhada.
Exige efeitos de voz ao vivo, com baixa latência, para streaming ou games.
Precisa rodar tudo offline, sem serviços em nuvem.

Para conversão de voz speech-to-speech roteirizada e repetível via CLI, o elevenlabs-voice-changer é uma excelente opção.

Onde posso ver ou modificar a configuração?

Abra a skill no repositório GitHub inferen-sh/skills em:

tools/audio/elevenlabs-voice-changer/

Consulte SKILL.md ali para ver o quick start oficial, modelos e opções de vozes, e adapte os comandos de exemplo ao seu ambiente.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

dialogue-audio

by inferen-sh

Crie diálogos em áudio realistas com múltiplos locutores usando Dia TTS e ElevenLabs via a CLI do inference.sh. A skill dialogue-audio ajuda você a controlar locutores, emoção, ritmo e fluxo de conversa para podcasts, audiolivros, vídeos explicativos, cenas de personagem e outros formatos conversacionais.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Gere músicas originais com IA a partir de prompts em texto usando o CLI inference.sh e ElevenLabs. Controle duração, estilo e clima para criar trilhas de fundo royalty-free, trilhas sonoras, vinhetas, camas para podcasts e áudio para games diretamente pelo terminal.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing permite dublar e traduzir automaticamente áudio ou vídeo para 29 idiomas usando a CLI do inference.sh, preservando as vozes originais dos locutores. Ideal para editores de vídeo, podcasters e equipes de localização que precisam de versões multilíngues rápidas e de alta qualidade de conteúdos já existentes.

Video Editing

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning é um skill baseado em inference.sh para geração de voz com IA, text-to-speech e clonagem de voz via CLI. Ele integra modelos ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice para fala natural, narração com múltiplas vozes e transformação de voz em projetos de áudio e vídeo.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

Texto-para-fala da ElevenLabs via CLI do inference.sh, com mais de 22 vozes premium, suporte multilíngue e modelos rápidos para fluxos de trabalho de geração de voz em produção.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Gere áudios de diálogo refinados com múltiplos locutores usando ElevenLabs via a CLI do inference.sh. Transforme roteiros estruturados em conversas naturais com várias vozes em um único arquivo, ideal para podcasts, audiolivros, explicadores, tutoriais, diálogos de personagens e roteiros de vídeo.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Gere música com IA e músicas completas a partir de prompts de texto usando ElevenLabs Music, Diffrythm e Tencent Song Generation via o CLI inference.sh. Ideal para trilhas de fundo, soundtracks, clipes para redes sociais, podcasts e músicas royalty-free. Suporta geração rápida de faixas, instrumentais e músicas completas com vocais.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Crie podcasts e conteúdos em áudio com IA a partir de texto usando Kokoro TTS, DIA TTS e a CLI inference.sh. Combine múltiplas vozes, adicione trilhas musicais e monte episódios completos para podcasts, audiolivros e newsletters em áudio.

Voice Generation

Favorites 0GitHub 0