elevenlabs-voice-isolator
por inferen-shSkill de isolamento de voz da ElevenLabs via CLI para remover ruído de fundo e isolar vocais em áudios usando o inference.sh. Ideal para limpeza de podcasts, entrevistas, vocais de música, gravações ruidosas e fluxos de trabalho de restauração de áudio.
Visão geral
O que é elevenlabs-voice-isolator?
A skill elevenlabs-voice-isolator é uma ferramenta de limpeza de áudio em linha de comando que usa o app ElevenLabs Voice Isolator por meio da CLI inference.sh (infsh). O foco é remover ruído de fundo e isolar voz falada ou vocais a partir de um arquivo de áudio de entrada.
Ela é construída como uma skill reutilizável dentro do repositório inferen-sh/skills, para que você possa chamá-la em ambientes de agentes compatíveis ou diretamente do seu terminal, desde que a CLI infsh esteja configurada.
Principais capacidades
Usando o modelo ElevenLabs voice isolator via infsh, esta skill consegue:
- Remover ruídos ambientes de fundo (som de sala, zumbido, trânsito, multidão)
- Isolar vozes ou vocais em uma gravação ruidosa
- Limpar faixas de podcast e gravações de entrevistas
- Melhorar a inteligibilidade da fala em ambientes difíceis
- Suportar formatos de áudio comuns (WAV, MP3, FLAC, OGG, AAC)
- Processar gravações longas (até 1 hora, 500MB por arquivo conforme indicado na documentação da skill)
Para quem é esta skill?
Use elevenlabs-voice-isolator se você:
- Grava podcasts e quer trilhas de voz mais limpas sem ter que fazer redução de ruído manual
- Capta entrevistas remotas e precisa reduzir o ruído de fundo dos convidados
- Trabalha com demos musicais ou takes de voz e quer isolar melhor a linha vocal
- Mantém acervos de áudio e busca uma restauração básica focada em fala
- Cria agentes de IA ou automações que precisam limpar áudio em tempo real usando uma ferramenta de CLI
Se você já usa ffmpeg ou uma DAW, mas quer uma etapa de isolamento de voz em nível mais alto, acessível pelo terminal ou por um agente, esta skill cobre exatamente essa necessidade.
Quando é uma boa escolha (e quando não é)
Boa escolha quando:
- Seu objetivo principal é isolamento de voz ou limpeza de fala, não mixagem completa de áudio multifaixa.
- Você se sente à vontade para executar comandos de CLI (Bash) e trabalhar com URLs ou arquivos locais.
- Você pode instalar e autenticar a CLI inference.sh (
infsh).
Não é a melhor escolha quando:
- Você precisa de edição pesada, mixagem multifaixa ou cadeias de efeitos dentro de uma DAW com interface gráfica.
- Seu fluxo de trabalho é totalmente offline e você não pode usar a CLI
infshou chamadas a modelos externos. - Você precisa de controle extremamente detalhado, em nível de frame, sobre o processo de DSP, em vez de um isolador orientado a modelo.
Como usar
Pré-requisitos
Antes de usar elevenlabs-voice-isolator, garanta que você tem:
-
CLI inference.sh (
infsh) instalada- O guia rápido da skill faz referência a
infshe inclui links para as instruções de instalação da CLI. - Siga as instruções de instalação mais recentes em:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
- O guia rápido da skill faz referência a
-
Acesso ao app ElevenLabs Voice Isolator via infsh
- A skill chama
elevenlabs/voice-isolatorpor meio deinfsh app run.
- A skill chama
-
Ambiente compatível com Bash
- Os
allowed-toolsda skill incluemBash(infsh *), portanto ela foi pensada para shells Bash e fluxos de trabalho em CLI.
- Os
Instalação básica em um ambiente de skills para agentes
Se você está usando um ambiente que suporta npx skills e o repositório inferen-sh/skills, pode adicionar a skill com:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator
``
Isso torna a skill elevenlabs-voice-isolator disponível junto com outras ferramentas do mesmo repositório. Depois de adicioná-la, seu agente ou ferramenta pode invocar os comandos `infsh` definidos pela skill.
### Fazer login no inference.sh
Antes de rodar qualquer isolamento de voz, autentique a CLI:
```bash
infsh login
Siga as instruções exibidas para concluir o login. Essa etapa é obrigatória para que os comandos infsh app run funcionem.
Executar um comando simples de isolamento de voz
O padrão de uso principal de elevenlabs-voice-isolator via infsh é assim:
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'
Substitua https://noisy-recording.mp3 pela URL do seu próprio arquivo de áudio ruidoso. O app processa a entrada e retorna uma resposta (normalmente em JSON) com referências ao áudio limpo.
Formatos de áudio e limites suportados
De acordo com a documentação da skill, o ElevenLabs voice isolator oferece suporte a:
- WAV – até 500MB, máximo de 1 hora
- MP3 – até 500MB, máximo de 1 hora
- FLAC – até 500MB, máximo de 1 hora
- OGG – até 500MB, máximo de 1 hora
- AAC – até 500MB, máximo de 1 hora
Para maior estabilidade, fique dentro desses tamanhos e durações ao preparar o áudio para o elevenlabs-voice-isolator.
Exemplo: limpar uma gravação de podcast
Este exemplo segue o cenário de início rápido da própria skill para limpeza de podcasts:
# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'
Use esse padrão para qualquer conteúdo falado em que você queira narração ou diálogos mais claros. Hospede o arquivo em algum lugar acessível via HTTPS (ou siga as orientações atuais do infsh para uso de arquivo local, se isso for suportado no seu ambiente).
Exemplo: limpar uma gravação de entrevista
Para melhorar uma entrevista com ruído de sala ou sons de rua, ajuste a URL de entrada:
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'
Você pode integrar esse comando em scripts que limpam automaticamente cada nova gravação de entrevista antes da edição.
Integração com seus próprios tools e agentes
Como elevenlabs-voice-isolator é definida como uma skill em inferen-sh/skills:
- Agentes: Um agente de IA que consegue chamar
Bash(infsh *)pode usar esta skill para limpar áudio como parte de um pipeline (por exemplo, isolamento → transcrição → sumarização). - Pipelines em CLI: Você pode encapsular
infsh app run elevenlabs/voice-isolatorem scripts de shell, fluxos de CI ou ferramentas de processamento em lote. - Pós-produção de áudio: Use como etapa de pré-processamento antes de importar o arquivo limpo para uma DAW ou editor como Audacity, Reaper ou Adobe Audition.
Arquivos e configuração para verificar
Dentro do repositório inferen-sh/skills, abra:
tools/audio/elevenlabs-voice-isolator/SKILL.md
Esse arquivo descreve a skill, sua descrição e exemplos de comandos de uso. Não há uma configuração complexa por usuário exposta no arquivo da skill, mas a CLI e o app podem oferecer opções adicionais documentadas em outras partes do ecossistema inference.sh.
FAQ
O que exatamente elevenlabs-voice-isolator faz com o meu áudio?
A skill elevenlabs-voice-isolator envia seu áudio para o modelo ElevenLabs Voice Isolator via CLI do inference.sh. O modelo se concentra em separar e realçar a voz enquanto reduz o ruído de fundo. O resultado é um áudio em que fala ou vocais ficam mais claros e com menos ruído, adequado para podcasts, entrevistas e conteúdos similares.
Eu preciso da CLI inference.sh para usar elevenlabs-voice-isolator?
Sim. O guia rápido publicado mostra o uso pela CLI inference.sh (infsh). Você precisa instalar e autenticar o infsh antes de rodar os comandos de exemplo ou integrar a skill em um agente.
Quais formatos de áudio posso processar?
Com base na documentação da skill, elevenlabs-voice-isolator suporta:
- WAV, MP3, FLAC, OGG e AAC
- Até 500MB de tamanho de arquivo e 1 hora de duração por arquivo
Se seus arquivos excederem esses limites, corte ou reduza a amostragem antes de processar.
Posso rodar elevenlabs-voice-isolator em arquivos locais em vez de URLs?
Os exemplos em SKILL.md usam URLs HTTPS no campo audio. Se caminhos locais são suportados ou não depende das capacidades e configurações atuais do infsh. Confira a documentação mais recente da CLI inference.sh para saber como referenciar arquivos locais (por exemplo, via upload ou convenções de caminho local) e ajuste seu argumento --input conforme necessário.
elevenlabs-voice-isolator é adequado para produção musical?
Ele pode ajudar a isolar vocais ou limpar gravações de demo ruidosas, mas não é uma suíte completa de produção musical. Use como etapa de pré-processamento ou ferramenta utilitária, e depois finalize a mixagem e masterização detalhadas na sua DAW.
Em que isso é diferente da redução de ruído tradicional em uma DAW?
A redução de ruído tradicional em DAW costuma exigir capturas de ruído, ajustes manuais e monitoramento em tempo real. elevenlabs-voice-isolator é um processo baseado em modelo e em lote, acessado via CLI. Você envia um arquivo de áudio, o modelo faz isolamento e remoção de ruído, e você recebe um output processado. Isso é conveniente para limpeza automatizada ou em larga escala, especialmente quando combinado com agentes ou scripts.
E se eu quiser só um filtro simples de redução de ruído, sem isolamento de voz?
A skill elevenlabs-voice-isolator é focada em isolamento de voz e remoção de ruído de fundo ao mesmo tempo. Se você só precisa de um denoise básico ou de um ajuste de EQ, um filtro local do ffmpeg ou um plugin de DAW pode ser mais simples. Use esta skill quando quiser especificamente separação de voz e clareza de fala aprimorada usando o modelo da ElevenLabs.
Onde posso saber mais ou resolver problemas?
Para obter detalhes mais precisos e atualizados:
- Abra
tools/audio/elevenlabs-voice-isolator/SKILL.mdno repositórioinferen-sh/skills. - Revise o guia geral de instalação e uso do
infshemcli-install.mdno mesmo repositório. - Consulte a documentação do inference.sh e da ElevenLabs para limites específicos de serviço, autenticação e códigos de erro.
Se algo falhar, comece verificando se o infsh login foi bem-sucedido, se a URL do seu áudio é acessível e se o arquivo está dentro dos formatos e limites de tamanho/duração suportados.
