ai-voice-cloning

por inferen-sh

ai-voice-cloning é um skill baseado em inference.sh para geração de voz com IA, text-to-speech e clonagem de voz via CLI. Ele integra modelos ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice para fala natural, narração com múltiplas vozes e transformação de voz em projetos de áudio e vídeo.

Estrelas0

Favoritos0

Comentários0

Adicionado27 de mar. de 2026

CategoriaVoice Generation

Comando de instalação

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Audio Video Developer Audience Cli Ai

Visão geral

O que é o ai-voice-cloning?

ai-voice-cloning é um skill focado em CLI para geração de voz com IA e clonagem de voz, construído sobre a plataforma inference.sh. Ele permite chamar modelos de text-to-speech e transformação de voz a partir da linha de comando, incluindo ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice.

O skill é definido no repositório inferen-sh/skills e foi pensado para ser incorporado em fluxos de agentes que conseguem chamar Bash via infsh (o CLI do inference.sh). O foco está em gerar fala com som natural e transformar gravações de voz existentes, e não em treinamento de modelos ou gestão de datasets.

Principais recursos

Text-to-speech (TTS) via CLI usando infsh app run ...
Vários modelos de voz com IA em um só lugar (por exemplo, elevenlabs/tts, infsh/kokoro-tts)
Clonagem / alteração de voz para gravações existentes via ElevenLabs Voice Changer
Suporte a muitas vozes e idiomas (via modelos ElevenLabs, conforme a descrição original)
Narração de longa duração adequada para locuções, audiolivros e podcasts
Leituras conversacionais e expressivas usando modelos ajustados para fala natural

Como ai-voice-cloning é uma definição de skill e não um app independente, você interage com ele pelo CLI do inference.sh e por quaisquer agentes ou ferramentas que tenham permissão para executar comandos Bash.

Para quem é o ai-voice-cloning?

Este skill é ideal se você:

Trabalha com áudio ou vídeo e precisa de geração de voz rápida e roteirizada
Cria agentes de IA, CLIs ou automações que precisam falar ou narrar
Produz locuções, explicadores, tutoriais ou vídeos de treinamento
Quer vozes com qualidade ElevenLabs e outros modelos TTS especializados por trás de uma única CLI
Prefere fluxos de trabalho em linha de comando em vez de interfaces gráficas web

Ele é menos indicado se você:

Precisa de uma interface totalmente gráfica, sem uso de CLI
Quer treinar modelos personalizados a partir de datasets de áudio bruto (não coberto por este skill)
Requer operação no navegador ou no dispositivo, sem chamar o serviço inference.sh

Casos de uso típicos

Geração de trilhas de narração para vídeos no YouTube ou materiais de marketing
Criação de audiolivros ou podcasts a partir de roteiros em texto
Produção de múltiplas vozes de personagem para diálogos e conversas
Aplicação de voice changing em gravações existentes usando ElevenLabs Voice Changer
Inclusão de prompts de áudio e vozes de sistema em agentes, bots e ferramentas interativas

Como usar

1. Pré-requisitos e opções de instalação

Para usar o ai-voice-cloning, você precisa de:

Acesso ao CLI do inference.sh (infsh)
Conectividade de rede com as APIs do inference.sh
Um ambiente de shell em que comandos Bash sejam permitidos

Você pode integrar o skill ao seu ambiente de agente usando:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Esse comando baixa a definição do skill de inferen-sh/skills e registra para que seu agente possa chamar as ferramentas associadas (principalmente Bash com infsh).

Para uso direto via CLI, fora de um agente, instale o próprio CLI do inference.sh. O SKILL.md do skill aponta para as instruções de instalação do CLI em:

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Siga esse documento para instalar o infsh no seu sistema.

Depois que o infsh estiver instalado, faça a autenticação:

infsh login

Siga as instruções exibidas para fazer login ou configurar suas credenciais, conforme descrito no guia de instalação do CLI.

3. Início rápido: gerar fala com Kokoro TTS

O SKILL.md traz um exemplo simples com Kokoro TTS. Após fazer login, você pode gerar fala com:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

O que esse comando faz:

Chama o app infsh/kokoro-tts
Envia um input em JSON com um prompt (o texto a ser lido) e uma seleção de voice
Gera fala sintetizada como saída (consulte a documentação do CLI para caminhos de saída ou comportamento de streaming)

Você pode adaptar esse padrão para prompts diferentes e vozes suportadas.

4. Usando modelos diferentes (ElevenLabs, DIA e outros)

O SKILL.md lista os modelos disponíveis em uma tabela de Available Models. Pelo trecho visível, você pode esperar entradas como:

ElevenLabs TTS – App ID: elevenlabs/tts
ElevenLabs Voice Changer – App ID: elevenlabs/voice-changer
Kokoro TTS – App ID: infsh/kokoro-tts
DIA – App ID começando com infsh/dia-...
Outros modelos como Chatterbox, Higgs e VibeVoice também são mencionados na descrição do skill.

Para chamar outro app, basta trocar o App ID no seu comando de CLI. Por exemplo, um padrão típico para TTS com ElevenLabs pode ser:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Use a documentação do repositório e qualquer README específico de cada modelo (se houver) para confirmar o schema exato de input de cada app, já que modelos diferentes podem usar campos como prompt, text ou voice_id.

5. Voice changing / voice cloning com ElevenLabs Voice Changer

A descrição do skill inclui explicitamente o ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) para transformar gravações existentes. Um fluxo típico via CLI vai:

Referenciar um arquivo de áudio de entrada (sua gravação original)
Especificar a voz alvo ou configurações
Gerar um arquivo de áudio transformado como saída

Um padrão genérico seria algo como:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Confira a documentação do app no inference.sh para confirmar os campos exatos e os formatos suportados.

6. Integrando o ai-voice-cloning em agentes

Quando você adiciona o ai-voice-cloning como skill usando npx skills add, uma plataforma de agentes que entenda o formato inferen-sh/skills pode:

Identificar que Bash (infsh \*) é uma ferramenta permitida
Usar os exemplos e a descrição do SKILL.md como referência
Gerar automaticamente comandos infsh app run ... adequados para criar ou transformar áudio

Para ajustar o comportamento no seu agente:

Abra o arquivo SKILL.md no diretório tools/audio/ai-voice-cloning.
Revise os exemplos, a lista de modelos disponíveis e eventuais observações sobre casos de uso.
Adicione seus próprios padrões de prompt, escolhas de voz ou etapas de pós-processamento na configuração ou camada de orquestração do seu agente.

7. Arquivos importantes no repositório

Para entender melhor como o skill é definido e como deve ser usado:

tools/audio/ai-voice-cloning/SKILL.md – Descrição principal, início rápido e lista de modelos
Documentos na raiz como README.md e cli-install.md – Orientações gerais sobre inference.sh e configuração do CLI

Podem existir também documentos adicionais na pasta tools dando contexto sobre outras ferramentas.

FAQ

O ai-voice-cloning é um app independente ou uma definição de skill?

ai-voice-cloning é uma definição de skill dentro do repositório inferen-sh/skills. Ele descreve como um agente pode usar o CLI do inference.sh (infsh) para geração de voz com IA e clonagem de voz. Você não recebe um aplicativo com interface gráfica; em vez disso, recebe uma forma clara de chamar modelos de TTS e voice changer pela linha de comando ou por fluxos de agentes que conseguem executar Bash.

O que eu preciso instalar para usar o ai-voice-cloning?

Você precisa de:

O CLI do inference.sh (infsh) instalado e acessível no seu shell
Autenticação válida no inference.sh (configurada via infsh login)
Um ambiente que permita comandos Bash (por exemplo, um terminal local ou um runtime de agente que exponha Bash)

Opcionalmente, se for integrar em uma plataforma de agentes que suporta o formato skills, instale o skill com:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Quais modelos de voz com IA são suportados?

Pela descrição do skill e pelo SKILL.md, o ai-voice-cloning foi projetado para funcionar com vários modelos disponíveis via inference.sh, incluindo:

ElevenLabs TTS – elevenlabs/tts
ElevenLabs Voice Changer – elevenlabs/voice-changer
Kokoro TTS – infsh/kokoro-tts
Apps TTS DIA (App IDs começando com infsh/dia-...)
Modelos adicionais como Chatterbox, Higgs e VibeVoice, mencionados na descrição

Consulte a tabela Available Models no SKILL.md e a documentação do inference.sh para obter a lista atualizada, com parâmetros de cada modelo.

O ai-voice-cloning aguenta narração de longa duração?

Sim. O skill é descrito explicitamente como adequado para narração de longa duração e usos como audiolivros, podcasts e narração de vídeos. Porém, detalhes de tratamento de longos textos (como divisão em partes, tamanho máximo de texto e forma de juntar os trechos) dependem dos limites de cada modelo e do runtime do inference.sh. Se você pretende processar roteiros muito longos, faça testes com trechos menores primeiro e consulte a documentação do modelo.

Em que isso é diferente de usar ElevenLabs ou outros provedores diretamente?

O ai-voice-cloning:

Usa o CLI do inference.sh como interface unificada
Permite alternar entre vários modelos de TTS e voice changer com comandos similares infsh app run ...
Se integra naturalmente em skills de agentes, scripts Bash e fluxos automatizados

Se você já usa a API nativa de um provedor diretamente, o ai-voice-cloning ainda pode ser útil quando você quer:

Uma única CLI que abstrai vários provedores e modelos
Integração mais simples com frameworks de agentes que entendem o formato de skills

O ai-voice-cloning suporta áudio em streaming em tempo real?

O trecho do SKILL.md foca em comandos em modo batch (infsh app run ...) e não descreve explicitamente comportamento de streaming em tempo real. Qualquer opção de streaming ou baixa latência depende dos apps específicos no inference.sh, não do wrapper de skill em si. Verifique a documentação do inference.sh para os modelos que pretende usar se o output em tempo real for importante para o seu caso.

Qual é o formato de saída gerado pelo ai-voice-cloning?

Os formatos de saída (por exemplo, wav, mp3) e a forma de entrega (arquivos locais, URLs etc.) são determinados pelos apps do inference.sh, como infsh/kokoro-tts ou elevenlabs/tts. O skill não impõe um formato de áudio específico; ele apenas define como os agentes podem chamar esses modelos. Consulte a documentação de cada app ou execute um comando de teste para ver o comportamento padrão de saída.

Quando o ai-voice-cloning não é uma boa opção?

Talvez você precise de outra solução se:

Quer um fluxo sem CLI, totalmente baseado em navegador
Precisa de TTS offline, no próprio dispositivo, sem chamadas a APIs externas
Sua prioridade é treinar modelos personalizados a partir de grandes datasets, em vez de usar vozes prontas

Nesses casos, procure DAWs de desktop com plugins TTS integrados ou bibliotecas TTS embarcadas. Se o seu foco for geração de voz com IA de forma roteirizada e automatizada via CLI ou agentes, o ai-voice-cloning é um forte candidato.

Onde posso aprender mais sobre configuração e opções avançadas?

Comece por:

tools/audio/ai-voice-cloning/SKILL.md no repositório inferen-sh/skills
O documento de instalação do CLI: cli-install.md, citado em SKILL.md
Quaisquer documentos específicos de modelos linkados no inference.sh para apps como infsh/kokoro-tts ou elevenlabs/tts

Esses recursos trazem os comandos mais recentes de exemplo, listas de parâmetros e observações de uso que complementam os padrões de início rápido apresentados aqui.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

elevenlabs-tts

by inferen-sh

Texto-para-fala da ElevenLabs via CLI do inference.sh, com mais de 22 vozes premium, suporte multilíngue e modelos rápidos para fluxos de trabalho de geração de voz em produção.

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

Skill de mudança de voz ElevenLabs usando o CLI inference.sh (infsh) para transformar fala gravada em outra voz sintética, preservando o conteúdo e a emoção. Suporta `eleven_multilingual_sts_v2` (70+ idiomas) e `eleven_english_sts_v2` para speech-to-speech, mudança de sotaque e disfarce de voz em criação de conteúdo, dublagem e vozes de personagem.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing permite dublar e traduzir automaticamente áudio ou vídeo para 29 idiomas usando a CLI do inference.sh, preservando as vozes originais dos locutores. Ideal para editores de vídeo, podcasters e equipes de localização que precisam de versões multilíngues rápidas e de alta qualidade de conteúdos já existentes.

Video Editing

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Reconhecimento de fala em texto de alta precisão com ElevenLabs via CLI do inference.sh, usando os modelos Scribe v1/v2. Oferece transcrição, diarização de falantes, marcação de eventos de áudio, timestamps em nível de palavra, forced alignment e geração de legendas para reuniões, podcasts e outros fluxos de trabalho de áudio.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Gere áudios de diálogo refinados com múltiplos locutores usando ElevenLabs via a CLI do inference.sh. Transforme roteiros estruturados em conversas naturais com várias vozes em um único arquivo, ideal para podcasts, audiolivros, explicadores, tutoriais, diálogos de personagens e roteiros de vídeo.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Crie podcasts e conteúdos em áudio com IA a partir de texto usando Kokoro TTS, DIA TTS e a CLI inference.sh. Combine múltiplas vozes, adicione trilhas musicais e monte episódios completos para podcasts, audiolivros e newsletters em áudio.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Crie diálogos em áudio realistas com múltiplos locutores usando Dia TTS e ElevenLabs via a CLI do inference.sh. A skill dialogue-audio ajuda você a controlar locutores, emoção, ritmo e fluxo de conversa para podcasts, audiolivros, vídeos explicativos, cenas de personagem e outros formatos conversacionais.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Gere músicas originais com IA a partir de prompts em texto usando o CLI inference.sh e ElevenLabs. Controle duração, estilo e clima para criar trilhas de fundo royalty-free, trilhas sonoras, vinhetas, camas para podcasts e áudio para games diretamente pelo terminal.

Audio Editing

Favorites 0GitHub 0

ai-voice-cloning

Visão geral

O que é o ai-voice-cloning?

Principais recursos

Para quem é o ai-voice-cloning?

Casos de uso típicos

Como usar

1. Pré-requisitos e opções de instalação

2. Fazer login no inference.sh

3. Início rápido: gerar fala com Kokoro TTS

4. Usando modelos diferentes (ElevenLabs, DIA e outros)

5. Voice changing / voice cloning com ElevenLabs Voice Changer

6. Integrando o ai-voice-cloning em agentes

7. Arquivos importantes no repositório

FAQ

O ai-voice-cloning é um app independente ou uma definição de skill?

O que eu preciso instalar para usar o ai-voice-cloning?

Quais modelos de voz com IA são suportados?

O ai-voice-cloning aguenta narração de longa duração?

Em que isso é diferente de usar ElevenLabs ou outros provedores diretamente?

O ai-voice-cloning suporta áudio em streaming em tempo real?

Qual é o formato de saída gerado pelo ai-voice-cloning?

Quando o ai-voice-cloning não é uma boa opção?

Onde posso aprender mais sobre configuração e opções avançadas?

Avaliações e comentários