I

ai-voice-cloning

por inferen-sh

ai-voice-cloning é um skill baseado em inference.sh para geração de voz com IA, text-to-speech e clonagem de voz via CLI. Ele integra modelos ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice para fala natural, narração com múltiplas vozes e transformação de voz em projetos de áudio e vídeo.

Estrelas0
Favoritos0
Comentários0
Adicionado27 de mar. de 2026
CategoriaVoice Generation
Comando de instalação
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
Visão geral

Visão geral

O que é o ai-voice-cloning?

ai-voice-cloning é um skill focado em CLI para geração de voz com IA e clonagem de voz, construído sobre a plataforma inference.sh. Ele permite chamar modelos de text-to-speech e transformação de voz a partir da linha de comando, incluindo ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs e VibeVoice.

O skill é definido no repositório inferen-sh/skills e foi pensado para ser incorporado em fluxos de agentes que conseguem chamar Bash via infsh (o CLI do inference.sh). O foco está em gerar fala com som natural e transformar gravações de voz existentes, e não em treinamento de modelos ou gestão de datasets.

Principais recursos

  • Text-to-speech (TTS) via CLI usando infsh app run ...
  • Vários modelos de voz com IA em um só lugar (por exemplo, elevenlabs/tts, infsh/kokoro-tts)
  • Clonagem / alteração de voz para gravações existentes via ElevenLabs Voice Changer
  • Suporte a muitas vozes e idiomas (via modelos ElevenLabs, conforme a descrição original)
  • Narração de longa duração adequada para locuções, audiolivros e podcasts
  • Leituras conversacionais e expressivas usando modelos ajustados para fala natural

Como ai-voice-cloning é uma definição de skill e não um app independente, você interage com ele pelo CLI do inference.sh e por quaisquer agentes ou ferramentas que tenham permissão para executar comandos Bash.

Para quem é o ai-voice-cloning?

Este skill é ideal se você:

  • Trabalha com áudio ou vídeo e precisa de geração de voz rápida e roteirizada
  • Cria agentes de IA, CLIs ou automações que precisam falar ou narrar
  • Produz locuções, explicadores, tutoriais ou vídeos de treinamento
  • Quer vozes com qualidade ElevenLabs e outros modelos TTS especializados por trás de uma única CLI
  • Prefere fluxos de trabalho em linha de comando em vez de interfaces gráficas web

Ele é menos indicado se você:

  • Precisa de uma interface totalmente gráfica, sem uso de CLI
  • Quer treinar modelos personalizados a partir de datasets de áudio bruto (não coberto por este skill)
  • Requer operação no navegador ou no dispositivo, sem chamar o serviço inference.sh

Casos de uso típicos

  • Geração de trilhas de narração para vídeos no YouTube ou materiais de marketing
  • Criação de audiolivros ou podcasts a partir de roteiros em texto
  • Produção de múltiplas vozes de personagem para diálogos e conversas
  • Aplicação de voice changing em gravações existentes usando ElevenLabs Voice Changer
  • Inclusão de prompts de áudio e vozes de sistema em agentes, bots e ferramentas interativas

Como usar

1. Pré-requisitos e opções de instalação

Para usar o ai-voice-cloning, você precisa de:

  • Acesso ao CLI do inference.sh (infsh)
  • Conectividade de rede com as APIs do inference.sh
  • Um ambiente de shell em que comandos Bash sejam permitidos

Você pode integrar o skill ao seu ambiente de agente usando:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Esse comando baixa a definição do skill de inferen-sh/skills e registra para que seu agente possa chamar as ferramentas associadas (principalmente Bash com infsh).

Para uso direto via CLI, fora de um agente, instale o próprio CLI do inference.sh. O SKILL.md do skill aponta para as instruções de instalação do CLI em:

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Siga esse documento para instalar o infsh no seu sistema.

2. Fazer login no inference.sh

Depois que o infsh estiver instalado, faça a autenticação:

infsh login

Siga as instruções exibidas para fazer login ou configurar suas credenciais, conforme descrito no guia de instalação do CLI.

3. Início rápido: gerar fala com Kokoro TTS

O SKILL.md traz um exemplo simples com Kokoro TTS. Após fazer login, você pode gerar fala com:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

O que esse comando faz:

  • Chama o app infsh/kokoro-tts
  • Envia um input em JSON com um prompt (o texto a ser lido) e uma seleção de voice
  • Gera fala sintetizada como saída (consulte a documentação do CLI para caminhos de saída ou comportamento de streaming)

Você pode adaptar esse padrão para prompts diferentes e vozes suportadas.

4. Usando modelos diferentes (ElevenLabs, DIA e outros)

O SKILL.md lista os modelos disponíveis em uma tabela de Available Models. Pelo trecho visível, você pode esperar entradas como:

  • ElevenLabs TTS – App ID: elevenlabs/tts
  • ElevenLabs Voice Changer – App ID: elevenlabs/voice-changer
  • Kokoro TTS – App ID: infsh/kokoro-tts
  • DIA – App ID começando com infsh/dia-...
  • Outros modelos como Chatterbox, Higgs e VibeVoice também são mencionados na descrição do skill.

Para chamar outro app, basta trocar o App ID no seu comando de CLI. Por exemplo, um padrão típico para TTS com ElevenLabs pode ser:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Use a documentação do repositório e qualquer README específico de cada modelo (se houver) para confirmar o schema exato de input de cada app, já que modelos diferentes podem usar campos como prompt, text ou voice_id.

5. Voice changing / voice cloning com ElevenLabs Voice Changer

A descrição do skill inclui explicitamente o ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) para transformar gravações existentes. Um fluxo típico via CLI vai:

  1. Referenciar um arquivo de áudio de entrada (sua gravação original)
  2. Especificar a voz alvo ou configurações
  3. Gerar um arquivo de áudio transformado como saída

Um padrão genérico seria algo como:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Confira a documentação do app no inference.sh para confirmar os campos exatos e os formatos suportados.

6. Integrando o ai-voice-cloning em agentes

Quando você adiciona o ai-voice-cloning como skill usando npx skills add, uma plataforma de agentes que entenda o formato inferen-sh/skills pode:

  • Identificar que Bash (infsh \*) é uma ferramenta permitida
  • Usar os exemplos e a descrição do SKILL.md como referência
  • Gerar automaticamente comandos infsh app run ... adequados para criar ou transformar áudio

Para ajustar o comportamento no seu agente:

  1. Abra o arquivo SKILL.md no diretório tools/audio/ai-voice-cloning.
  2. Revise os exemplos, a lista de modelos disponíveis e eventuais observações sobre casos de uso.
  3. Adicione seus próprios padrões de prompt, escolhas de voz ou etapas de pós-processamento na configuração ou camada de orquestração do seu agente.

7. Arquivos importantes no repositório

Para entender melhor como o skill é definido e como deve ser usado:

  • tools/audio/ai-voice-cloning/SKILL.md – Descrição principal, início rápido e lista de modelos
  • Documentos na raiz como README.md e cli-install.md – Orientações gerais sobre inference.sh e configuração do CLI

Podem existir também documentos adicionais na pasta tools dando contexto sobre outras ferramentas.


FAQ

O ai-voice-cloning é um app independente ou uma definição de skill?

ai-voice-cloning é uma definição de skill dentro do repositório inferen-sh/skills. Ele descreve como um agente pode usar o CLI do inference.sh (infsh) para geração de voz com IA e clonagem de voz. Você não recebe um aplicativo com interface gráfica; em vez disso, recebe uma forma clara de chamar modelos de TTS e voice changer pela linha de comando ou por fluxos de agentes que conseguem executar Bash.

O que eu preciso instalar para usar o ai-voice-cloning?

Você precisa de:

  • O CLI do inference.sh (infsh) instalado e acessível no seu shell
  • Autenticação válida no inference.sh (configurada via infsh login)
  • Um ambiente que permita comandos Bash (por exemplo, um terminal local ou um runtime de agente que exponha Bash)

Opcionalmente, se for integrar em uma plataforma de agentes que suporta o formato skills, instale o skill com:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Quais modelos de voz com IA são suportados?

Pela descrição do skill e pelo SKILL.md, o ai-voice-cloning foi projetado para funcionar com vários modelos disponíveis via inference.sh, incluindo:

  • ElevenLabs TTSelevenlabs/tts
  • ElevenLabs Voice Changerelevenlabs/voice-changer
  • Kokoro TTSinfsh/kokoro-tts
  • Apps TTS DIA (App IDs começando com infsh/dia-...)
  • Modelos adicionais como Chatterbox, Higgs e VibeVoice, mencionados na descrição

Consulte a tabela Available Models no SKILL.md e a documentação do inference.sh para obter a lista atualizada, com parâmetros de cada modelo.

O ai-voice-cloning aguenta narração de longa duração?

Sim. O skill é descrito explicitamente como adequado para narração de longa duração e usos como audiolivros, podcasts e narração de vídeos. Porém, detalhes de tratamento de longos textos (como divisão em partes, tamanho máximo de texto e forma de juntar os trechos) dependem dos limites de cada modelo e do runtime do inference.sh. Se você pretende processar roteiros muito longos, faça testes com trechos menores primeiro e consulte a documentação do modelo.

Em que isso é diferente de usar ElevenLabs ou outros provedores diretamente?

O ai-voice-cloning:

  • Usa o CLI do inference.sh como interface unificada
  • Permite alternar entre vários modelos de TTS e voice changer com comandos similares infsh app run ...
  • Se integra naturalmente em skills de agentes, scripts Bash e fluxos automatizados

Se você já usa a API nativa de um provedor diretamente, o ai-voice-cloning ainda pode ser útil quando você quer:

  • Uma única CLI que abstrai vários provedores e modelos
  • Integração mais simples com frameworks de agentes que entendem o formato de skills

O ai-voice-cloning suporta áudio em streaming em tempo real?

O trecho do SKILL.md foca em comandos em modo batch (infsh app run ...) e não descreve explicitamente comportamento de streaming em tempo real. Qualquer opção de streaming ou baixa latência depende dos apps específicos no inference.sh, não do wrapper de skill em si. Verifique a documentação do inference.sh para os modelos que pretende usar se o output em tempo real for importante para o seu caso.

Qual é o formato de saída gerado pelo ai-voice-cloning?

Os formatos de saída (por exemplo, wav, mp3) e a forma de entrega (arquivos locais, URLs etc.) são determinados pelos apps do inference.sh, como infsh/kokoro-tts ou elevenlabs/tts. O skill não impõe um formato de áudio específico; ele apenas define como os agentes podem chamar esses modelos. Consulte a documentação de cada app ou execute um comando de teste para ver o comportamento padrão de saída.

Quando o ai-voice-cloning não é uma boa opção?

Talvez você precise de outra solução se:

  • Quer um fluxo sem CLI, totalmente baseado em navegador
  • Precisa de TTS offline, no próprio dispositivo, sem chamadas a APIs externas
  • Sua prioridade é treinar modelos personalizados a partir de grandes datasets, em vez de usar vozes prontas

Nesses casos, procure DAWs de desktop com plugins TTS integrados ou bibliotecas TTS embarcadas. Se o seu foco for geração de voz com IA de forma roteirizada e automatizada via CLI ou agentes, o ai-voice-cloning é um forte candidato.

Onde posso aprender mais sobre configuração e opções avançadas?

Comece por:

  • tools/audio/ai-voice-cloning/SKILL.md no repositório inferen-sh/skills
  • O documento de instalação do CLI: cli-install.md, citado em SKILL.md
  • Quaisquer documentos específicos de modelos linkados no inference.sh para apps como infsh/kokoro-tts ou elevenlabs/tts

Esses recursos trazem os comandos mais recentes de exemplo, listas de parâmetros e observações de uso que complementam os padrões de início rápido apresentados aqui.

Avaliações e comentários

Ainda não há avaliações
Compartilhe sua avaliação
Faça login para deixar uma nota e um comentário sobre esta skill.
G
0/10000
Avaliações mais recentes
Salvando...