elevenlabs-stt
por inferen-shReconhecimento de fala em texto de alta precisão com ElevenLabs via CLI do inference.sh, usando os modelos Scribe v1/v2. Oferece transcrição, diarização de falantes, marcação de eventos de áudio, timestamps em nível de palavra, forced alignment e geração de legendas para reuniões, podcasts e outros fluxos de trabalho de áudio.
Visão geral
O que é elevenlabs-stt?
elevenlabs-stt é uma skill de speech-to-text que conecta seus fluxos de trabalho em agentes ou CLI aos modelos ElevenLabs Scribe via a CLI do inference.sh (infsh).
O foco é em transcrição de áudio de alta precisão com alinhamento temporal, e não em simples anotações. A skill foi pensada para fluxos de mídia como:
- Aperfeiçoar gravações de voz para edição de áudio e vídeo
- Criar legendas e closed captions com timing preciso
- Produzir transcrições de podcasts e entrevistas
- Gerar timing de lip-sync e karaokê via alinhamento em nível de palavra
- Marcar eventos de áudio e identificar diferentes falantes em uma gravação
Principais capacidades
Baseado nos modelos ElevenLabs Scribe v1/v2 (via o app elevenlabs/stt no inference.sh), elevenlabs-stt oferece:
- Transcrição de áudio em texto estruturado
- Diarização de falantes e identificação de quem falou quando
- Marcação de eventos de áudio (por exemplo, música, silêncio, sons de fundo)
- Timestamps em nível de palavra e forced alignment com um texto já existente
- Saída amigável para legendas, ideal para closed captions e pós-produção
- Suporte multilíngue em mais de 90 idiomas com detecção automática
Os modelos são descritos como entregando mais de 98% de acurácia de transcrição em condições suportadas, o que torna esta skill adequada para projetos de áudio e vídeo em nível de produção.
Para quem é o elevenlabs-stt?
elevenlabs-stt é uma ótima opção se você:
- Trabalha com pós-produção de áudio ou vídeo e precisa de transcrições confiáveis
- Produz podcasts, webinars, entrevistas ou aulas e quer texto gerado automaticamente
- Precisa de legendas com alinhamento temporal ou arquivos de caption no seu fluxo de trabalho
- Cria ferramentas para desenvolvedores, agentes ou pipelines que precisam chamar ElevenLabs STT a partir de scripts
- Prefere manter tudo em um ambiente CLI-first e JSON-first
Ele é menos indicado se você:
- Precisa de uma interface totalmente em navegador, sem nenhuma dependência de CLI
- Só quer anotações rápidas a partir de áudio e não se importa com timing, diarização ou estruturas de dados
- Não consegue instalar ou usar a CLI
infshno ambiente onde seu agente roda
Como ele se encaixa no seu toolchain
elevenlabs-stt atua na camada de edição de áudio e voice tooling da sua stack:
- Upstream: captura de áudio (gravações do Zoom, OBS, áudio de telefone, WAV/MP3 bruto)
- Core: elevenlabs-stt +
infshpara transcrever, diarizar, alinhar e marcar eventos - Downstream: timelines em NLE (Premiere, Resolve), fluxos de legendagem, índices de busca, agentes de sumarização por IA ou agentes de QA
Como a skill está definida no repositório inferen-sh/skills, ela se integra de forma limpa a outras ferramentas baseadas em inference.sh, usando Bash (infsh *) por baixo dos panos.
Como usar
1. Pré-requisitos e ambiente
Antes de usar elevenlabs-stt como skill, você precisa de:
- CLI do inference.sh (
infsh) instalada na máquina onde o agente ou usuário roda - Uma conta ativa no inference.sh e login válido
- Acesso à rede para que o
infshconsiga chamar o appelevenlabs/stte (opcionalmente) acessar quaisquer URLs remotas de áudio que você fornecer
Para instalar a CLI, siga as instruções oficiais referenciadas na skill:
- Documentação de instalação da CLI:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Depois de instalar, faça a autenticação:
infsh login
Isso configura as credenciais necessárias para chamadas subsequentes de infsh app run a partir da skill.
2. Instalando a skill elevenlabs-stt
Se você está em um ambiente com suporte a skills e que ofereça npx skills, pode adicionar elevenlabs-stt diretamente do repositório inferen-sh/skills:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt
Isso irá:
- Registrar a skill
elevenlabs-sttpelo seu slug - Disponibilizar sua configuração (incluindo ferramentas permitidas e lógica de workflow) para o runtime do seu agente
Se o seu ambiente gerencia skills de outra maneira, replique o mesmo repositório e slug da skill, garantindo que os metadados da skill (SKILL.md, metadata.json se existir) sejam carregados corretamente.
3. Workflow básico de transcrição
Depois de instalar a skill e a CLI, a operação central é uma chamada ao app elevenlabs/stt via infsh.
Um exemplo manual simples (equivalente ao que a skill automatiza) é:
# Transcrever um arquivo de áudio remoto
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
Esse padrão é a base de como o elevenlabs-stt funciona dentro do seu agente. A skill:
- Recebe seu áudio de entrada (URL ou caminho local, dependendo da sua integração)
- Chama
infsh app run elevenlabs/sttcom entrada em JSON - Retorna JSON estruturado com o texto da transcrição e informações de timing
Use esse modelo mental ao configurar prompts, ferramentas ou pipelines em torno da skill.
4. Escolhendo modelos: Scribe v1 vs Scribe v2
A skill expõe os modelos ElevenLabs Scribe v1 e Scribe v2:
- Scribe v2 (
scribe_v2) – Versão mais recente e com maior acurácia (padrão). Ideal para a maioria dos novos projetos. - Scribe v1 (
scribe_v1) – Versão estável e já bastante testada. Útil para manter consistência com workflows existentes ou quando você já validou o comportamento.
Se o seu ambiente ou agente permite passar parâmetros de modelo, você pode escolher o ID do modelo conforme necessário. Quando nenhum modelo é especificado, espere que o Scribe v2 seja usado por padrão, conforme indicado na documentação.
5. Padrões de uso práticos
A seguir, alguns usos comuns do elevenlabs-stt após a instalação.
Transcrição básica
Para reuniões, podcasts ou aulas de forma direta:
infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'
Envolva essa chamada no workflow do agente para que os usuários possam dizer, por exemplo:
- "Transcreva esta gravação de reunião com elevenlabs-stt."
- "Use elevenlabs-stt para transformar este MP3 em uma transcrição de texto."
O resultado é uma transcrição estruturada que você pode armazenar, indexar ou resumir.
Diarização e identificação de falantes
Se o app elevenlabs/stt estiver configurado para diarização de falantes, o JSON de saída incluirá tokens ou trechos rotulados por falante.
Nos prompts do seu agente, você pode orientar com instruções como:
- "Execute elevenlabs-stt e retorne segmentos da transcrição separados por falante."
- "Agrupe a transcrição por falante, preservando os timestamps retornados pelo elevenlabs-stt."
Isso é especialmente útil em mesas-redondas, chamadas com clientes ou programas de entrevista.
Geração de legendas e captions
Como elevenlabs-stt gera timestamps e alinhamento em nível de palavra (forced alignment), você pode:
- Converter segmentos em arquivos de legenda SRT ou VTT
- Sincronizar o texto com as faixas de vídeo em ferramentas de pós-produção
- Criar destaque estilo karaokê ou referência para lip-sync
Em um fluxo típico, você poderia:
- Rodar elevenlabs-stt no seu arquivo de áudio.
- Mapear os dados de timing em blocos de legenda.
- Exportar ou enviar as legendas para seu NLE ou plataforma de streaming.
Marcação de eventos de áudio
Quando a marcação de eventos de áudio é ativada nas chamadas ao elevenlabs/stt, a saída pode indicar trechos com música, silêncio, ruído ou outros eventos.
Use isso para:
- Marcar pontos de corte para editores
- Pular trechos sem fala ao gerar resumos
- Detectar automaticamente os momentos em que o falante principal está ativo
6. Estrutura de arquivos e repositório
No repositório inferen-sh/skills, a skill elevenlabs-stt fica em:
tools/audio/elevenlabs-stt/
Principais arquivos para revisar se você pretende customizar ou hospedar a skill por conta própria:
SKILL.md– Descrição canônica da skill, seu propósito e triggers- Quaisquer diretórios
rules/,resources/ouscripts/(se existirem), com lógica auxiliar
Esses arquivos documentam como a skill se conecta à CLI infsh e quais prompts ou restrições ela espera.
FAQ
Quando devo usar elevenlabs-stt em vez de uma ferramenta de speech-to-text mais simples?
Use elevenlabs-stt quando você precisa de alta acurácia, timestamps e estrutura, e não apenas de um texto aproximado.
Ele é especialmente indicado se o seu trabalho principal envolve:
- Edição de áudio ou vídeo
- Publicação de podcasts ou conteúdos em formato "talking head"
- Criação de legendas e closed captions
- Análise de conversas com rótulos de falante e informações de timing
Se você só precisa de transcrições informais, sem timing ou dados de falante, uma ferramenta mais leve pode ser suficiente.
Que nível de acurácia e cobertura de idiomas posso esperar?
De acordo com a descrição da skill, os modelos ElevenLabs Scribe oferecem:
- Mais de 98% de acurácia de transcrição em condições suportadas
- Cobertura para mais de 90 idiomas, com detecção automática de idioma
O desempenho real depende da qualidade da gravação, sotaques, ruído de fundo e posicionamento do microfone, mas os modelos são posicionados como opções de alta precisão, adequadas para uso em produção.
Eu preciso da CLI do inference.sh para usar elevenlabs-stt?
Sim. elevenlabs-stt é implementado em torno da CLI do inference.sh (infsh) e do app elevenlabs/stt. As ferramentas permitidas pela skill incluem explicitamente Bash com comandos infsh.
Se você não puder instalar ou rodar infsh no seu ambiente, não conseguirá usar elevenlabs-stt como planejado. Nesse cenário, você precisaria de outra skill ou de uma integração direta com API fora deste repositório.
elevenlabs-stt consegue trabalhar com arquivos de áudio locais ou apenas URLs?
O exemplo na documentação usa uma URL remota:
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
O inference.sh em geral suporta múltiplos formatos de entrada, mas o tratamento exato de arquivos locais depende de como o seu ambiente infsh está configurado (por exemplo, semântica de upload ou paths montados).
Dentro de um agente, você normalmente pode:
- Fornecer uma URL direta para arquivos de áudio hospedados, ou
- Usar o mecanismo de arquivos do seu runtime para tornar arquivos locais acessíveis ao
infsh.
Verifique as regras de passagem de arquivos do seu ambiente se você precisa de um fluxo estritamente local.
elevenlabs-stt gera arquivos SRT ou VTT diretamente?
A skill em si integra com o app elevenlabs/stt, que retorna JSON estruturado com timestamps e alinhamento. As evidências no repositório destacam a saída em JSON, não a exportação direta em SRT/VTT.
Você pode, porém:
- Pegar o JSON de saída do elevenlabs-stt.
- Mapear os segmentos e timestamps em blocos SRT ou VTT.
- Salvar esses dados como arquivos de legenda no seu pipeline.
Muitos usuários fazem isso com scripts simples ou etapas de pós-processamento no agente.
Como funciona o forced alignment no elevenlabs-stt?
O forced alignment usa os modelos Scribe para alinhar o áudio ao texto em nível de palavra, retornando timestamps precisos por token ou palavra.
Isso é útil quando você:
- Já tem um roteiro ou show notes e quer alinhá-los à gravação final
- Precisa de timing preciso de lip-sync (para dublagem, karaokê ou destaque de legendas)
- Quer localizar rapidamente onde cada fala aparece no áudio
Os detalhes da saída de alinhamento são controlados pelo app elevenlabs/stt; elevenlabs-stt é a ponte que expõe isso para seus workflows em agentes e CLI.
elevenlabs-stt é adequado para transcrição em streaming em tempo real?
A documentação e os exemplos da skill focam em transcrição baseada em arquivos via infsh app run com uma referência de entrada audio. Não há menção explícita a streaming em tempo real nas evidências fornecidas.
Por isso, o elevenlabs-stt deve ser tratado como uma ferramenta de transcrição em batch para áudios gravados, e não como uma solução de legendagem ao vivo de baixa latência.
Onde posso ver ou modificar a configuração do elevenlabs-stt?
Você pode explorar a skill no repositório GitHub inferen-sh/skills:
- Repositório base:
https://github.com/inferen-sh/skills - Caminho da skill:
tools/audio/elevenlabs-stt/
Comece pelo SKILL.md para entender triggers, descrição e uso. Se sua plataforma suporta skills customizadas, você pode fazer fork e adaptar a configuração da skill, prompts ou ferramentas permitidas para o seu ambiente.
