elevenlabs-stt

por inferen-sh

Reconhecimento de fala em texto de alta precisão com ElevenLabs via CLI do inference.sh, usando os modelos Scribe v1/v2. Oferece transcrição, diarização de falantes, marcação de eventos de áudio, timestamps em nível de palavra, forced alignment e geração de legendas para reuniões, podcasts e outros fluxos de trabalho de áudio.

Estrelas0

Favoritos0

Comentários0

Adicionado27 de mar. de 2026

CategoriaAudio Editing

Comando de instalação

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Audio Video Cli API Workflow Developer Audience

Visão geral

O que é elevenlabs-stt?

elevenlabs-stt é uma skill de speech-to-text que conecta seus fluxos de trabalho em agentes ou CLI aos modelos ElevenLabs Scribe via a CLI do inference.sh (infsh).

O foco é em transcrição de áudio de alta precisão com alinhamento temporal, e não em simples anotações. A skill foi pensada para fluxos de mídia como:

Aperfeiçoar gravações de voz para edição de áudio e vídeo
Criar legendas e closed captions com timing preciso
Produzir transcrições de podcasts e entrevistas
Gerar timing de lip-sync e karaokê via alinhamento em nível de palavra
Marcar eventos de áudio e identificar diferentes falantes em uma gravação

Principais capacidades

Baseado nos modelos ElevenLabs Scribe v1/v2 (via o app elevenlabs/stt no inference.sh), elevenlabs-stt oferece:

Transcrição de áudio em texto estruturado
Diarização de falantes e identificação de quem falou quando
Marcação de eventos de áudio (por exemplo, música, silêncio, sons de fundo)
Timestamps em nível de palavra e forced alignment com um texto já existente
Saída amigável para legendas, ideal para closed captions e pós-produção
Suporte multilíngue em mais de 90 idiomas com detecção automática

Os modelos são descritos como entregando mais de 98% de acurácia de transcrição em condições suportadas, o que torna esta skill adequada para projetos de áudio e vídeo em nível de produção.

Para quem é o elevenlabs-stt?

elevenlabs-stt é uma ótima opção se você:

Trabalha com pós-produção de áudio ou vídeo e precisa de transcrições confiáveis
Produz podcasts, webinars, entrevistas ou aulas e quer texto gerado automaticamente
Precisa de legendas com alinhamento temporal ou arquivos de caption no seu fluxo de trabalho
Cria ferramentas para desenvolvedores, agentes ou pipelines que precisam chamar ElevenLabs STT a partir de scripts
Prefere manter tudo em um ambiente CLI-first e JSON-first

Ele é menos indicado se você:

Precisa de uma interface totalmente em navegador, sem nenhuma dependência de CLI
Só quer anotações rápidas a partir de áudio e não se importa com timing, diarização ou estruturas de dados
Não consegue instalar ou usar a CLI infsh no ambiente onde seu agente roda

Como ele se encaixa no seu toolchain

elevenlabs-stt atua na camada de edição de áudio e voice tooling da sua stack:

Upstream: captura de áudio (gravações do Zoom, OBS, áudio de telefone, WAV/MP3 bruto)
Core: elevenlabs-stt + infsh para transcrever, diarizar, alinhar e marcar eventos
Downstream: timelines em NLE (Premiere, Resolve), fluxos de legendagem, índices de busca, agentes de sumarização por IA ou agentes de QA

Como a skill está definida no repositório inferen-sh/skills, ela se integra de forma limpa a outras ferramentas baseadas em inference.sh, usando Bash (infsh *) por baixo dos panos.

Como usar

1. Pré-requisitos e ambiente

Antes de usar elevenlabs-stt como skill, você precisa de:

CLI do inference.sh (infsh) instalada na máquina onde o agente ou usuário roda
Uma conta ativa no inference.sh e login válido
Acesso à rede para que o infsh consiga chamar o app elevenlabs/stt e (opcionalmente) acessar quaisquer URLs remotas de áudio que você fornecer

Para instalar a CLI, siga as instruções oficiais referenciadas na skill:

Documentação de instalação da CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Depois de instalar, faça a autenticação:

infsh login

Isso configura as credenciais necessárias para chamadas subsequentes de infsh app run a partir da skill.

2. Instalando a skill elevenlabs-stt

Se você está em um ambiente com suporte a skills e que ofereça npx skills, pode adicionar elevenlabs-stt diretamente do repositório inferen-sh/skills:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Isso irá:

Registrar a skill elevenlabs-stt pelo seu slug
Disponibilizar sua configuração (incluindo ferramentas permitidas e lógica de workflow) para o runtime do seu agente

Se o seu ambiente gerencia skills de outra maneira, replique o mesmo repositório e slug da skill, garantindo que os metadados da skill (SKILL.md, metadata.json se existir) sejam carregados corretamente.

3. Workflow básico de transcrição

Depois de instalar a skill e a CLI, a operação central é uma chamada ao app elevenlabs/stt via infsh.

Um exemplo manual simples (equivalente ao que a skill automatiza) é:

# Transcrever um arquivo de áudio remoto
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Esse padrão é a base de como o elevenlabs-stt funciona dentro do seu agente. A skill:

Recebe seu áudio de entrada (URL ou caminho local, dependendo da sua integração)
Chama infsh app run elevenlabs/stt com entrada em JSON
Retorna JSON estruturado com o texto da transcrição e informações de timing

Use esse modelo mental ao configurar prompts, ferramentas ou pipelines em torno da skill.

4. Escolhendo modelos: Scribe v1 vs Scribe v2

A skill expõe os modelos ElevenLabs Scribe v1 e Scribe v2:

Scribe v2 (scribe_v2) – Versão mais recente e com maior acurácia (padrão). Ideal para a maioria dos novos projetos.
Scribe v1 (scribe_v1) – Versão estável e já bastante testada. Útil para manter consistência com workflows existentes ou quando você já validou o comportamento.

Se o seu ambiente ou agente permite passar parâmetros de modelo, você pode escolher o ID do modelo conforme necessário. Quando nenhum modelo é especificado, espere que o Scribe v2 seja usado por padrão, conforme indicado na documentação.

5. Padrões de uso práticos

A seguir, alguns usos comuns do elevenlabs-stt após a instalação.

Transcrição básica

Para reuniões, podcasts ou aulas de forma direta:

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

Envolva essa chamada no workflow do agente para que os usuários possam dizer, por exemplo:

"Transcreva esta gravação de reunião com elevenlabs-stt."
"Use elevenlabs-stt para transformar este MP3 em uma transcrição de texto."

O resultado é uma transcrição estruturada que você pode armazenar, indexar ou resumir.

Diarização e identificação de falantes

Se o app elevenlabs/stt estiver configurado para diarização de falantes, o JSON de saída incluirá tokens ou trechos rotulados por falante.

Nos prompts do seu agente, você pode orientar com instruções como:

"Execute elevenlabs-stt e retorne segmentos da transcrição separados por falante."
"Agrupe a transcrição por falante, preservando os timestamps retornados pelo elevenlabs-stt."

Isso é especialmente útil em mesas-redondas, chamadas com clientes ou programas de entrevista.

Geração de legendas e captions

Como elevenlabs-stt gera timestamps e alinhamento em nível de palavra (forced alignment), você pode:

Converter segmentos em arquivos de legenda SRT ou VTT
Sincronizar o texto com as faixas de vídeo em ferramentas de pós-produção
Criar destaque estilo karaokê ou referência para lip-sync

Em um fluxo típico, você poderia:

Rodar elevenlabs-stt no seu arquivo de áudio.
Mapear os dados de timing em blocos de legenda.
Exportar ou enviar as legendas para seu NLE ou plataforma de streaming.

Marcação de eventos de áudio

Quando a marcação de eventos de áudio é ativada nas chamadas ao elevenlabs/stt, a saída pode indicar trechos com música, silêncio, ruído ou outros eventos.

Use isso para:

Marcar pontos de corte para editores
Pular trechos sem fala ao gerar resumos
Detectar automaticamente os momentos em que o falante principal está ativo

6. Estrutura de arquivos e repositório

No repositório inferen-sh/skills, a skill elevenlabs-stt fica em:

tools/audio/elevenlabs-stt/

Principais arquivos para revisar se você pretende customizar ou hospedar a skill por conta própria:

SKILL.md – Descrição canônica da skill, seu propósito e triggers
Quaisquer diretórios rules/, resources/ ou scripts/ (se existirem), com lógica auxiliar

Esses arquivos documentam como a skill se conecta à CLI infsh e quais prompts ou restrições ela espera.

FAQ

Quando devo usar elevenlabs-stt em vez de uma ferramenta de speech-to-text mais simples?

Use elevenlabs-stt quando você precisa de alta acurácia, timestamps e estrutura, e não apenas de um texto aproximado.

Ele é especialmente indicado se o seu trabalho principal envolve:

Edição de áudio ou vídeo
Publicação de podcasts ou conteúdos em formato "talking head"
Criação de legendas e closed captions
Análise de conversas com rótulos de falante e informações de timing

Se você só precisa de transcrições informais, sem timing ou dados de falante, uma ferramenta mais leve pode ser suficiente.

Que nível de acurácia e cobertura de idiomas posso esperar?

De acordo com a descrição da skill, os modelos ElevenLabs Scribe oferecem:

Mais de 98% de acurácia de transcrição em condições suportadas
Cobertura para mais de 90 idiomas, com detecção automática de idioma

O desempenho real depende da qualidade da gravação, sotaques, ruído de fundo e posicionamento do microfone, mas os modelos são posicionados como opções de alta precisão, adequadas para uso em produção.

Eu preciso da CLI do inference.sh para usar elevenlabs-stt?

Sim. elevenlabs-stt é implementado em torno da CLI do inference.sh (infsh) e do app elevenlabs/stt. As ferramentas permitidas pela skill incluem explicitamente Bash com comandos infsh.

Se você não puder instalar ou rodar infsh no seu ambiente, não conseguirá usar elevenlabs-stt como planejado. Nesse cenário, você precisaria de outra skill ou de uma integração direta com API fora deste repositório.

elevenlabs-stt consegue trabalhar com arquivos de áudio locais ou apenas URLs?

O exemplo na documentação usa uma URL remota:

infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

O inference.sh em geral suporta múltiplos formatos de entrada, mas o tratamento exato de arquivos locais depende de como o seu ambiente infsh está configurado (por exemplo, semântica de upload ou paths montados).

Dentro de um agente, você normalmente pode:

Fornecer uma URL direta para arquivos de áudio hospedados, ou
Usar o mecanismo de arquivos do seu runtime para tornar arquivos locais acessíveis ao infsh.

Verifique as regras de passagem de arquivos do seu ambiente se você precisa de um fluxo estritamente local.

elevenlabs-stt gera arquivos SRT ou VTT diretamente?

A skill em si integra com o app elevenlabs/stt, que retorna JSON estruturado com timestamps e alinhamento. As evidências no repositório destacam a saída em JSON, não a exportação direta em SRT/VTT.

Você pode, porém:

Pegar o JSON de saída do elevenlabs-stt.
Mapear os segmentos e timestamps em blocos SRT ou VTT.
Salvar esses dados como arquivos de legenda no seu pipeline.

Muitos usuários fazem isso com scripts simples ou etapas de pós-processamento no agente.

Como funciona o forced alignment no elevenlabs-stt?

O forced alignment usa os modelos Scribe para alinhar o áudio ao texto em nível de palavra, retornando timestamps precisos por token ou palavra.

Isso é útil quando você:

Já tem um roteiro ou show notes e quer alinhá-los à gravação final
Precisa de timing preciso de lip-sync (para dublagem, karaokê ou destaque de legendas)
Quer localizar rapidamente onde cada fala aparece no áudio

Os detalhes da saída de alinhamento são controlados pelo app elevenlabs/stt; elevenlabs-stt é a ponte que expõe isso para seus workflows em agentes e CLI.

elevenlabs-stt é adequado para transcrição em streaming em tempo real?

A documentação e os exemplos da skill focam em transcrição baseada em arquivos via infsh app run com uma referência de entrada audio. Não há menção explícita a streaming em tempo real nas evidências fornecidas.

Por isso, o elevenlabs-stt deve ser tratado como uma ferramenta de transcrição em batch para áudios gravados, e não como uma solução de legendagem ao vivo de baixa latência.

Onde posso ver ou modificar a configuração do elevenlabs-stt?

Você pode explorar a skill no repositório GitHub inferen-sh/skills:

Repositório base: https://github.com/inferen-sh/skills
Caminho da skill: tools/audio/elevenlabs-stt/

Comece pelo SKILL.md para entender triggers, descrição e uso. Se sua plataforma suporta skills customizadas, você pode fazer fork e adaptar a configuração da skill, prompts ou ferramentas permitidas para o seu ambiente.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

elevenlabs-music

by inferen-sh

Gere músicas originais com IA a partir de prompts em texto usando o CLI inference.sh e ElevenLabs. Controle duração, estilo e clima para criar trilhas de fundo royalty-free, trilhas sonoras, vinhetas, camas para podcasts e áudio para games diretamente pelo terminal.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing permite dublar e traduzir automaticamente áudio ou vídeo para 29 idiomas usando a CLI do inference.sh, preservando as vozes originais dos locutores. Ideal para editores de vídeo, podcasters e equipes de localização que precisam de versões multilíngues rápidas e de alta qualidade de conteúdos já existentes.

Video Editing

Favorites 0GitHub 0

elevenlabs-voice-isolator

by inferen-sh

Skill de isolamento de voz da ElevenLabs via CLI para remover ruído de fundo e isolar vocais em áudios usando o inference.sh. Ideal para limpeza de podcasts, entrevistas, vocais de música, gravações ruidosas e fluxos de trabalho de restauração de áudio.

Audio Editing

Favorites 0GitHub 232

elevenlabs-sound-effects

by inferen-sh

Gere efeitos sonoros com IA a partir de prompts de texto usando ElevenLabs via a CLI do inference.sh. Ideal para editores de vídeo, desenvolvedores de jogos, podcasters, cineastas e criadores de conteúdo que precisam de sound design rápido e livre de royalties. Oferece text-to-sound-effect, duração ajustável e controle de prompt para SFX cinematográficos, ambientes e prontos para games.

Audio Editing

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

Crie e execute pipelines de conteúdo em IA com múltiplas etapas, encadeando ferramentas de imagem, vídeo, áudio e texto via CLI do inference.sh. Use ai-content-pipeline para automatizar fluxos como: gerar uma imagem, animá-la em vídeo, adicionar trilha sonora ou narração e preparar conteúdo para YouTube, redes sociais e campanhas de marketing.

Workflow Automation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Gere música com IA e músicas completas a partir de prompts de texto usando ElevenLabs Music, Diffrythm e Tencent Song Generation via o CLI inference.sh. Ideal para trilhas de fundo, soundtracks, clipes para redes sociais, podcasts e músicas royalty-free. Suporta geração rápida de faixas, instrumentais e músicas completas com vocais.

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

Skill de mudança de voz ElevenLabs usando o CLI inference.sh (infsh) para transformar fala gravada em outra voz sintética, preservando o conteúdo e a emoção. Suporta `eleven_multilingual_sts_v2` (70+ idiomas) e `eleven_english_sts_v2` para speech-to-speech, mudança de sotaque e disfarce de voz em criação de conteúdo, dublagem e vozes de personagem.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Gere áudios de diálogo refinados com múltiplos locutores usando ElevenLabs via a CLI do inference.sh. Transforme roteiros estruturados em conversas naturais com várias vozes em um único arquivo, ideal para podcasts, audiolivros, explicadores, tutoriais, diálogos de personagens e roteiros de vídeo.

Voice Generation

Favorites 0GitHub 0