elevenlabs-stt

por inferen-sh

Conversión de voz a texto de alta precisión con ElevenLabs a través de la CLI de inference.sh usando los modelos Scribe v1/v2. Permite transcripción, diarización de hablantes, etiquetado de eventos de audio, marcas de tiempo a nivel de palabra, forced alignment y generación de subtítulos para reuniones, pódcast y otros flujos de trabajo de audio.

Estrellas0

Favoritos0

Comentarios0

Agregado27 mar 2026

CategoríaAudio Editing

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Audio Video Cli API Workflow Developer Audience

Resumen

Descripción general

¿Qué es elevenlabs-stt?

elevenlabs-stt es una skill de speech-to-text que conecta tus agentes o flujos de trabajo en CLI con los modelos ElevenLabs Scribe a través de la CLI de inference.sh (infsh).

Está centrada en la transcripción de audio de alta precisión y alineada en el tiempo, más que en la toma de notas general. La skill está pensada para flujos de trabajo de medios como:

Limpieza de grabaciones de voz para edición de audio y vídeo
Creación de subtítulos y rótulos precisos con tiempos
Producción de transcripciones de pódcast y entrevistas
Generación de tiempos para lip-sync y karaoke mediante alineación a nivel de palabra
Etiquetado de eventos de audio e identificación de distintos hablantes en una grabación

Capacidades clave

Basada en los modelos ElevenLabs Scribe v1/v2 (a través de la app elevenlabs/stt en inference.sh), elevenlabs-stt ofrece:

Transcripción de audio a texto estructurado
Diarización de hablantes e identificación de quién habla y cuándo
Etiquetado de eventos de audio (por ejemplo, música, silencio, sonidos de fondo)
Marcas de tiempo a nivel de palabra y forced alignment con un texto existente
Salida compatible con subtítulos, lista para rótulos y postproducción
Soporte multilingüe en más de 90 idiomas con detección automática

Los modelos se describen como capaces de ofrecer más de un 98 % de precisión en transcripción en condiciones compatibles, lo que hace que esta skill sea adecuada para proyectos de audio y vídeo de calidad de producción.

¿Para quién es elevenlabs-stt?

elevenlabs-stt encaja muy bien si:

Trabajas en postproducción de audio o vídeo y necesitas transcripciones fiables
Produces pódcast, webinars, entrevistas o clases y quieres texto automatizado
Necesitas subtítulos alineados en el tiempo o archivos de rótulos dentro de tu flujo de trabajo
Creas herramientas para desarrolladores, agentes o pipelines que deban llamar a ElevenLabs STT desde scripts
Quieres mantener todo en un entorno CLI-first y JSON-first

Es menos adecuado si:

Necesitas una interfaz puramente en navegador, no técnica, sin CLI
Solo requieres toma de notas informal desde audio y no te importan los tiempos, la diarización ni las estructuras de datos
No puedes instalar ni usar la CLI infsh donde se ejecuta tu agente

Cómo encaja en tu stack de herramientas

elevenlabs-stt se sitúa en la capa de edición de audio y herramientas de voz de tu stack:

Upstream: captura de audio (grabaciones de Zoom, OBS, audio de teléfono, WAV/MP3 sin procesar)
Núcleo: elevenlabs-stt + infsh para transcribir, diarizar, alinear y etiquetar
Downstream: timelines en NLE (Premiere, Resolve), flujos de subtitulado, índices de búsqueda, resúmenes con IA o agentes de QA

Al estar la skill definida en el repositorio inferen-sh/skills, se integra bien con otras herramientas basadas en inference.sh, usando Bash (infsh *) por debajo.

Cómo usarlo

1. Requisitos previos y entorno

Antes de usar elevenlabs-stt como skill, necesitas:

CLI de inference.sh (infsh) instalada en la máquina donde se ejecute el agente o el usuario
Una cuenta de inference.sh activa y un login válido
Acceso a red para que infsh pueda llamar a la app elevenlabs/stt y (opcionalmente) acceder a cualquier URL de audio remota que proporciones

Para instalar la CLI, sigue las instrucciones oficiales referenciadas en la skill:

Documentación de instalación de la CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Una vez instalada, autentícate:

infsh login

Esto configura las credenciales necesarias para las llamadas posteriores de infsh app run desde la skill.

2. Instalación de la skill elevenlabs-stt

Si utilizas un entorno con soporte para skills que admita npx skills, puedes añadir elevenlabs-stt directamente desde el repositorio inferen-sh/skills:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Esto hará lo siguiente:

Registrar la skill elevenlabs-stt por su slug
Poner su configuración (incluidas herramientas permitidas y lógica de flujo de trabajo) a disposición del runtime de tu agente

Si tu entorno gestiona las skills de forma distinta, replica el mismo repositorio y slug de la skill, asegurándote de que los metadatos de la skill (SKILL.md, metadata.json si existe) se cargan correctamente.

3. Flujo de trabajo básico de transcripción

Una vez que la skill y la CLI estén instaladas, la operación de fondo es una llamada a la app elevenlabs/stt mediante infsh.

Un ejemplo manual básico (equivalente a lo que automatiza la skill) sería:

# Transcribir un archivo de audio remoto
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Este patrón es la base de cómo funciona elevenlabs-stt dentro de tu agente. La skill:

Acepta tu entrada de audio (URL o ruta, según tu integración)
Llama a infsh app run elevenlabs/stt con entrada JSON
Devuelve JSON estructurado con el texto de la transcripción y la información de tiempos

Utiliza este modelo mental al configurar prompts, herramientas o pipelines alrededor de la skill.

4. Elección de modelos: Scribe v1 vs Scribe v2

La skill expone los modelos ElevenLabs Scribe v1 y Scribe v2:

Scribe v2 (scribe_v2) – Último modelo y de mayor precisión (por defecto). Recomendado para la mayoría de proyectos nuevos.
Scribe v1 (scribe_v1) – Versión estable y probada. Útil para mantener consistencia con flujos ya existentes o cuando ya has validado su comportamiento.

Si tu entorno o agente permite pasar parámetros de modelo, puedes seleccionar el ID del modelo según tus necesidades. Si no se especifica modelo, se espera que Scribe v2 se use por defecto, tal como está documentado.

5. Patrones de uso práctico

A continuación se muestran formas habituales de usar elevenlabs-stt una vez instalado.

Transcripción básica

Para notas sencillas de reuniones, pódcast o clases:

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

Envuelve esta llamada dentro del flujo de tu agente para que los usuarios puedan decir cosas como:

"Transcribe esta grabación de reunión con elevenlabs-stt."
"Usa elevenlabs-stt para convertir este MP3 en una transcripción de texto."

El resultado es una transcripción estructurada que puedes almacenar, indexar o resumir.

Diarización e identificación de hablantes

Si la app elevenlabs/stt está configurada para diarización de hablantes, la salida JSON incluye tokens o segmentos etiquetados por hablante.

En los prompts de tu agente, puedes indicar instrucciones como:

"Ejecuta elevenlabs-stt y devuelve segmentos de transcripción separados por hablante."
"Agrupa la transcripción por hablante, conservando las marcas de tiempo de elevenlabs-stt."

Esto es especialmente útil para mesas redondas, llamadas con clientes o programas de entrevistas.

Generación de subtítulos y rótulos

Como elevenlabs-stt genera marcas de tiempo y alineación a nivel de palabra (forced alignment), puedes:

Convertir los segmentos en archivos de subtítulos SRT o VTT
Sincronizar el texto con pistas de vídeo en herramientas de postproducción
Impulsar resaltado estilo karaoke o referencias de lip-sync

En un flujo de trabajo, podrías:

Ejecutar elevenlabs-stt sobre tu pista de audio.
Mapear los datos de tiempo a bloques de subtítulos.
Exportar o enviar los subtítulos a tu NLE o plataforma de streaming.

Etiquetado de eventos de audio

Cuando el etiquetado de eventos de audio está activado en tus llamadas a elevenlabs/stt, la salida puede marcar música, silencio, ruido u otros eventos.

Úsalo para:

Marcar puntos de corte para editores
Omitir segmentos sin voz al generar resúmenes
Detectar automáticamente los tramos en los que el hablante principal está activo

6. Estructura de archivos y repositorio

En el repositorio inferen-sh/skills, la skill elevenlabs-stt se encuentra en:

tools/audio/elevenlabs-stt/

Archivos clave que deberías revisar si vas a personalizar o autoalojar la skill:

SKILL.md – Descripción canónica de la skill, su propósito y disparadores
Cualquier directorio rules/, resources/ o scripts/ asociado (si existe) con lógica auxiliar

Estos archivos documentan cómo se conecta la skill con la CLI infsh y qué prompts o restricciones espera.

FAQ

¿Cuándo debería usar elevenlabs-stt en lugar de una herramienta de speech-to-text más simple?

Utiliza elevenlabs-stt cuando necesites alta precisión, marcas de tiempo y estructura, en lugar de solo texto aproximado.

Es especialmente adecuado si tu trabajo principal es:

Editar audio o vídeo
Publicar pódcast o contenido "talking-head"
Crear rótulos y subtítulos
Analizar conversaciones con etiquetas de hablante y tiempos

Si solo necesitas transcripciones informales sin tiempos ni información de hablantes, puede bastar una herramienta más ligera.

¿Qué precisión y cobertura de idiomas puedo esperar?

Según la descripción de la skill, los modelos ElevenLabs Scribe ofrecen:

Más de un 98 % de precisión en transcripción en condiciones compatibles
Cobertura para más de 90 idiomas con detección automática de idioma

El rendimiento real dependerá de la calidad de la grabación, acentos, ruidos de fondo y posición del micrófono, pero los modelos están planteados como opciones de alta precisión adecuadas para uso en producción.

¿Necesito la CLI de inference.sh para usar elevenlabs-stt?

Sí. elevenlabs-stt está implementado alrededor de la CLI de inference.sh (infsh) y la app elevenlabs/stt. Las herramientas permitidas de la skill incluyen explícitamente Bash con comandos infsh.

Si no puedes instalar ni ejecutar infsh en tu entorno, no podrás usar elevenlabs-stt tal como está diseñado. En ese caso, necesitarías otra skill o una integración directa con API fuera de este repositorio.

¿elevenlabs-stt puede trabajar con archivos de audio locales o solo con URLs?

El ejemplo de la documentación usa una URL remota:

infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

En general, inference.sh admite varios patrones de entrada, pero el manejo exacto de archivos locales depende de cómo esté configurado tu entorno infsh (por ejemplo, políticas de subida o rutas montadas).

Dentro de un agente, normalmente puedes:

Proporcionar una URL directa a archivos de audio alojados, o
Usar el sistema de gestión de archivos de tu runtime para hacer que los archivos locales sean accesibles para infsh.

Consulta las reglas de paso de archivos de tu propio entorno si necesitas flujos estrictamente locales.

¿elevenlabs-stt genera directamente archivos SRT o VTT?

La skill se integra con la app elevenlabs/stt, que devuelve JSON estructurado con marcas de tiempo y alineación. La evidencia del repositorio se centra en la salida JSON, no en la exportación directa a SRT/VTT.

Sin embargo, puedes:

Tomar la salida JSON de elevenlabs-stt.
Mapear los segmentos y marcas de tiempo a bloques SRT o VTT.
Guardar esos datos como archivos de subtítulos en tu pipeline.

Muchos usuarios conectan esto con scripts sencillos o pasos de postprocesado en sus agentes.

¿Cómo funciona el forced alignment en elevenlabs-stt?

El forced alignment utiliza los modelos Scribe subyacentes para alinear el audio con el texto a nivel de palabra, devolviendo marcas de tiempo precisas por token o palabra.

Esto es útil cuando:

Ya tienes un guion o show notes y quieres alinearlos con la grabación final
Necesitas tiempos precisos de lip-sync (para doblaje, karaoke o resaltado de subtítulos)
Quieres localizar rápidamente dónde se dijo cada línea en el audio

Los detalles de la salida de alineación los controla la app elevenlabs/stt; elevenlabs-stt es el puente en forma de skill que la expone a tus flujos de trabajo con agentes y CLI.

¿elevenlabs-stt es adecuado para transcripción en streaming en tiempo real?

La documentación y los ejemplos de la skill se centran en transcripción basada en archivos mediante infsh app run con una referencia de entrada audio. No hay ninguna mención explícita a streaming en tiempo real en la evidencia proporcionada.

Por tanto, elevenlabs-stt debe tratarse principalmente como una herramienta de transcripción por lotes para archivos de audio grabados, no como una solución de subtitulado en vivo de baja latencia.

¿Dónde puedo ver o modificar la configuración de elevenlabs-stt?

Puedes explorar la skill en el repositorio GitHub inferen-sh/skills:

Repo base: https://github.com/inferen-sh/skills
Ruta de la skill: tools/audio/elevenlabs-stt/

Empieza por SKILL.md para entender disparadores, descripción y uso. Si tu plataforma admite skills personalizadas, puedes hacer fork y adaptar la configuración, los prompts o las herramientas permitidas de la skill para ajustarlos a tu entorno.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

elevenlabs-voice-changer

by inferen-sh

Skill de cambio de voz de ElevenLabs que utiliza la CLI de inference.sh (infsh) para transformar locuciones grabadas en otra voz sintética, manteniendo el contenido y la emoción. Es compatible con `eleven_multilingual_sts_v2` (70+ idiomas) y `eleven_english_sts_v2` para tareas de speech-to-speech, cambio de acento y camuflaje de voz en creación de contenidos, doblaje y voces de personaje.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Crea audio de diálogos realistas con varios locutores usando Dia TTS y ElevenLabs a través de la CLI inference.sh. La skill dialogue-audio te ayuda a controlar locutores, emoción, ritmo y flujo de conversación para pódcasts, audiolibros, vídeos explicativos, escenas de personajes y otros contenidos conversacionales.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Genera audio de diálogos pulidos con múltiples voces usando ElevenLabs a través de la CLI de inference.sh. Convierte guiones estructurados en conversaciones naturales con varias voces en un solo archivo para pódcasts, audiolibros, vídeos explicativos, tutoriales, diálogos de personajes y guiones de vídeo.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Crea pódcasts y contenido de voz con IA a partir de texto usando Kokoro TTS, DIA TTS y la CLI de inference.sh. Mezcla varias voces, añade música y arma episodios completos para pódcasts, audiolibros y boletines de audio.

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-isolator

by inferen-sh

Skill de aislamiento de voz de ElevenLabs, controlada por CLI, para eliminar ruido de fondo y aislar voces de archivos de audio mediante inference.sh. Ideal para limpiar podcasts, entrevistas, voces en música, grabaciones ruidosas y flujos de trabajo de restauración de audio.

Audio Editing

Favorites 0GitHub 232

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing te permite doblar y traducir automáticamente audio o vídeo a 29 idiomas usando la CLI de inference.sh, preservando las voces originales de los locutores. Es ideal para editores de vídeo, podcasters y equipos de localización que necesitan versiones multilingües rápidas y de alta calidad de contenido ya existente.

Video Editing

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Genera música original con IA a partir de prompts de texto usando la CLI de inference.sh y ElevenLabs. Controla duración, estilo y estado de ánimo para crear música de fondo libre de regalías, bandas sonoras, jingles, camas para podcasts y audio para videojuegos directamente desde tu terminal.

Audio Editing

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

Texto a voz de ElevenLabs a través de la CLI de inference.sh, con más de 22 voces premium, compatibilidad multilingüe y modelos rápidos para flujos de trabajo de generación de voz en producción.

Voice Generation

Favorites 0GitHub 0