I

elevenlabs-stt

por inferen-sh

Conversión de voz a texto de alta precisión con ElevenLabs a través de la CLI de inference.sh usando los modelos Scribe v1/v2. Permite transcripción, diarización de hablantes, etiquetado de eventos de audio, marcas de tiempo a nivel de palabra, forced alignment y generación de subtítulos para reuniones, pódcast y otros flujos de trabajo de audio.

Estrellas0
Favoritos0
Comentarios0
Agregado27 mar 2026
CategoríaAudio Editing
Comando de instalación
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt
Resumen

Descripción general

¿Qué es elevenlabs-stt?

elevenlabs-stt es una skill de speech-to-text que conecta tus agentes o flujos de trabajo en CLI con los modelos ElevenLabs Scribe a través de la CLI de inference.sh (infsh).

Está centrada en la transcripción de audio de alta precisión y alineada en el tiempo, más que en la toma de notas general. La skill está pensada para flujos de trabajo de medios como:

  • Limpieza de grabaciones de voz para edición de audio y vídeo
  • Creación de subtítulos y rótulos precisos con tiempos
  • Producción de transcripciones de pódcast y entrevistas
  • Generación de tiempos para lip-sync y karaoke mediante alineación a nivel de palabra
  • Etiquetado de eventos de audio e identificación de distintos hablantes en una grabación

Capacidades clave

Basada en los modelos ElevenLabs Scribe v1/v2 (a través de la app elevenlabs/stt en inference.sh), elevenlabs-stt ofrece:

  • Transcripción de audio a texto estructurado
  • Diarización de hablantes e identificación de quién habla y cuándo
  • Etiquetado de eventos de audio (por ejemplo, música, silencio, sonidos de fondo)
  • Marcas de tiempo a nivel de palabra y forced alignment con un texto existente
  • Salida compatible con subtítulos, lista para rótulos y postproducción
  • Soporte multilingüe en más de 90 idiomas con detección automática

Los modelos se describen como capaces de ofrecer más de un 98 % de precisión en transcripción en condiciones compatibles, lo que hace que esta skill sea adecuada para proyectos de audio y vídeo de calidad de producción.

¿Para quién es elevenlabs-stt?

elevenlabs-stt encaja muy bien si:

  • Trabajas en postproducción de audio o vídeo y necesitas transcripciones fiables
  • Produces pódcast, webinars, entrevistas o clases y quieres texto automatizado
  • Necesitas subtítulos alineados en el tiempo o archivos de rótulos dentro de tu flujo de trabajo
  • Creas herramientas para desarrolladores, agentes o pipelines que deban llamar a ElevenLabs STT desde scripts
  • Quieres mantener todo en un entorno CLI-first y JSON-first

Es menos adecuado si:

  • Necesitas una interfaz puramente en navegador, no técnica, sin CLI
  • Solo requieres toma de notas informal desde audio y no te importan los tiempos, la diarización ni las estructuras de datos
  • No puedes instalar ni usar la CLI infsh donde se ejecuta tu agente

Cómo encaja en tu stack de herramientas

elevenlabs-stt se sitúa en la capa de edición de audio y herramientas de voz de tu stack:

  • Upstream: captura de audio (grabaciones de Zoom, OBS, audio de teléfono, WAV/MP3 sin procesar)
  • Núcleo: elevenlabs-stt + infsh para transcribir, diarizar, alinear y etiquetar
  • Downstream: timelines en NLE (Premiere, Resolve), flujos de subtitulado, índices de búsqueda, resúmenes con IA o agentes de QA

Al estar la skill definida en el repositorio inferen-sh/skills, se integra bien con otras herramientas basadas en inference.sh, usando Bash (infsh *) por debajo.

Cómo usarlo

1. Requisitos previos y entorno

Antes de usar elevenlabs-stt como skill, necesitas:

  • CLI de inference.sh (infsh) instalada en la máquina donde se ejecute el agente o el usuario
  • Una cuenta de inference.sh activa y un login válido
  • Acceso a red para que infsh pueda llamar a la app elevenlabs/stt y (opcionalmente) acceder a cualquier URL de audio remota que proporciones

Para instalar la CLI, sigue las instrucciones oficiales referenciadas en la skill:

  • Documentación de instalación de la CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Una vez instalada, autentícate:

infsh login

Esto configura las credenciales necesarias para las llamadas posteriores de infsh app run desde la skill.

2. Instalación de la skill elevenlabs-stt

Si utilizas un entorno con soporte para skills que admita npx skills, puedes añadir elevenlabs-stt directamente desde el repositorio inferen-sh/skills:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Esto hará lo siguiente:

  • Registrar la skill elevenlabs-stt por su slug
  • Poner su configuración (incluidas herramientas permitidas y lógica de flujo de trabajo) a disposición del runtime de tu agente

Si tu entorno gestiona las skills de forma distinta, replica el mismo repositorio y slug de la skill, asegurándote de que los metadatos de la skill (SKILL.md, metadata.json si existe) se cargan correctamente.

3. Flujo de trabajo básico de transcripción

Una vez que la skill y la CLI estén instaladas, la operación de fondo es una llamada a la app elevenlabs/stt mediante infsh.

Un ejemplo manual básico (equivalente a lo que automatiza la skill) sería:

# Transcribir un archivo de audio remoto
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Este patrón es la base de cómo funciona elevenlabs-stt dentro de tu agente. La skill:

  • Acepta tu entrada de audio (URL o ruta, según tu integración)
  • Llama a infsh app run elevenlabs/stt con entrada JSON
  • Devuelve JSON estructurado con el texto de la transcripción y la información de tiempos

Utiliza este modelo mental al configurar prompts, herramientas o pipelines alrededor de la skill.

4. Elección de modelos: Scribe v1 vs Scribe v2

La skill expone los modelos ElevenLabs Scribe v1 y Scribe v2:

  • Scribe v2 (scribe_v2) – Último modelo y de mayor precisión (por defecto). Recomendado para la mayoría de proyectos nuevos.
  • Scribe v1 (scribe_v1) – Versión estable y probada. Útil para mantener consistencia con flujos ya existentes o cuando ya has validado su comportamiento.

Si tu entorno o agente permite pasar parámetros de modelo, puedes seleccionar el ID del modelo según tus necesidades. Si no se especifica modelo, se espera que Scribe v2 se use por defecto, tal como está documentado.

5. Patrones de uso práctico

A continuación se muestran formas habituales de usar elevenlabs-stt una vez instalado.

Transcripción básica

Para notas sencillas de reuniones, pódcast o clases:

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

Envuelve esta llamada dentro del flujo de tu agente para que los usuarios puedan decir cosas como:

  • "Transcribe esta grabación de reunión con elevenlabs-stt."
  • "Usa elevenlabs-stt para convertir este MP3 en una transcripción de texto."

El resultado es una transcripción estructurada que puedes almacenar, indexar o resumir.

Diarización e identificación de hablantes

Si la app elevenlabs/stt está configurada para diarización de hablantes, la salida JSON incluye tokens o segmentos etiquetados por hablante.

En los prompts de tu agente, puedes indicar instrucciones como:

  • "Ejecuta elevenlabs-stt y devuelve segmentos de transcripción separados por hablante."
  • "Agrupa la transcripción por hablante, conservando las marcas de tiempo de elevenlabs-stt."

Esto es especialmente útil para mesas redondas, llamadas con clientes o programas de entrevistas.

Generación de subtítulos y rótulos

Como elevenlabs-stt genera marcas de tiempo y alineación a nivel de palabra (forced alignment), puedes:

  • Convertir los segmentos en archivos de subtítulos SRT o VTT
  • Sincronizar el texto con pistas de vídeo en herramientas de postproducción
  • Impulsar resaltado estilo karaoke o referencias de lip-sync

En un flujo de trabajo, podrías:

  1. Ejecutar elevenlabs-stt sobre tu pista de audio.
  2. Mapear los datos de tiempo a bloques de subtítulos.
  3. Exportar o enviar los subtítulos a tu NLE o plataforma de streaming.

Etiquetado de eventos de audio

Cuando el etiquetado de eventos de audio está activado en tus llamadas a elevenlabs/stt, la salida puede marcar música, silencio, ruido u otros eventos.

Úsalo para:

  • Marcar puntos de corte para editores
  • Omitir segmentos sin voz al generar resúmenes
  • Detectar automáticamente los tramos en los que el hablante principal está activo

6. Estructura de archivos y repositorio

En el repositorio inferen-sh/skills, la skill elevenlabs-stt se encuentra en:

  • tools/audio/elevenlabs-stt/

Archivos clave que deberías revisar si vas a personalizar o autoalojar la skill:

  • SKILL.md – Descripción canónica de la skill, su propósito y disparadores
  • Cualquier directorio rules/, resources/ o scripts/ asociado (si existe) con lógica auxiliar

Estos archivos documentan cómo se conecta la skill con la CLI infsh y qué prompts o restricciones espera.

FAQ

¿Cuándo debería usar elevenlabs-stt en lugar de una herramienta de speech-to-text más simple?

Utiliza elevenlabs-stt cuando necesites alta precisión, marcas de tiempo y estructura, en lugar de solo texto aproximado.

Es especialmente adecuado si tu trabajo principal es:

  • Editar audio o vídeo
  • Publicar pódcast o contenido "talking-head"
  • Crear rótulos y subtítulos
  • Analizar conversaciones con etiquetas de hablante y tiempos

Si solo necesitas transcripciones informales sin tiempos ni información de hablantes, puede bastar una herramienta más ligera.

¿Qué precisión y cobertura de idiomas puedo esperar?

Según la descripción de la skill, los modelos ElevenLabs Scribe ofrecen:

  • Más de un 98 % de precisión en transcripción en condiciones compatibles
  • Cobertura para más de 90 idiomas con detección automática de idioma

El rendimiento real dependerá de la calidad de la grabación, acentos, ruidos de fondo y posición del micrófono, pero los modelos están planteados como opciones de alta precisión adecuadas para uso en producción.

¿Necesito la CLI de inference.sh para usar elevenlabs-stt?

Sí. elevenlabs-stt está implementado alrededor de la CLI de inference.sh (infsh) y la app elevenlabs/stt. Las herramientas permitidas de la skill incluyen explícitamente Bash con comandos infsh.

Si no puedes instalar ni ejecutar infsh en tu entorno, no podrás usar elevenlabs-stt tal como está diseñado. En ese caso, necesitarías otra skill o una integración directa con API fuera de este repositorio.

¿elevenlabs-stt puede trabajar con archivos de audio locales o solo con URLs?

El ejemplo de la documentación usa una URL remota:

infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

En general, inference.sh admite varios patrones de entrada, pero el manejo exacto de archivos locales depende de cómo esté configurado tu entorno infsh (por ejemplo, políticas de subida o rutas montadas).

Dentro de un agente, normalmente puedes:

  • Proporcionar una URL directa a archivos de audio alojados, o
  • Usar el sistema de gestión de archivos de tu runtime para hacer que los archivos locales sean accesibles para infsh.

Consulta las reglas de paso de archivos de tu propio entorno si necesitas flujos estrictamente locales.

¿elevenlabs-stt genera directamente archivos SRT o VTT?

La skill se integra con la app elevenlabs/stt, que devuelve JSON estructurado con marcas de tiempo y alineación. La evidencia del repositorio se centra en la salida JSON, no en la exportación directa a SRT/VTT.

Sin embargo, puedes:

  1. Tomar la salida JSON de elevenlabs-stt.
  2. Mapear los segmentos y marcas de tiempo a bloques SRT o VTT.
  3. Guardar esos datos como archivos de subtítulos en tu pipeline.

Muchos usuarios conectan esto con scripts sencillos o pasos de postprocesado en sus agentes.

¿Cómo funciona el forced alignment en elevenlabs-stt?

El forced alignment utiliza los modelos Scribe subyacentes para alinear el audio con el texto a nivel de palabra, devolviendo marcas de tiempo precisas por token o palabra.

Esto es útil cuando:

  • Ya tienes un guion o show notes y quieres alinearlos con la grabación final
  • Necesitas tiempos precisos de lip-sync (para doblaje, karaoke o resaltado de subtítulos)
  • Quieres localizar rápidamente dónde se dijo cada línea en el audio

Los detalles de la salida de alineación los controla la app elevenlabs/stt; elevenlabs-stt es el puente en forma de skill que la expone a tus flujos de trabajo con agentes y CLI.

¿elevenlabs-stt es adecuado para transcripción en streaming en tiempo real?

La documentación y los ejemplos de la skill se centran en transcripción basada en archivos mediante infsh app run con una referencia de entrada audio. No hay ninguna mención explícita a streaming en tiempo real en la evidencia proporcionada.

Por tanto, elevenlabs-stt debe tratarse principalmente como una herramienta de transcripción por lotes para archivos de audio grabados, no como una solución de subtitulado en vivo de baja latencia.

¿Dónde puedo ver o modificar la configuración de elevenlabs-stt?

Puedes explorar la skill en el repositorio GitHub inferen-sh/skills:

  • Repo base: https://github.com/inferen-sh/skills
  • Ruta de la skill: tools/audio/elevenlabs-stt/

Empieza por SKILL.md para entender disparadores, descripción y uso. Si tu plataforma admite skills personalizadas, puedes hacer fork y adaptar la configuración, los prompts o las herramientas permitidas de la skill para ajustarlos a tu entorno.

Calificaciones y reseñas

Aún no hay calificaciones
Comparte tu reseña
Inicia sesión para dejar una calificación y un comentario sobre esta skill.
G
0/10000
Reseñas más recientes
Guardando...