elevenlabs-stt
par inferen-shReconnaissance vocale ElevenLabs haute précision via le CLI inference.sh, en utilisant les modèles Scribe v1/v2. Prend en charge la transcription, la diarisation des locuteurs, le tagging d’événements audio, les timecodes au mot, le forced alignment et la génération de sous-titres pour les réunions, podcasts et autres workflows audio.
Vue d’ensemble
Qu’est-ce que elevenlabs-stt ?
elevenlabs-stt est une skill de speech-to-text qui connecte vos agents ou workflows CLI aux modèles ElevenLabs Scribe via le CLI inference.sh (infsh).
Elle est optimisée pour une transcription audio très précise et synchronisée dans le temps, plutôt que pour la prise de notes générale. La skill est pensée pour des workflows média tels que :
- Le nettoyage d’enregistrements vocaux pour le montage audio et vidéo
- La création de sous-titres et captions précis avec timecodes
- La production de transcripts de podcasts et d’interviews
- La génération de timings pour lip-sync et karaoké grâce à l’alignement au mot
- Le tagging d’événements audio et l’identification des différents locuteurs dans un enregistrement
Capacités principales
Reposant sur les modèles ElevenLabs Scribe v1/v2 (via l’app elevenlabs/stt sur inference.sh), elevenlabs-stt offre :
- Transcription de l’audio en texte structuré
- Diarisation et identification des locuteurs (qui parle quand)
- Tagging d’événements audio (par ex. musique, silence, bruit de fond)
- Timecodes au niveau du mot et forced alignment avec un texte existant
- Sortie adaptée aux sous-titres, prête pour les captions et la post‑production
- Support multilingue sur plus de 90 langues avec détection automatique
Les modèles sont décrits comme atteignant plus de 98 % de précision de transcription dans les conditions prises en charge, ce qui rend cette skill adaptée à des projets audio et vidéo de qualité production.
À qui s’adresse elevenlabs-stt ?
elevenlabs-stt est particulièrement adaptée si vous :
- Travaillez en post‑production audio ou vidéo et avez besoin de transcripts fiables
- Produisez des podcasts, webinaires, interviews ou cours magistraux et souhaitez un texte généré automatiquement
- Avez besoin de sous-titres synchronisés ou de fichiers de captions dans votre workflow
- Développez des outils, agents ou pipelines qui doivent appeler ElevenLabs STT depuis des scripts
- Souhaitez rester dans un environnement CLI‑first et JSON‑first
Elle sera moins adaptée si vous :
- Avez besoin d’une interface purement web, non technique, sans aucun CLI
- Ne cherchez que de la prise de notes informelle à partir d’audio, sans souci des timings, de la diarisation ou de structures de données
- Ne pouvez pas installer ou utiliser le CLI
infshlà où tourne votre agent
Place dans votre chaîne d’outils
elevenlabs-stt se situe dans la couche édition audio et outillage voix de votre stack :
- Amont : capture audio (enregistrements Zoom, OBS, audio téléphone, WAV/MP3 bruts)
- Cœur : elevenlabs-stt +
infshpour transcrire, diariser, aligner et tagger - Aval : timelines de NLE (Premiere, Resolve), workflows de sous-titrage, index de recherche, agents de synthèse IA ou de QA
Comme la skill est définie dans le repo inferen-sh/skills, elle s’intègre proprement avec les autres outils basés sur inference.sh, en s’appuyant sur Bash (infsh *) sous le capot.
Guide d’utilisation
1. Prérequis et environnement
Avant d’utiliser elevenlabs-stt comme skill, vous avez besoin :
- Du CLI inference.sh (
infsh) installé sur la machine où l’agent ou l’utilisateur s’exécute - D’un compte inference.sh fonctionnel et d’une connexion valide
- D’un accès réseau pour que
infshpuisse appeler l’appelevenlabs/sttet, si nécessaire, accéder aux URLs audio distantes que vous fournissez
Pour installer le CLI, suivez les instructions officielles référencées dans la skill :
- Documentation d’installation du CLI :
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Une fois installé, authentifiez‑vous :
infsh login
Cela configure les identifiants nécessaires pour les appels infsh app run effectués par la skill.
2. Installation de la skill elevenlabs-stt
Si vous utilisez un environnement compatible skills qui prend en charge npx skills, vous pouvez ajouter elevenlabs-stt directement depuis le dépôt inferen-sh/skills :
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt
Cette commande va :
- Enregistrer la skill
elevenlabs-sttvia son slug - Rendre sa configuration (outils autorisés et logique de workflow compris) disponible pour votre runtime d’agent
Si votre environnement gère les skills différemment, reproduisez le même dépôt et slug de skill, en veillant à ce que les métadonnées de la skill (SKILL.md, metadata.json le cas échéant) soient correctement chargées.
3. Workflow de transcription principal
Une fois la skill et le CLI installés, l’opération de base consiste à appeler l’app elevenlabs/stt via infsh.
Un exemple manuel simple (équivalent à ce que la skill automatise) ressemble à ceci :
# Transcrire un fichier audio distant
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
Ce schéma est le socle de fonctionnement d’elevenlabs-stt au sein de votre agent. La skill :
- Reçoit votre entrée audio (URL ou chemin, selon votre intégration)
- Appelle
infsh app run elevenlabs/sttavec un input JSON - Renvoie un JSON structuré contenant le texte du transcript et les informations de timing
Gardez ce modèle mental en tête lorsque vous configurez prompts, outils ou pipelines autour de la skill.
4. Choisir les modèles : Scribe v1 vs Scribe v2
La skill expose les modèles ElevenLabs Scribe v1 et Scribe v2 :
- Scribe v2 (
scribe_v2) – Version la plus récente et la plus précise (par défaut). Recommandée pour la plupart des nouveaux projets. - Scribe v1 (
scribe_v1) – Version stable et éprouvée. Utile pour rester cohérent avec des workflows existants ou lorsque vous avez déjà validé son comportement.
Si votre environnement ou agent permet de transmettre les paramètres de modèle, vous pouvez sélectionner l’ID de modèle en conséquence. Si aucun modèle n’est précisé, Scribe v2 sera généralement utilisé par défaut, comme documenté.
5. Schémas d’usage pratiques
Voici des usages courants d’elevenlabs-stt une fois installée.
Transcription basique
Pour des comptes rendus de réunion, podcasts ou cours simples :
infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'
Intégrez cet appel dans votre workflow d’agent pour que les utilisateurs puissent formuler des demandes comme :
- « Transcris cette réunion avec elevenlabs-stt. »
- « Utilise elevenlabs-stt pour transformer ce MP3 en transcript texte. »
Le résultat est un transcript structuré que vous pouvez stocker, indexer ou résumer.
Diarisation et identification des locuteurs
Si l’app elevenlabs/stt en amont est configurée pour la diarisation des locuteurs, le JSON en sortie inclut des tokens ou segments labellisés par locuteur.
Dans vos prompts d’agent, vous pouvez préciser des instructions comme :
- « Lance elevenlabs-stt et renvoie un transcript segmenté par locuteur. »
- « Regroupe le transcript par locuteur en conservant les timestamps d’elevenlabs-stt. »
C’est particulièrement utile pour les tables rondes, appels clients ou émissions d’interview.
Génération de sous-titres et captions
Comme elevenlabs-stt renvoie des timestamps et un alignement au niveau du mot (forced alignment), vous pouvez :
- Convertir les segments en fichiers de captions SRT ou VTT
- Synchroniser le texte avec les pistes vidéo dans vos outils de post‑production
- Piloter un surlignage type karaoké ou un repérage lip‑sync
Dans un workflow typique, vous pourrez :
- Appeler elevenlabs-stt sur votre piste audio.
- Mapper les données de timing vers des blocs de sous-titres.
- Exporter ou injecter ces captions dans votre NLE ou votre plateforme de streaming.
Tagging d’événements audio
Quand le tagging d’événements audio est activé dans vos appels à elevenlabs/stt, la sortie peut marquer la musique, le silence, le bruit ou d’autres événements.
Utilisez‑le pour :
- Marquer des points de coupe pour les monteurs
- Ignorer les segments non parlés lors de la synthèse
- Détecter automatiquement les passages où l’intervenant principal parle
6. Structure des fichiers et du dépôt
Dans le dépôt inferen-sh/skills, la skill elevenlabs-stt se trouve sous :
tools/audio/elevenlabs-stt/
Fichiers clés à examiner si vous personnalisez ou auto‑hébergez la skill :
SKILL.md– Description canonique de la skill, de son objectif et de ses déclencheurs- D’éventuels répertoires
rules/,resources/ouscripts/(s’ils existent) pour la logique d’assistance
Ces fichiers documentent la façon dont la skill est connectée au CLI infsh et quels prompts ou contraintes elle attend.
FAQ
Quand utiliser elevenlabs-stt plutôt qu’un outil de speech-to-text plus simple ?
Utilisez elevenlabs-stt lorsque vous avez besoin de haute précision, de timecodes et de structure, et pas seulement de texte approximatif.
Elle est particulièrement adaptée si votre cœur de métier consiste à :
- Monter de l’audio ou de la vidéo
- Publier des podcasts ou du contenu « talking head »
- Créer des captions et sous-titres
- Analyser des conversations avec labels de locuteurs et timings
Si vous ne cherchez que des transcripts informels sans timing ni information de locuteur, un outil plus léger peut suffire.
Quel niveau de précision et de couverture linguistique puis-je attendre ?
D’après la description de la skill, les modèles ElevenLabs Scribe offrent :
- Plus de 98 % de précision de transcription dans les conditions prises en charge
- Une couverture de plus de 90 langues avec détection automatique de la langue
Les performances réelles dépendront de la qualité de l’enregistrement, des accents, du bruit de fond et du placement du micro, mais les modèles sont positionnés comme des options haute précision adaptées à un usage en production.
Ai-je besoin du CLI inference.sh pour utiliser elevenlabs-stt ?
Oui. elevenlabs-stt est construite autour du CLI inference.sh (infsh) et de l’app elevenlabs/stt. Les outils autorisés de la skill incluent explicitement Bash avec des commandes infsh.
Si vous ne pouvez pas installer ou exécuter infsh dans votre environnement, vous ne pourrez pas utiliser elevenlabs-stt telle qu’elle est conçue. Dans ce cas, il vous faudra une autre skill ou une intégration API directe en dehors de ce dépôt.
elevenlabs-stt peut‑elle traiter des fichiers audio locaux, ou uniquement des URLs ?
L’exemple de la documentation utilise une URL distante :
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
Inference.sh gère en général plusieurs modes d’entrée, mais la gestion exacte des fichiers locaux dépend de la configuration de votre environnement infsh (par ex. mécanismes d’upload ou chemins montés).
Dans un agent, vous pouvez en général :
- Fournir une URL directe vers des fichiers audio hébergés, ou
- Utiliser la gestion de fichiers de votre runtime pour rendre les fichiers locaux accessibles à
infsh.
Vérifiez les règles de passage de fichiers propres à votre environnement si vous avez besoin d’un workflow strictement local.
elevenlabs-stt génère‑t‑elle directement des fichiers SRT ou VTT ?
La skill s’intègre à l’app elevenlabs/stt, qui renvoie un JSON structuré avec timestamps et alignement. Les éléments du dépôt mettent l’accent sur la sortie JSON, et non sur l’export direct SRT/VTT.
Vous pouvez toutefois :
- Récupérer la sortie JSON d’elevenlabs-stt.
- Mapper segments et timestamps vers des blocs SRT ou VTT.
- Sauvegarder ces données comme fichiers de sous-titres dans votre pipeline.
Beaucoup d’utilisateurs automatisent cela via de simples scripts ou des étapes de post‑traitement dans leurs agents.
Comment fonctionne le forced alignment dans elevenlabs-stt ?
Le forced alignment s’appuie sur les modèles Scribe sous‑jacents pour aligner l’audio et le texte au niveau du mot, en renvoyant des timestamps précis par token ou par mot.
C’est utile lorsque vous :
- Disposez déjà d’un script ou de notes d’émission et souhaitez les aligner sur l’enregistrement final
- Avez besoin d’un timing précis pour le lip‑sync (doublage, karaoké, surlignage de captions)
- Voulez retrouver rapidement où chaque réplique est prononcée dans l’audio
Les détails de la sortie d’alignement sont contrôlés par l’app elevenlabs/stt ; elevenlabs-stt joue le rôle de pont qui expose cette fonctionnalité à vos agents et workflows CLI.
elevenlabs-stt convient‑elle à la transcription temps réel en streaming ?
La documentation et les exemples de la skill se concentrent sur la transcription de fichiers via infsh app run avec un champ audio en entrée. Rien n’indique explicitement la prise en charge du streaming temps réel dans les éléments fournis.
Il est donc préférable de considérer elevenlabs-stt comme un outil de transcription batch pour des fichiers audio enregistrés, plutôt que comme une solution de sous-titrage en direct à faible latence.
Où consulter ou modifier la configuration d’elevenlabs-stt ?
Vous pouvez explorer la skill dans le dépôt GitHub inferen-sh/skills :
- Repo principal :
https://github.com/inferen-sh/skills - Chemin de la skill :
tools/audio/elevenlabs-stt/
Commencez par SKILL.md pour comprendre les triggers, la description et les usages. Si votre plateforme prend en charge les skills personnalisées, vous pouvez forker et adapter la configuration, les prompts ou les outils autorisés de la skill à votre environnement.
