elevenlabs-stt

par inferen-sh

Reconnaissance vocale ElevenLabs haute précision via le CLI inference.sh, en utilisant les modèles Scribe v1/v2. Prend en charge la transcription, la diarisation des locuteurs, le tagging d’événements audio, les timecodes au mot, le forced alignment et la génération de sous-titres pour les réunions, podcasts et autres workflows audio.

Étoiles0

Favoris0

Commentaires0

Ajouté27 mars 2026

CatégorieAudio Editing

Commande d’installation

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Audio Video Cli API Workflow Developer Audience

Vue d’ensemble

Qu’est-ce que elevenlabs-stt ?

elevenlabs-stt est une skill de speech-to-text qui connecte vos agents ou workflows CLI aux modèles ElevenLabs Scribe via le CLI inference.sh (infsh).

Elle est optimisée pour une transcription audio très précise et synchronisée dans le temps, plutôt que pour la prise de notes générale. La skill est pensée pour des workflows média tels que :

Le nettoyage d’enregistrements vocaux pour le montage audio et vidéo
La création de sous-titres et captions précis avec timecodes
La production de transcripts de podcasts et d’interviews
La génération de timings pour lip-sync et karaoké grâce à l’alignement au mot
Le tagging d’événements audio et l’identification des différents locuteurs dans un enregistrement

Capacités principales

Reposant sur les modèles ElevenLabs Scribe v1/v2 (via l’app elevenlabs/stt sur inference.sh), elevenlabs-stt offre :

Transcription de l’audio en texte structuré
Diarisation et identification des locuteurs (qui parle quand)
Tagging d’événements audio (par ex. musique, silence, bruit de fond)
Timecodes au niveau du mot et forced alignment avec un texte existant
Sortie adaptée aux sous-titres, prête pour les captions et la post‑production
Support multilingue sur plus de 90 langues avec détection automatique

Les modèles sont décrits comme atteignant plus de 98 % de précision de transcription dans les conditions prises en charge, ce qui rend cette skill adaptée à des projets audio et vidéo de qualité production.

À qui s’adresse elevenlabs-stt ?

elevenlabs-stt est particulièrement adaptée si vous :

Travaillez en post‑production audio ou vidéo et avez besoin de transcripts fiables
Produisez des podcasts, webinaires, interviews ou cours magistraux et souhaitez un texte généré automatiquement
Avez besoin de sous-titres synchronisés ou de fichiers de captions dans votre workflow
Développez des outils, agents ou pipelines qui doivent appeler ElevenLabs STT depuis des scripts
Souhaitez rester dans un environnement CLI‑first et JSON‑first

Elle sera moins adaptée si vous :

Avez besoin d’une interface purement web, non technique, sans aucun CLI
Ne cherchez que de la prise de notes informelle à partir d’audio, sans souci des timings, de la diarisation ou de structures de données
Ne pouvez pas installer ou utiliser le CLI infsh là où tourne votre agent

Place dans votre chaîne d’outils

elevenlabs-stt se situe dans la couche édition audio et outillage voix de votre stack :

Amont : capture audio (enregistrements Zoom, OBS, audio téléphone, WAV/MP3 bruts)
Cœur : elevenlabs-stt + infsh pour transcrire, diariser, aligner et tagger
Aval : timelines de NLE (Premiere, Resolve), workflows de sous-titrage, index de recherche, agents de synthèse IA ou de QA

Comme la skill est définie dans le repo inferen-sh/skills, elle s’intègre proprement avec les autres outils basés sur inference.sh, en s’appuyant sur Bash (infsh *) sous le capot.

Guide d’utilisation

1. Prérequis et environnement

Avant d’utiliser elevenlabs-stt comme skill, vous avez besoin :

Du CLI inference.sh (infsh) installé sur la machine où l’agent ou l’utilisateur s’exécute
D’un compte inference.sh fonctionnel et d’une connexion valide
D’un accès réseau pour que infsh puisse appeler l’app elevenlabs/stt et, si nécessaire, accéder aux URLs audio distantes que vous fournissez

Pour installer le CLI, suivez les instructions officielles référencées dans la skill :

Documentation d’installation du CLI : https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Une fois installé, authentifiez‑vous :

infsh login

Cela configure les identifiants nécessaires pour les appels infsh app run effectués par la skill.

2. Installation de la skill elevenlabs-stt

Si vous utilisez un environnement compatible skills qui prend en charge npx skills, vous pouvez ajouter elevenlabs-stt directement depuis le dépôt inferen-sh/skills :

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Cette commande va :

Enregistrer la skill elevenlabs-stt via son slug
Rendre sa configuration (outils autorisés et logique de workflow compris) disponible pour votre runtime d’agent

Si votre environnement gère les skills différemment, reproduisez le même dépôt et slug de skill, en veillant à ce que les métadonnées de la skill (SKILL.md, metadata.json le cas échéant) soient correctement chargées.

3. Workflow de transcription principal

Une fois la skill et le CLI installés, l’opération de base consiste à appeler l’app elevenlabs/stt via infsh.

Un exemple manuel simple (équivalent à ce que la skill automatise) ressemble à ceci :

# Transcrire un fichier audio distant
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Ce schéma est le socle de fonctionnement d’elevenlabs-stt au sein de votre agent. La skill :

Reçoit votre entrée audio (URL ou chemin, selon votre intégration)
Appelle infsh app run elevenlabs/stt avec un input JSON
Renvoie un JSON structuré contenant le texte du transcript et les informations de timing

Gardez ce modèle mental en tête lorsque vous configurez prompts, outils ou pipelines autour de la skill.

4. Choisir les modèles : Scribe v1 vs Scribe v2

La skill expose les modèles ElevenLabs Scribe v1 et Scribe v2 :

Scribe v2 (scribe_v2) – Version la plus récente et la plus précise (par défaut). Recommandée pour la plupart des nouveaux projets.
Scribe v1 (scribe_v1) – Version stable et éprouvée. Utile pour rester cohérent avec des workflows existants ou lorsque vous avez déjà validé son comportement.

Si votre environnement ou agent permet de transmettre les paramètres de modèle, vous pouvez sélectionner l’ID de modèle en conséquence. Si aucun modèle n’est précisé, Scribe v2 sera généralement utilisé par défaut, comme documenté.

5. Schémas d’usage pratiques

Voici des usages courants d’elevenlabs-stt une fois installée.

Transcription basique

Pour des comptes rendus de réunion, podcasts ou cours simples :

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

Intégrez cet appel dans votre workflow d’agent pour que les utilisateurs puissent formuler des demandes comme :

« Transcris cette réunion avec elevenlabs-stt. »
« Utilise elevenlabs-stt pour transformer ce MP3 en transcript texte. »

Le résultat est un transcript structuré que vous pouvez stocker, indexer ou résumer.

Diarisation et identification des locuteurs

Si l’app elevenlabs/stt en amont est configurée pour la diarisation des locuteurs, le JSON en sortie inclut des tokens ou segments labellisés par locuteur.

Dans vos prompts d’agent, vous pouvez préciser des instructions comme :

« Lance elevenlabs-stt et renvoie un transcript segmenté par locuteur. »
« Regroupe le transcript par locuteur en conservant les timestamps d’elevenlabs-stt. »

C’est particulièrement utile pour les tables rondes, appels clients ou émissions d’interview.

Génération de sous-titres et captions

Comme elevenlabs-stt renvoie des timestamps et un alignement au niveau du mot (forced alignment), vous pouvez :

Convertir les segments en fichiers de captions SRT ou VTT
Synchroniser le texte avec les pistes vidéo dans vos outils de post‑production
Piloter un surlignage type karaoké ou un repérage lip‑sync

Dans un workflow typique, vous pourrez :

Appeler elevenlabs-stt sur votre piste audio.
Mapper les données de timing vers des blocs de sous-titres.
Exporter ou injecter ces captions dans votre NLE ou votre plateforme de streaming.

Tagging d’événements audio

Quand le tagging d’événements audio est activé dans vos appels à elevenlabs/stt, la sortie peut marquer la musique, le silence, le bruit ou d’autres événements.

Utilisez‑le pour :

Marquer des points de coupe pour les monteurs
Ignorer les segments non parlés lors de la synthèse
Détecter automatiquement les passages où l’intervenant principal parle

6. Structure des fichiers et du dépôt

Dans le dépôt inferen-sh/skills, la skill elevenlabs-stt se trouve sous :

tools/audio/elevenlabs-stt/

Fichiers clés à examiner si vous personnalisez ou auto‑hébergez la skill :

SKILL.md – Description canonique de la skill, de son objectif et de ses déclencheurs
D’éventuels répertoires rules/, resources/ ou scripts/ (s’ils existent) pour la logique d’assistance

Ces fichiers documentent la façon dont la skill est connectée au CLI infsh et quels prompts ou contraintes elle attend.

FAQ

Quand utiliser elevenlabs-stt plutôt qu’un outil de speech-to-text plus simple ?

Utilisez elevenlabs-stt lorsque vous avez besoin de haute précision, de timecodes et de structure, et pas seulement de texte approximatif.

Elle est particulièrement adaptée si votre cœur de métier consiste à :

Monter de l’audio ou de la vidéo
Publier des podcasts ou du contenu « talking head »
Créer des captions et sous-titres
Analyser des conversations avec labels de locuteurs et timings

Si vous ne cherchez que des transcripts informels sans timing ni information de locuteur, un outil plus léger peut suffire.

Quel niveau de précision et de couverture linguistique puis-je attendre ?

D’après la description de la skill, les modèles ElevenLabs Scribe offrent :

Plus de 98 % de précision de transcription dans les conditions prises en charge
Une couverture de plus de 90 langues avec détection automatique de la langue

Les performances réelles dépendront de la qualité de l’enregistrement, des accents, du bruit de fond et du placement du micro, mais les modèles sont positionnés comme des options haute précision adaptées à un usage en production.

Ai-je besoin du CLI inference.sh pour utiliser elevenlabs-stt ?

Oui. elevenlabs-stt est construite autour du CLI inference.sh (infsh) et de l’app elevenlabs/stt. Les outils autorisés de la skill incluent explicitement Bash avec des commandes infsh.

Si vous ne pouvez pas installer ou exécuter infsh dans votre environnement, vous ne pourrez pas utiliser elevenlabs-stt telle qu’elle est conçue. Dans ce cas, il vous faudra une autre skill ou une intégration API directe en dehors de ce dépôt.

elevenlabs-stt peut‑elle traiter des fichiers audio locaux, ou uniquement des URLs ?

L’exemple de la documentation utilise une URL distante :

infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Inference.sh gère en général plusieurs modes d’entrée, mais la gestion exacte des fichiers locaux dépend de la configuration de votre environnement infsh (par ex. mécanismes d’upload ou chemins montés).

Dans un agent, vous pouvez en général :

Fournir une URL directe vers des fichiers audio hébergés, ou
Utiliser la gestion de fichiers de votre runtime pour rendre les fichiers locaux accessibles à infsh.

Vérifiez les règles de passage de fichiers propres à votre environnement si vous avez besoin d’un workflow strictement local.

elevenlabs-stt génère‑t‑elle directement des fichiers SRT ou VTT ?

La skill s’intègre à l’app elevenlabs/stt, qui renvoie un JSON structuré avec timestamps et alignement. Les éléments du dépôt mettent l’accent sur la sortie JSON, et non sur l’export direct SRT/VTT.

Vous pouvez toutefois :

Récupérer la sortie JSON d’elevenlabs-stt.
Mapper segments et timestamps vers des blocs SRT ou VTT.
Sauvegarder ces données comme fichiers de sous-titres dans votre pipeline.

Beaucoup d’utilisateurs automatisent cela via de simples scripts ou des étapes de post‑traitement dans leurs agents.

Comment fonctionne le forced alignment dans elevenlabs-stt ?

Le forced alignment s’appuie sur les modèles Scribe sous‑jacents pour aligner l’audio et le texte au niveau du mot, en renvoyant des timestamps précis par token ou par mot.

C’est utile lorsque vous :

Disposez déjà d’un script ou de notes d’émission et souhaitez les aligner sur l’enregistrement final
Avez besoin d’un timing précis pour le lip‑sync (doublage, karaoké, surlignage de captions)
Voulez retrouver rapidement où chaque réplique est prononcée dans l’audio

Les détails de la sortie d’alignement sont contrôlés par l’app elevenlabs/stt ; elevenlabs-stt joue le rôle de pont qui expose cette fonctionnalité à vos agents et workflows CLI.

elevenlabs-stt convient‑elle à la transcription temps réel en streaming ?

La documentation et les exemples de la skill se concentrent sur la transcription de fichiers via infsh app run avec un champ audio en entrée. Rien n’indique explicitement la prise en charge du streaming temps réel dans les éléments fournis.

Il est donc préférable de considérer elevenlabs-stt comme un outil de transcription batch pour des fichiers audio enregistrés, plutôt que comme une solution de sous-titrage en direct à faible latence.

Où consulter ou modifier la configuration d’elevenlabs-stt ?

Vous pouvez explorer la skill dans le dépôt GitHub inferen-sh/skills :

Repo principal : https://github.com/inferen-sh/skills
Chemin de la skill : tools/audio/elevenlabs-stt/

Commencez par SKILL.md pour comprendre les triggers, la description et les usages. Si votre plateforme prend en charge les skills personnalisées, vous pouvez forker et adapter la configuration, les prompts ou les outils autorisés de la skill à votre environnement.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

elevenlabs-music

by inferen-sh

Générez de la musique originale avec l’IA à partir de prompts texte grâce au CLI inference.sh et à ElevenLabs. Contrôlez la durée, le style et l’ambiance pour créer depuis votre terminal de la musique de fond libre de droits, des bandes-son, des jingles, des beds pour podcasts et de l’audio pour jeux vidéo.

Audio Editing

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

Synthèse vocale ElevenLabs via le CLI inference.sh, avec plus de 22 voix premium, prise en charge multilingue et modèles rapides adaptés aux workflows de génération vocale en production.

Voice Generation

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

Générez des effets sonores IA à partir de prompts textuels en utilisant ElevenLabs via la CLI inference.sh. Idéal pour les monteurs vidéo, développeurs de jeux, podcasteurs, réalisateurs et créateurs de contenu qui ont besoin de sound design rapide et libre de droits. Prend en charge la génération text-to-sound-effect, la durée ajustable et le contrôle du prompt pour des SFX cinématographiques, ambiants et prêts pour le jeu.

Audio Editing

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

Concevez et exécutez des pipelines de contenu IA multi-étapes qui enchaînent des outils d’image, de vidéo, d’audio et de texte via le CLI inference.sh. Utilisez ai-content-pipeline pour automatiser des workflows comme : générer une image, l’animer en vidéo, ajouter un sound design ou une voix off, et préparer le contenu pour YouTube, les réseaux sociaux et vos campagnes marketing.

Workflow Automation

Favorites 0GitHub 0

elevenlabs-voice-isolator

by inferen-sh

Skill ElevenLabs de nettoyage vocal en ligne de commande pour supprimer le bruit de fond et isoler les voix à partir d’un fichier audio via inference.sh. Idéal pour nettoyer des podcasts, interviews, voix de musique, enregistrements bruyants et pour des workflows de restauration audio.

Audio Editing

Favorites 0GitHub 232

ai-voice-cloning

by inferen-sh

ai-voice-cloning est une compétence basée sur inference.sh pour la génération de voix par IA, le text-to-speech et le clonage de voix depuis la CLI. Elle encapsule les modèles ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs et VibeVoice pour une parole naturelle, des narrations multi-voix et des transformations de voix pour des projets audio et vidéo.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Générez un audio de dialogue multi-intervenants soigné avec ElevenLabs via la CLI inference.sh. Transformez des scripts structurés en conversations naturelles avec plusieurs voix dans un seul fichier pour des podcasts, des livres audio, des vidéos explicatives, des tutoriels, des dialogues de personnages et des scripts vidéo.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Générez un audio de dialogue réaliste avec plusieurs interlocuteurs grâce à Dia TTS et ElevenLabs via la CLI inference.sh. La skill dialogue-audio vous aide à contrôler les voix, l’émotion, le rythme et le déroulé de la conversation pour des podcasts, livres audio, contenus explicatifs, scènes de personnages et autres formats conversationnels.

Voice Generation

Favorites 0GitHub 0