I

elevenlabs-stt

von inferen-sh

Hochpräzise ElevenLabs Speech-to-Text über die inference.sh CLI mit Scribe v1/v2 Modellen. Unterstützt Transkription, Sprecher-Diarisierung, Audio-Event-Tagging, Wortzeitstempel, Forced Alignment und Untertitel-Generierung für Meetings, Podcasts und andere Audio-Workflows.

Stars0
Favoriten0
Kommentare0
KategorieAudio Editing
Installationsbefehl
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt
Überblick

Übersicht

Was ist elevenlabs-stt?

elevenlabs-stt ist ein Speech-to-Text-Skill, der deinen Agenten oder CLI-Workflows über die inference.sh (infsh) CLI mit ElevenLabs Scribe Modellen verbindet.

Der Fokus liegt auf hochpräziser, zeitbasiert ausgerichteter Audiotranskription und nicht auf allgemeinem Notizen-Machen. Der Skill ist für Medien-Workflows ausgelegt, zum Beispiel:

  • Aufbereitung von Sprachaufnahmen für Audio- und Video-Editing
  • Erstellung präziser Untertitel und Captions mit Timing
  • Produktion von Podcast- und Interview-Transkripten
  • Generierung von Lip-Sync- und Karaoke-Timings durch Wort-Level-Alignment
  • Tagging von Audio-Events und Erkennung verschiedener Sprecher in einer Aufnahme

Zentrale Funktionen

Gestützt auf ElevenLabs Scribe v1/v2 Modelle (über die elevenlabs/stt App auf inference.sh) bietet elevenlabs-stt:

  • Transkription von Audio in strukturierten Text
  • Sprecher-Diarisierung und Sprecheridentifikation (wer hat wann gesprochen)
  • Audio-Event-Tagging (z. B. Musik, Stille, Hintergrundgeräusche)
  • Wortbasierte Zeitstempel und Forced Alignment zu bestehendem Text
  • Untertitel-freundliche Ausgaben, geeignet für Captions und Post-Production
  • Mehrsprachige Unterstützung für über 90 Sprachen mit automatischer Erkennung

Die Modelle werden als mit 98 %+ Transkriptionsgenauigkeit unter unterstützten Bedingungen beschrieben und eignen sich damit für Audio- und Video-Projekte in Produktionsqualität.

Für wen ist elevenlabs-stt geeignet?

elevenlabs-stt passt besonders gut, wenn du:

  • In der Audio- oder Video-Postproduktion arbeitest und verlässliche Transkripte brauchst
  • Podcasts, Webinare, Interviews oder Vorlesungen produzierst und automatisierten Textoutput möchtest
  • Zeitlich ausgerichtete Untertitel oder Caption-Dateien als Teil deines Workflows benötigst
  • Developer-Tools, Agenten oder Pipelines baust, die ElevenLabs STT aus Skripten heraus aufrufen müssen
  • Möglichst alles in einer CLI- und JSON-first Umgebung halten willst

Weniger geeignet ist der Skill, wenn du:

  • Eine rein browserbasierte, nicht-technische Oberfläche ohne CLI benötigst
  • Nur gelegentliche Notizen aus Audio brauchst und dir Timing, Diarisierung oder Datenstrukturen egal sind
  • Die infsh CLI auf der Maschine, auf der dein Agent läuft, nicht installieren oder nutzen kannst

Einordnung in deinen Tool-Stack

elevenlabs-stt sitzt in der Audio-Editing- und Voice-Tooling-Schicht deines Stacks:

  • Upstream: Audioaufnahme (Zoom-Recordings, OBS, Telefon-Audio, rohe WAV/MP3)
  • Core: elevenlabs-stt + infsh für Transkription, Diarisierung, Alignment und Tagging
  • Downstream: NLE-Timelines (Premiere, Resolve), Caption-Workflows, Suchindizes, AI-Summarization oder QA-Agenten

Da der Skill im inferen-sh/skills Repo definiert ist, integriert er sich nahtlos mit anderen inference.sh-basierten Tools und nutzt Bash (infsh *) im Hintergrund.

Nutzung

1. Voraussetzungen und Umgebung

Bevor du elevenlabs-stt als Skill verwendest, benötigst du:

  • Die inference.sh CLI (infsh) installiert auf der Maschine, auf der der Agent oder Nutzer läuft
  • Ein funktionierendes inference.sh Konto und einen gültigen Login
  • Netzwerkzugriff, damit infsh die elevenlabs/stt App aufrufen und (optional) von dir angegebene Remote-Audio-URLs erreichen kann

Zur Installation der CLI folgst du den offiziellen Anweisungen, auf die im Skill verwiesen wird:

  • CLI Installations-Dokumentation: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Nach der Installation meldest du dich an:

infsh login

Damit werden die Zugangsdaten für nachfolgende infsh app run Aufrufe aus dem Skill eingerichtet.

2. Installation des elevenlabs-stt Skills

Wenn du eine Skills-fähige Umgebung nutzt, die npx skills unterstützt, kannst du elevenlabs-stt direkt aus dem inferen-sh/skills Repository hinzufügen:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Dadurch wird:

  • Der elevenlabs-stt Skill über seinen Slug registriert
  • Seine Konfiguration (inklusive erlaubter Tools und Workflow-Logik) für deine Agent-Runtime verfügbar gemacht

Wenn deine Umgebung Skills anders verwaltet, spiegle dasselbe Repository und denselben Skill-Slug und stelle sicher, dass die Skill-Metadaten (SKILL.md, metadata.json, falls vorhanden) korrekt geladen werden.

3. Kern-Workflow für Transkription

Sobald Skill und CLI installiert sind, besteht die eigentliche Operation in einem Aufruf der elevenlabs/stt App über infsh.

Ein einfaches manuelles Beispiel (das widerspiegelt, was der Skill automatisiert) sieht so aus:

# Transcribe a remote audio file
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Dieses Muster bildet die Grundlage dafür, wie elevenlabs-stt in deinem Agenten funktioniert. Der Skill:

  • Nimmt dein Audioinput entgegen (URL oder Pfad, je nach Integration)
  • Ruft infsh app run elevenlabs/stt mit JSON-Input auf
  • Liefert strukturiertes JSON mit Transkript-Text und Timinginformationen zurück

Nutze dieses mentale Modell, wenn du Prompts, Tools oder Pipelines rund um den Skill konfigurierst.

4. Modellauswahl: Scribe v1 vs. Scribe v2

Der Skill stellt die ElevenLabs Scribe v1 und Scribe v2 Modelle bereit:

  • Scribe v2 (scribe_v2) – Neueste und genaueste Version (Standard). Ideal für die meisten neuen Projekte.
  • Scribe v1 (scribe_v1) – Stabile, bewährte Version. Nützlich, wenn du Konsistenz mit bestehenden Workflows brauchst oder das Verhalten bereits validiert hast.

Wenn deine Umgebung oder dein Agent die Übergabe von Modellparametern erlaubt, kannst du die Modell-ID entsprechend wählen. Wenn kein Modell angegeben ist, wird laut Dokumentation standardmäßig Scribe v2 verwendet.

5. Praktische Nutzungsmuster

Nachfolgend einige gängige Einsatzszenarien für elevenlabs-stt nach der Installation.

Einfache Transkription

Für klassische Meeting-Notizen, Podcasts oder Vorlesungen:

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

Bette diesen Aufruf in deinen Agent-Workflow ein, sodass Nutzer Anweisungen geben können wie:

  • „Transkribiere diese Meeting-Aufnahme mit elevenlabs-stt.“
  • „Nutze elevenlabs-stt, um diese MP3 in ein Text-Transkript zu verwandeln.“

Das Ergebnis ist ein strukturiertes Transkript, das du speichern, indexieren oder zusammenfassen kannst.

Sprecher-Diarisierung und -Identifikation

Wenn die elevenlabs/stt App upstream für Sprecher-Diarisierung konfiguriert ist, enthält das Ausgabe-JSON Tokens oder Segmente mit Sprecherlabels.

In deinen Agent-Prompts kannst du zum Beispiel Anweisungen geben wie:

  • „Führe elevenlabs-stt aus und gib nach Sprechern getrennte Transkriptsegmente zurück.“
  • „Gruppiere das Transkript nach Sprecher und erhalte die Zeitstempel aus elevenlabs-stt.“

Das ist besonders hilfreich bei Podiumsdiskussionen, Kundengesprächen oder Interview-Formaten.

Untertitel- und Caption-Erzeugung

Da elevenlabs-stt Zeitstempel und Wort-Level-Alignment (Forced Alignment) ausgibt, kannst du:

  • Segmente in SRT- oder VTT-Caption-Dateien umwandeln
  • Text in Post-Production-Tools mit Videospuren synchronisieren
  • Karaoke-Style Hervorhebungen oder Lip-Sync-Referenzen steuern

Ein typischer Workflow könnte so aussehen:

  1. elevenlabs-stt auf deinen Audiotrack ausführen.
  2. Die Timing-Daten in Untertitelblöcke umsetzen.
  3. Die Captions in dein NLE oder deine Streaming-Plattform exportieren oder einspeisen.

Audio-Event-Tagging

Wenn Audio-Event-Tagging in deinen Aufrufen an elevenlabs/stt aktiviert ist, kann die Ausgabe Musik, Stille, Rauschen oder andere Events markieren.

Das kannst du nutzen, um:

  • Schnittpunkte für Editor:innen zu markieren
  • Nicht-Sprachsegmente bei der Zusammenfassung zu überspringen
  • Automatisch Abschnitte zu erkennen, in denen der Hauptsprecher aktiv ist

6. Datei- und Repository-Struktur

Im inferen-sh/skills Repository befindet sich der elevenlabs-stt Skill unter:

  • tools/audio/elevenlabs-stt/

Wichtige Dateien, die du dir ansehen solltest, wenn du den Skill anpasst oder selbst hostest:

  • SKILL.md – Kanonische Beschreibung des Skills, seines Zwecks und seiner Trigger
  • Zuvor vorhandene rules/, resources/ oder scripts/ Verzeichnisse (falls vorhanden) für Hilfslogik

Diese Dateien dokumentieren, wie der Skill an die infsh CLI angebunden ist und welche Prompts oder Constraints erwartet werden.

FAQ

Wann sollte ich elevenlabs-stt statt eines einfachen Speech-to-Text-Tools verwenden?

Nutze elevenlabs-stt, wenn du hohe Genauigkeit, Zeitstempel und strukturierte Daten brauchst – nicht nur groben Fließtext.

Besonders sinnvoll ist der Einsatz, wenn deine Hauptaufgabe ist:

  • Audio- oder Video-Editing
  • Veröffentlichung von Podcasts oder Talking-Head-Inhalten
  • Erstellung von Captions und Untertiteln
  • Analyse von Gesprächen mit Sprecherlabels und Timing

Wenn du nur einfache Transkripte ohne Timing- oder Sprecherinformationen benötigst, kann ein leichteres Tool ausreichen.

Welche Genauigkeit und Sprachabdeckung kann ich erwarten?

Laut Skill-Beschreibung bieten die ElevenLabs Scribe Modelle:

  • 98 %+ Transkriptionsgenauigkeit unter unterstützten Bedingungen
  • Unterstützung für 90+ Sprachen mit automatischer Spracherkennung

Die tatsächliche Performance hängt von Aufnahmequalität, Akzenten, Hintergrundgeräuschen und Mikrofonpositionierung ab, die Modelle sind jedoch als hochpräzise Optionen für den Produktionseinsatz positioniert.

Brauche ich die inference.sh CLI, um elevenlabs-stt zu nutzen?

Ja. elevenlabs-stt ist um die inference.sh (infsh) CLI und die elevenlabs/stt App herum gebaut. Die erlaubten Tools des Skills listen explizit Bash mit infsh Befehlen.

Wenn du infsh in deiner Umgebung nicht installieren oder ausführen kannst, kannst du elevenlabs-stt nicht wie vorgesehen verwenden. In diesem Fall bräuchtest du einen anderen Skill oder eine direkte API-Integration außerhalb dieses Repositories.

Kann elevenlabs-stt lokale Audiodateien verarbeiten oder nur URLs?

Im Dokumentationsbeispiel wird eine Remote-URL verwendet:

infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Inference.sh unterstützt generell mehrere Input-Muster, aber die genaue Handhabung lokaler Dateien hängt davon ab, wie deine infsh Umgebung konfiguriert ist (z. B. Upload-Mechanismen oder gemountete Pfade).

In einem Agenten kannst du typischerweise:

  • Eine direkte URL zu gehosteten Audiodateien angeben oder
  • Die File-Handling-Funktionen deiner Runtime nutzen, um lokale Dateien für infsh zugänglich zu machen.

Prüfe die File-Passing-Regeln deiner eigenen Umgebung, wenn du strikt lokal arbeitende Workflows benötigst.

Erzeugt elevenlabs-stt direkt SRT- oder VTT-Dateien?

Der Skill integriert sich mit der elevenlabs/stt App, die strukturiertes JSON mit Zeitstempeln und Alignment zurückgibt. Die Repository-Hinweise konzentrieren sich auf JSON-Ausgaben, nicht auf den direkten Export von SRT/VTT.

Du kannst aber:

  1. Die JSON-Ausgabe von elevenlabs-stt entgegennehmen.
  2. Segmente und Zeitstempel in SRT- oder VTT-Blöcke umsetzen.
  3. Diese als Untertiteldateien in deinem Pipeline speichern.

Viele Nutzer binden das in einfache Skripte oder Agent-Postprocessing-Schritte ein.

Wie funktioniert Forced Alignment in elevenlabs-stt?

Forced Alignment nutzt die zugrunde liegenden Scribe Modelle, um Audio und Text auf Wortebene auszurichten und präzise Zeitstempel pro Token oder Wort zurückzugeben.

Das ist hilfreich, wenn du:

  • Bereits ein Skript oder Show Notes hast und diese an die finale Aufnahme anpassen möchtest
  • Exakte Lip-Sync-Timings (für Dubbing, Karaoke oder Caption-Highlighting) brauchst
  • Schnell finden willst, an welcher Stelle im Audio eine bestimmte Zeile gesprochen wurde

Die Details der Alignment-Ausgabe werden von der elevenlabs/stt App gesteuert; elevenlabs-stt dient als Skill-Brücke, die sie deinen Agent- und CLI-Workflows zugänglich macht.

Ist elevenlabs-stt für Echtzeit-Streaming-Transkription geeignet?

Die Dokumentation und Beispiele im Skill konzentrieren sich auf dateibasierte Transkription über infsh app run mit einem audio Input-Referenzwert. Es gibt keinen expliziten Hinweis auf Echtzeit-Streaming in den vorliegenden Informationen.

Daher solltest du elevenlabs-stt als Batch-Transkriptions-Tool für aufgezeichnete Audiodateien betrachten, nicht als Lösung für Live-Untertitelung mit niedriger Latenz.

Wo kann ich die elevenlabs-stt Konfiguration einsehen oder anpassen?

Du kannst den Skill im inferen-sh/skills GitHub-Repository erkunden:

  • Basis-Repo: https://github.com/inferen-sh/skills
  • Skill-Pfad: tools/audio/elevenlabs-stt/

Beginne mit SKILL.md, um Trigger, Beschreibung und Nutzung zu verstehen. Wenn deine Plattform Custom Skills unterstützt, kannst du das Repository forken und die Skill-Konfiguration, Prompts oder erlaubten Tools an deine Umgebung anpassen.

Bewertungen & Rezensionen

Noch keine Bewertungen
Teile deine Rezension
Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.
G
0/10000
Neueste Rezensionen
Wird gespeichert...