elevenlabs-stt

von inferen-sh

Hochpräzise ElevenLabs Speech-to-Text über die inference.sh CLI mit Scribe v1/v2 Modellen. Unterstützt Transkription, Sprecher-Diarisierung, Audio-Event-Tagging, Wortzeitstempel, Forced Alignment und Untertitel-Generierung für Meetings, Podcasts und andere Audio-Workflows.

Stars0

Favoriten0

Kommentare0

KategorieAudio Editing

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Audio Video Cli API Workflow Developer Audience

Überblick

Übersicht

Was ist elevenlabs-stt?

elevenlabs-stt ist ein Speech-to-Text-Skill, der deinen Agenten oder CLI-Workflows über die inference.sh (infsh) CLI mit ElevenLabs Scribe Modellen verbindet.

Der Fokus liegt auf hochpräziser, zeitbasiert ausgerichteter Audiotranskription und nicht auf allgemeinem Notizen-Machen. Der Skill ist für Medien-Workflows ausgelegt, zum Beispiel:

Aufbereitung von Sprachaufnahmen für Audio- und Video-Editing
Erstellung präziser Untertitel und Captions mit Timing
Produktion von Podcast- und Interview-Transkripten
Generierung von Lip-Sync- und Karaoke-Timings durch Wort-Level-Alignment
Tagging von Audio-Events und Erkennung verschiedener Sprecher in einer Aufnahme

Zentrale Funktionen

Gestützt auf ElevenLabs Scribe v1/v2 Modelle (über die elevenlabs/stt App auf inference.sh) bietet elevenlabs-stt:

Transkription von Audio in strukturierten Text
Sprecher-Diarisierung und Sprecheridentifikation (wer hat wann gesprochen)
Audio-Event-Tagging (z. B. Musik, Stille, Hintergrundgeräusche)
Wortbasierte Zeitstempel und Forced Alignment zu bestehendem Text
Untertitel-freundliche Ausgaben, geeignet für Captions und Post-Production
Mehrsprachige Unterstützung für über 90 Sprachen mit automatischer Erkennung

Die Modelle werden als mit 98 %+ Transkriptionsgenauigkeit unter unterstützten Bedingungen beschrieben und eignen sich damit für Audio- und Video-Projekte in Produktionsqualität.

Für wen ist elevenlabs-stt geeignet?

elevenlabs-stt passt besonders gut, wenn du:

In der Audio- oder Video-Postproduktion arbeitest und verlässliche Transkripte brauchst
Podcasts, Webinare, Interviews oder Vorlesungen produzierst und automatisierten Textoutput möchtest
Zeitlich ausgerichtete Untertitel oder Caption-Dateien als Teil deines Workflows benötigst
Developer-Tools, Agenten oder Pipelines baust, die ElevenLabs STT aus Skripten heraus aufrufen müssen
Möglichst alles in einer CLI- und JSON-first Umgebung halten willst

Weniger geeignet ist der Skill, wenn du:

Eine rein browserbasierte, nicht-technische Oberfläche ohne CLI benötigst
Nur gelegentliche Notizen aus Audio brauchst und dir Timing, Diarisierung oder Datenstrukturen egal sind
Die infsh CLI auf der Maschine, auf der dein Agent läuft, nicht installieren oder nutzen kannst

Einordnung in deinen Tool-Stack

elevenlabs-stt sitzt in der Audio-Editing- und Voice-Tooling-Schicht deines Stacks:

Upstream: Audioaufnahme (Zoom-Recordings, OBS, Telefon-Audio, rohe WAV/MP3)
Core: elevenlabs-stt + infsh für Transkription, Diarisierung, Alignment und Tagging
Downstream: NLE-Timelines (Premiere, Resolve), Caption-Workflows, Suchindizes, AI-Summarization oder QA-Agenten

Da der Skill im inferen-sh/skills Repo definiert ist, integriert er sich nahtlos mit anderen inference.sh-basierten Tools und nutzt Bash (infsh *) im Hintergrund.

Nutzung

1. Voraussetzungen und Umgebung

Bevor du elevenlabs-stt als Skill verwendest, benötigst du:

Die inference.sh CLI (infsh) installiert auf der Maschine, auf der der Agent oder Nutzer läuft
Ein funktionierendes inference.sh Konto und einen gültigen Login
Netzwerkzugriff, damit infsh die elevenlabs/stt App aufrufen und (optional) von dir angegebene Remote-Audio-URLs erreichen kann

Zur Installation der CLI folgst du den offiziellen Anweisungen, auf die im Skill verwiesen wird:

CLI Installations-Dokumentation: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Nach der Installation meldest du dich an:

infsh login

Damit werden die Zugangsdaten für nachfolgende infsh app run Aufrufe aus dem Skill eingerichtet.

2. Installation des elevenlabs-stt Skills

Wenn du eine Skills-fähige Umgebung nutzt, die npx skills unterstützt, kannst du elevenlabs-stt direkt aus dem inferen-sh/skills Repository hinzufügen:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Dadurch wird:

Der elevenlabs-stt Skill über seinen Slug registriert
Seine Konfiguration (inklusive erlaubter Tools und Workflow-Logik) für deine Agent-Runtime verfügbar gemacht

Wenn deine Umgebung Skills anders verwaltet, spiegle dasselbe Repository und denselben Skill-Slug und stelle sicher, dass die Skill-Metadaten (SKILL.md, metadata.json, falls vorhanden) korrekt geladen werden.

3. Kern-Workflow für Transkription

Sobald Skill und CLI installiert sind, besteht die eigentliche Operation in einem Aufruf der elevenlabs/stt App über infsh.

Ein einfaches manuelles Beispiel (das widerspiegelt, was der Skill automatisiert) sieht so aus:

# Transcribe a remote audio file
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Dieses Muster bildet die Grundlage dafür, wie elevenlabs-stt in deinem Agenten funktioniert. Der Skill:

Nimmt dein Audioinput entgegen (URL oder Pfad, je nach Integration)
Ruft infsh app run elevenlabs/stt mit JSON-Input auf
Liefert strukturiertes JSON mit Transkript-Text und Timinginformationen zurück

Nutze dieses mentale Modell, wenn du Prompts, Tools oder Pipelines rund um den Skill konfigurierst.

4. Modellauswahl: Scribe v1 vs. Scribe v2

Der Skill stellt die ElevenLabs Scribe v1 und Scribe v2 Modelle bereit:

Scribe v2 (scribe_v2) – Neueste und genaueste Version (Standard). Ideal für die meisten neuen Projekte.
Scribe v1 (scribe_v1) – Stabile, bewährte Version. Nützlich, wenn du Konsistenz mit bestehenden Workflows brauchst oder das Verhalten bereits validiert hast.

Wenn deine Umgebung oder dein Agent die Übergabe von Modellparametern erlaubt, kannst du die Modell-ID entsprechend wählen. Wenn kein Modell angegeben ist, wird laut Dokumentation standardmäßig Scribe v2 verwendet.

5. Praktische Nutzungsmuster

Nachfolgend einige gängige Einsatzszenarien für elevenlabs-stt nach der Installation.

Einfache Transkription

Für klassische Meeting-Notizen, Podcasts oder Vorlesungen:

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

Bette diesen Aufruf in deinen Agent-Workflow ein, sodass Nutzer Anweisungen geben können wie:

„Transkribiere diese Meeting-Aufnahme mit elevenlabs-stt.“
„Nutze elevenlabs-stt, um diese MP3 in ein Text-Transkript zu verwandeln.“

Das Ergebnis ist ein strukturiertes Transkript, das du speichern, indexieren oder zusammenfassen kannst.

Sprecher-Diarisierung und -Identifikation

Wenn die elevenlabs/stt App upstream für Sprecher-Diarisierung konfiguriert ist, enthält das Ausgabe-JSON Tokens oder Segmente mit Sprecherlabels.

In deinen Agent-Prompts kannst du zum Beispiel Anweisungen geben wie:

„Führe elevenlabs-stt aus und gib nach Sprechern getrennte Transkriptsegmente zurück.“
„Gruppiere das Transkript nach Sprecher und erhalte die Zeitstempel aus elevenlabs-stt.“

Das ist besonders hilfreich bei Podiumsdiskussionen, Kundengesprächen oder Interview-Formaten.

Untertitel- und Caption-Erzeugung

Da elevenlabs-stt Zeitstempel und Wort-Level-Alignment (Forced Alignment) ausgibt, kannst du:

Segmente in SRT- oder VTT-Caption-Dateien umwandeln
Text in Post-Production-Tools mit Videospuren synchronisieren
Karaoke-Style Hervorhebungen oder Lip-Sync-Referenzen steuern

Ein typischer Workflow könnte so aussehen:

elevenlabs-stt auf deinen Audiotrack ausführen.
Die Timing-Daten in Untertitelblöcke umsetzen.
Die Captions in dein NLE oder deine Streaming-Plattform exportieren oder einspeisen.

Audio-Event-Tagging

Wenn Audio-Event-Tagging in deinen Aufrufen an elevenlabs/stt aktiviert ist, kann die Ausgabe Musik, Stille, Rauschen oder andere Events markieren.

Das kannst du nutzen, um:

Schnittpunkte für Editor:innen zu markieren
Nicht-Sprachsegmente bei der Zusammenfassung zu überspringen
Automatisch Abschnitte zu erkennen, in denen der Hauptsprecher aktiv ist

6. Datei- und Repository-Struktur

Im inferen-sh/skills Repository befindet sich der elevenlabs-stt Skill unter:

tools/audio/elevenlabs-stt/

Wichtige Dateien, die du dir ansehen solltest, wenn du den Skill anpasst oder selbst hostest:

SKILL.md – Kanonische Beschreibung des Skills, seines Zwecks und seiner Trigger
Zuvor vorhandene rules/, resources/ oder scripts/ Verzeichnisse (falls vorhanden) für Hilfslogik

Diese Dateien dokumentieren, wie der Skill an die infsh CLI angebunden ist und welche Prompts oder Constraints erwartet werden.

FAQ

Wann sollte ich elevenlabs-stt statt eines einfachen Speech-to-Text-Tools verwenden?

Nutze elevenlabs-stt, wenn du hohe Genauigkeit, Zeitstempel und strukturierte Daten brauchst – nicht nur groben Fließtext.

Besonders sinnvoll ist der Einsatz, wenn deine Hauptaufgabe ist:

Audio- oder Video-Editing
Veröffentlichung von Podcasts oder Talking-Head-Inhalten
Erstellung von Captions und Untertiteln
Analyse von Gesprächen mit Sprecherlabels und Timing

Wenn du nur einfache Transkripte ohne Timing- oder Sprecherinformationen benötigst, kann ein leichteres Tool ausreichen.

Welche Genauigkeit und Sprachabdeckung kann ich erwarten?

Laut Skill-Beschreibung bieten die ElevenLabs Scribe Modelle:

98 %+ Transkriptionsgenauigkeit unter unterstützten Bedingungen
Unterstützung für 90+ Sprachen mit automatischer Spracherkennung

Die tatsächliche Performance hängt von Aufnahmequalität, Akzenten, Hintergrundgeräuschen und Mikrofonpositionierung ab, die Modelle sind jedoch als hochpräzise Optionen für den Produktionseinsatz positioniert.

Brauche ich die inference.sh CLI, um elevenlabs-stt zu nutzen?

Ja. elevenlabs-stt ist um die inference.sh (infsh) CLI und die elevenlabs/stt App herum gebaut. Die erlaubten Tools des Skills listen explizit Bash mit infsh Befehlen.

Wenn du infsh in deiner Umgebung nicht installieren oder ausführen kannst, kannst du elevenlabs-stt nicht wie vorgesehen verwenden. In diesem Fall bräuchtest du einen anderen Skill oder eine direkte API-Integration außerhalb dieses Repositories.

Kann elevenlabs-stt lokale Audiodateien verarbeiten oder nur URLs?

Im Dokumentationsbeispiel wird eine Remote-URL verwendet:

infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Inference.sh unterstützt generell mehrere Input-Muster, aber die genaue Handhabung lokaler Dateien hängt davon ab, wie deine infsh Umgebung konfiguriert ist (z. B. Upload-Mechanismen oder gemountete Pfade).

In einem Agenten kannst du typischerweise:

Eine direkte URL zu gehosteten Audiodateien angeben oder
Die File-Handling-Funktionen deiner Runtime nutzen, um lokale Dateien für infsh zugänglich zu machen.

Prüfe die File-Passing-Regeln deiner eigenen Umgebung, wenn du strikt lokal arbeitende Workflows benötigst.

Erzeugt elevenlabs-stt direkt SRT- oder VTT-Dateien?

Der Skill integriert sich mit der elevenlabs/stt App, die strukturiertes JSON mit Zeitstempeln und Alignment zurückgibt. Die Repository-Hinweise konzentrieren sich auf JSON-Ausgaben, nicht auf den direkten Export von SRT/VTT.

Du kannst aber:

Die JSON-Ausgabe von elevenlabs-stt entgegennehmen.
Segmente und Zeitstempel in SRT- oder VTT-Blöcke umsetzen.
Diese als Untertiteldateien in deinem Pipeline speichern.

Viele Nutzer binden das in einfache Skripte oder Agent-Postprocessing-Schritte ein.

Wie funktioniert Forced Alignment in elevenlabs-stt?

Forced Alignment nutzt die zugrunde liegenden Scribe Modelle, um Audio und Text auf Wortebene auszurichten und präzise Zeitstempel pro Token oder Wort zurückzugeben.

Das ist hilfreich, wenn du:

Bereits ein Skript oder Show Notes hast und diese an die finale Aufnahme anpassen möchtest
Exakte Lip-Sync-Timings (für Dubbing, Karaoke oder Caption-Highlighting) brauchst
Schnell finden willst, an welcher Stelle im Audio eine bestimmte Zeile gesprochen wurde

Die Details der Alignment-Ausgabe werden von der elevenlabs/stt App gesteuert; elevenlabs-stt dient als Skill-Brücke, die sie deinen Agent- und CLI-Workflows zugänglich macht.

Ist elevenlabs-stt für Echtzeit-Streaming-Transkription geeignet?

Die Dokumentation und Beispiele im Skill konzentrieren sich auf dateibasierte Transkription über infsh app run mit einem audio Input-Referenzwert. Es gibt keinen expliziten Hinweis auf Echtzeit-Streaming in den vorliegenden Informationen.

Daher solltest du elevenlabs-stt als Batch-Transkriptions-Tool für aufgezeichnete Audiodateien betrachten, nicht als Lösung für Live-Untertitelung mit niedriger Latenz.

Wo kann ich die elevenlabs-stt Konfiguration einsehen oder anpassen?

Du kannst den Skill im inferen-sh/skills GitHub-Repository erkunden:

Basis-Repo: https://github.com/inferen-sh/skills
Skill-Pfad: tools/audio/elevenlabs-stt/

Beginne mit SKILL.md, um Trigger, Beschreibung und Nutzung zu verstehen. Wenn deine Plattform Custom Skills unterstützt, kannst du das Repository forken und die Skill-Konfiguration, Prompts oder erlaubten Tools an deine Umgebung anpassen.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

ai-music-generation

by inferen-sh

Erzeuge KI-Musik und komplette Songs aus Text-Prompts mit ElevenLabs Music, Diffrythm und Tencent Song Generation über die inference.sh CLI. Ideal für Hintergrundmusik, Soundtracks, Social-Clips, Podcasts und lizenzgebührenfreie Musik. Unterstützt schnelle Song-Generierung, Instrumentals und komplette Vocal-Songs.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Erstellen Sie KI-gestützte Podcasts und Sprachinhalte aus Text mit Kokoro TTS, DIA TTS und der inference.sh CLI. Kombinieren Sie mehrere Stimmen, fügen Sie Musik hinzu und bauen Sie komplette Episoden für Podcasts, Hörbücher und Audio-Newsletter.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Erzeuge mit ElevenLabs über die inference.sh CLI hochwertiges, mehrstimmiges Dialog-Audio. Verwandle strukturierte Skripte in natürlich klingende Gespräche mit mehreren Stimmen in einer einzigen Datei – ideal für Podcasts, Hörbücher, Erklärvideos, Tutorials, Charakterdialoge und Videoskripte.

Voice Generation

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

Entwerfen und betreiben Sie mehrstufige AI-Content-Pipelines, die Bild-, Video-, Audio- und Text-Tools über die inference.sh CLI miteinander verketten. Verwenden Sie ai-content-pipeline, um Workflows zu automatisieren wie: ein Bild generieren, zu einem Video animieren, Sound oder Voiceover hinzufügen und Inhalte für YouTube, Social Media und Marketing-Kampagnen aufbereiten.

Workflow Automation

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

Erzeuge KI-Soundeffekte aus Text-Prompts mit ElevenLabs über die inference.sh CLI. Ideal für Video-Editoren, Game-Developer, Podcaster, Filmschaffende und Content Creator, die schnelles, lizenzfreies Sounddesign benötigen. Unterstützt Text-to-Sound-Effect, anpassbare Dauer und Prompt-Steuerung für cinematische, atmosphärische und game-taugliche SFX.

Audio Editing

Favorites 0GitHub 0

elevenlabs-voice-isolator

by inferen-sh

CLI-basierter ElevenLabs Voice Isolator Skill zum Entfernen von Hintergrundgeräuschen und zum Isolieren von Stimmen/Vocals aus Audio über inference.sh. Ideal für Podcast-Optimierung, Interviews, Gesangsspuren, laute Aufnahmen und Audiorestaurierungs-Workflows.

Audio Editing

Favorites 0GitHub 232

elevenlabs-music

by inferen-sh

Erzeuge originale KI-Musik aus Textprompts mit der inference.sh CLI und ElevenLabs. Steuere Länge, Stil und Stimmung, um direkt aus deinem Terminal lizenzfreie Hintergrundmusik, Soundtracks, Jingles, Podcast-Betten und Game-Audio zu erstellen.

Audio Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Voice Generation

Favorites 0GitHub 0