Speech To Text

Speech To Text skills and workflows surfaced by the site skill importer.

5 Skills
O
transcribe

von openai

transcribe wandelt Audio oder Video in Text um, optional mit Diarisierung und Hinweisen auf bekannte Sprecher. Es eignet sich besonders für technisches Schreiben, Meeting-Notizen, Interviews, Vorlesungen und Content Ops, wenn du einen wiederholbaren transcribe Skill mit klaren Ausgabeformaten brauchst und weniger raten willst als bei einem generischen Prompt.

Technical Writing
Favoriten 0GitHub 18.8k
M
azure-speech-to-text-rest-py

von microsoft

azure-speech-to-text-rest-py ist ein Python-REST-Skill für Azure Speech zur Transkription kurzer Audiodateien ohne Speech SDK. Verwende ihn für die Backend-Entwicklung, wenn du direkte HTTP-Kontrolle, einen schnellen Einstieg und Unterstützung für Audiodateien bis zu 60 Sekunden brauchst. Der Leitfaden behandelt Installation, Authentifizierung, Audioformatierung und zeigt, wann du lange Audioinhalte, Streaming oder Batch-Transkription vermeiden solltest.

Backend Development
Favoriten 0GitHub 2.3k
N
speech-to-text

von NoizAI

Die speech-to-text-Skill transkribiert unterstützte Audiodateien in Klartext und bietet Optionen für Zeitstempel, Sprecherlabels und JSON-Ausgabe. Sie ist auf den praktischen Einsatz von speech-to-text in wiederholbaren Workflows ausgelegt, darunter Interviews, Meetings, Podcasts, Vorlesungen und Automatisierungsaufgaben, bei denen konsistente Transkriptionen wichtig sind.

Workflow Automation
Favoriten 0GitHub 498
N
tts

von NoizAI

Die tts-Skill wandelt Text in Sprachaudio um – für Erzählungen, Synchronisation, Voiceover und zeitlich abgestimmte Wiedergabe. Sie eignet sich, um aus reinem Text eine Sprachdatei zu erzeugen, Artikel oder Textdateien in Sprache zu konvertieren oder SRT-gesteuertes Audio mit Timing-Kontrolle zu rendern. Unterstützt werden ein einfacher Modus und ein Timeline-Modus sowie backend-bewusste Workflows für wiederholbare tts-Nutzung.

Voice Generation
Favoriten 0GitHub 498
M
detecting-deepfake-audio-in-vishing-attacks

von mukul975

detecting-deepfake-audio-in-vishing-attacks unterstützt Security-Teams dabei, Audio in Fällen von Vishing, Betrug und Identitätsmissbrauch auf KI-generierte Sprache zu analysieren. Das Skill extrahiert spektrale und MFCC-basierte Merkmale, bewertet verdächtige Samples und erstellt einen forensisch anmutenden Bericht zur Prüfung. Ideal für Security-Audit- und Incident-Response-Workflows.

Security Audit
Favoriten 0GitHub 0
Speech To Text