Audio

Entdecke Agent Skills mit dem Tag Audio und vergleiche verwandte Workflows im Verzeichnis.

18 Skills
A
videodb

von affaan-m

videodb hilft beim Ingest von Video und Audio aus lokalen Dateien, URLs, RTSP/RTMP-Livefeeds oder Desktop-Capture; beim Finden von Momenten mit Zeitstempeln und abspielbaren Belegen; sowie beim Arbeiten mit Clips, Overlays, Transkription, Alerts und Timeline-Bearbeitung. Das ist ein praxisnaher Videodb-Leitfaden für VideoDB für Video Editing und die Analyse von Livestreams.

Video Editing
Favoriten 0GitHub 156.3k
A
video-editing

von affaan-m

Die video-editing-Skill hilft dir dabei, vorhandenes Footage schneller in saubere, plattformtaugliche Videos zu verwandeln. Der Fokus liegt auf Schneiden, Strukturieren, Untertiteln, Reframing und leichter Aufbereitung für Vlogs, Tutorials, Demos, kurze Clips und Interview-Schnitte. Am besten geeignet ist sie, wenn du bereits Rohmaterial hast und einen praxisnahen video-editing-Leitfaden brauchst.

Video Editing
Favoriten 0GitHub 156.3k
A
fal-ai-media

von affaan-m

fal-ai-media ist ein GitHub-Skill für die einheitliche Mediengenerierung über fal.ai MCP. Er hilft dabei, den fal-ai-media Skill zu installieren und zu nutzen – für Bildgenerierung, Bildbearbeitung, Video sowie Speech- und Audio-Workflows mit Modellsuche, Kostenprüfung und geführten Prompts.

Image Generation
Favoriten 0GitHub 156.1k
O
transcribe

von openai

transcribe wandelt Audio oder Video in Text um, optional mit Diarisierung und Hinweisen auf bekannte Sprecher. Es eignet sich besonders für technisches Schreiben, Meeting-Notizen, Interviews, Vorlesungen und Content Ops, wenn du einen wiederholbaren transcribe Skill mit klaren Ausgabeformaten brauchst und weniger raten willst als bei einem generischen Prompt.

Technical Writing
Favoriten 0GitHub 18.8k
J
baoyu-youtube-transcript

von JimLiu

baoyu-youtube-transcript extrahiert YouTube-Transkripte, Untertitel und Cover-Bilder aus einer URL oder Video-ID. Unterstützt Sprachwahl, Übersetzung, Ausgabe als Markdown oder SRT, gecachte Neuformatierung sowie einen Fallback von der InnerTube API zu yt-dlp für eine zuverlässigere Transkript-Abrufung.

Format Conversion
Favoriten 0GitHub 13.2k
H
hyperframes

von heygen-com

hyperframes ist eine Workflow-Skill zum Erstellen von HTML-basierten Videokompositionen in HyperFrames. Nutze sie für Title Cards, Overlays, Untertitel, Voiceovers, audio-reactive Motion und Szenenübergänge, wenn du strukturierte, code-first hyperframes für Videoediting brauchst. Der Fokus liegt stärker auf Layout, Timing und Animation als auf allgemeinen Prompt-only-Videoanfragen.

Video Editing
Favoriten 0GitHub 2.7k
M
azure-ai-voicelive-ts

von microsoft

azure-ai-voicelive-ts hilft Ihnen, Echtzeit-Voice-AI-Apps mit dem Azure AI Voice Live TypeScript SDK zu entwickeln. Nutzen Sie es für Node.js- oder Browser-Projekte, die bidirektionales Audio, Streaming-Antworten, Session-Setup und Function Calling benötigen. Diese Anleitung zu azure-ai-voicelive-ts ist hilfreich, wenn Sie praktische Unterstützung bei Installation, Nutzung und Codegenerierung suchen.

Code Generation
Favoriten 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

von microsoft

azure-ai-contentunderstanding-py ist das Python-Skill für Azure AI Content Understanding. Es extrahiert strukturierte Inhalte aus Dokumenten, Bildern, Audio und Video für RAG-Workflows und Automatisierung. Nutzen Sie es, wenn Sie zuverlässige multimodale Extraktion, Azure-Authentifizierung und reproduzierbare, pipelinefähige Ausgaben benötigen.

RAG Workflows
Favoriten 0GitHub 2.2k
M
azure-ai-voicelive-java

von microsoft

azure-ai-voicelive-java ist ein Azure AI VoiceLive SDK-Skill für Java-Backend-Entwicklung. Er deckt Installation, Authentifizierung, WebSocket-Voice-Streaming, Event-Handling und beispielbasierte Nutzung für Echtzeit-Assistenten ab.

Backend Development
Favoriten 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

von microsoft

azure-ai-voicelive-dotnet ist das .NET-Skill für die Entwicklung von Echtzeit-Sprach-KI-Apps mit Azure AI Voice Live. Es deckt Installation, Einrichtung, Authentifizierung und Nutzung für die Backend-Entwicklung ab, einschließlich bidirektionaler Audioübertragung, Sitzungen mit geringer Latenz und Speech-to-Speech-Workflows.

Backend Development
Favoriten 0GitHub 2.2k
M
podcast-generation

von microsoft

podcast-generation hilft dabei, aus Text KI-generierte Audioinhalte im Podcast-Stil zu erstellen – mit Azure OpenAI GPT Realtime Mini über WebSocket. Es eignet sich für podcast-generation im Full-Stack-Development und bietet Orientierung für React, Python FastAPI, PCM-Streaming, Transkript-Erfassung und WAV-Konvertierung. Nutze es, wenn du einen praxisnahen podcast-generation-Leitfaden für die Integration in echte Anwendungen brauchst und nicht nur einen generischen Prompt.

Full-Stack Development
Favoriten 0GitHub 2.2k
M
github-issue-creator

von microsoft

github-issue-creator wandelt rohe Notizen, Fehlermeldungen, Sprachdiktate und Screenshots in prägnante GitHub-kompatible Issue-Entwürfe um. Diese github-issue-creator-Skill unterstützt beim Issue-Tracking, indem sie Zusammenfassung, Umgebung, Schritte zur Reproduktion, erwartetes vs. tatsächliches Verhalten, Auswirkungen und Belege in ein prüfbares Markdown-Issue strukturiert.

Issue Tracking
Favoriten 0GitHub 2.2k
P
seedance-2.0-prompter

von pexoai

seedance-2.0-prompter hilft dabei, multimodale Seedance 2.0-Assets in strukturierte Prompts mit klaren Rollen, `@asset`-Syntax und wiederverwendbaren Vorlagen für Installation, Einrichtung und den praktischen Einsatz zu überführen.

Prompt Writing
Favoriten 0GitHub 452
R
transcribe-video

von rameerez

Die transcribe-video-Skill wandelt Video- oder Audiodateien mit AWS Transcribe in .srt-, .vtt- und .txt-Ausgaben um. Verwenden Sie sie, wenn Sie transcribe-video für Untertitel, ein durchsuchbares Transkript oder eine saubere Textfassung gesprochener Inhalte brauchen. Sie eignet sich auch für transcribe-video in Format-Conversion-Workflows.

Format Conversion
Favoriten 0GitHub 23
M
detecting-deepfake-audio-in-vishing-attacks

von mukul975

detecting-deepfake-audio-in-vishing-attacks unterstützt Security-Teams dabei, Audio in Fällen von Vishing, Betrug und Identitätsmissbrauch auf KI-generierte Sprache zu analysieren. Das Skill extrahiert spektrale und MFCC-basierte Merkmale, bewertet verdächtige Samples und erstellt einen forensisch anmutenden Bericht zur Prüfung. Ideal für Security-Audit- und Incident-Response-Workflows.

Security Audit
Favoriten 0GitHub 0
O
speech

von openai

Nutze die speech-Skill, um Text in gesprochene Audiodateien für Erzählungen, Voiceovers, IVR-Ansagen, barrierefreie Vorlesefunktionen und die Stapelgenerierung von Sprache umzuwandeln. Sie verwendet die OpenAI Audio API mit integrierten Stimmen, eine mitgelieferte CLI und `OPENAI_API_KEY` für Live-Ausführungen. Die Erstellung eigener Stimmen ist nicht abgedeckt.

Design Implementation
Favoriten 0GitHub 0
M
azure-ai-voicelive-py

von microsoft

azure-ai-voicelive-py hilft dir, Echtzeit-Voice-AI-Apps in Python mit Azure AI Voice Live zu bauen. Nutze es für bidirektionales WebSocket-Audio, Voice-Assistants, Speech-to-Speech-Chat, Transkription, Avatare und sprachbasierte Agents mit Tool-Nutzung. Besonders geeignet für Backend-Entwicklung, wenn du asynchrone Verbindungen, Azure-Authentifizierung, Session-Steuerung und Streaming mit geringer Latenz brauchst.

Backend Development
Favoriten 0GitHub 0
M
azure-ai-transcription-py

von microsoft

azure-ai-transcription-py ist ein Python-Skill für Azure AI Transcription. Er eignet sich für Batch- oder Echtzeit-Spracherkennung mit Zeitstempeln und Sprechertrennung. Damit passt er gut zur Backend-Entwicklung, nutzt die Authentifizierung per Subscription Key und führt Sie zum passenden Installations- und Nutzungsablauf für die Azure-Clientbibliothek.

Backend Development
Favoriten 0GitHub 0