Audio

Entdecke Agent Skills mit dem Tag Audio und vergleiche verwandte Workflows im Verzeichnis.

25 Skills

videodb

von affaan-m

videodb hilft beim Ingest von Video und Audio aus lokalen Dateien, URLs, RTSP/RTMP-Livefeeds oder Desktop-Capture; beim Finden von Momenten mit Zeitstempeln und abspielbaren Belegen; sowie beim Arbeiten mit Clips, Overlays, Transkription, Alerts und Timeline-Bearbeitung. Das ist ein praxisnaher Videodb-Leitfaden für VideoDB für Video Editing und die Analyse von Livestreams.

Video Editing

Favoriten 0GitHub 156.3k

video-editing

von affaan-m

Die video-editing-Skill hilft dir dabei, vorhandenes Footage schneller in saubere, plattformtaugliche Videos zu verwandeln. Der Fokus liegt auf Schneiden, Strukturieren, Untertiteln, Reframing und leichter Aufbereitung für Vlogs, Tutorials, Demos, kurze Clips und Interview-Schnitte. Am besten geeignet ist sie, wenn du bereits Rohmaterial hast und einen praxisnahen video-editing-Leitfaden brauchst.

Video Editing

Favoriten 0GitHub 156.3k

fal-ai-media

von affaan-m

fal-ai-media ist ein GitHub-Skill für die einheitliche Mediengenerierung über fal.ai MCP. Er hilft dabei, den fal-ai-media Skill zu installieren und zu nutzen – für Bildgenerierung, Bildbearbeitung, Video sowie Speech- und Audio-Workflows mit Modellsuche, Kostenprüfung und geführten Prompts.

Image Generation

Favoriten 0GitHub 156.1k

transcribe

von openai

transcribe wandelt Audio oder Video in Text um, optional mit Diarisierung und Hinweisen auf bekannte Sprecher. Es eignet sich besonders für technisches Schreiben, Meeting-Notizen, Interviews, Vorlesungen und Content Ops, wenn du einen wiederholbaren transcribe Skill mit klaren Ausgabeformaten brauchst und weniger raten willst als bei einem generischen Prompt.

Technical Writing

Favoriten 0GitHub 18.8k

baoyu-youtube-transcript

von JimLiu

baoyu-youtube-transcript extrahiert YouTube-Transkripte, Untertitel und Cover-Bilder aus einer URL oder Video-ID. Unterstützt Sprachwahl, Übersetzung, Ausgabe als Markdown oder SRT, gecachte Neuformatierung sowie einen Fallback von der InnerTube API zu yt-dlp für eine zuverlässigere Transkript-Abrufung.

Format Conversion

Favoriten 0GitHub 13.2k

hyperframes

von heygen-com

hyperframes ist eine Workflow-Skill zum Erstellen von HTML-basierten Videokompositionen in HyperFrames. Nutze sie für Title Cards, Overlays, Untertitel, Voiceovers, audio-reactive Motion und Szenenübergänge, wenn du strukturierte, code-first hyperframes für Videoediting brauchst. Der Fokus liegt stärker auf Layout, Timing und Animation als auf allgemeinen Prompt-only-Videoanfragen.

Video Editing

Favoriten 0GitHub 2.7k

azure-ai-voicelive-ts

von microsoft

azure-ai-voicelive-ts hilft Ihnen, Echtzeit-Voice-AI-Apps mit dem Azure AI Voice Live TypeScript SDK zu entwickeln. Nutzen Sie es für Node.js- oder Browser-Projekte, die bidirektionales Audio, Streaming-Antworten, Session-Setup und Function Calling benötigen. Diese Anleitung zu azure-ai-voicelive-ts ist hilfreich, wenn Sie praktische Unterstützung bei Installation, Nutzung und Codegenerierung suchen.

Code Generation

Favoriten 0GitHub 2.3k

azure-ai-contentunderstanding-py

von microsoft

azure-ai-contentunderstanding-py ist das Python-Skill für Azure AI Content Understanding. Es extrahiert strukturierte Inhalte aus Dokumenten, Bildern, Audio und Video für RAG-Workflows und Automatisierung. Nutzen Sie es, wenn Sie zuverlässige multimodale Extraktion, Azure-Authentifizierung und reproduzierbare, pipelinefähige Ausgaben benötigen.

RAG Workflows

Favoriten 0GitHub 2.2k

azure-ai-voicelive-java

von microsoft

azure-ai-voicelive-java ist ein Azure AI VoiceLive SDK-Skill für Java-Backend-Entwicklung. Er deckt Installation, Authentifizierung, WebSocket-Voice-Streaming, Event-Handling und beispielbasierte Nutzung für Echtzeit-Assistenten ab.

Backend Development

Favoriten 0GitHub 2.2k

azure-ai-voicelive-dotnet

von microsoft

azure-ai-voicelive-dotnet ist das .NET-Skill für die Entwicklung von Echtzeit-Sprach-KI-Apps mit Azure AI Voice Live. Es deckt Installation, Einrichtung, Authentifizierung und Nutzung für die Backend-Entwicklung ab, einschließlich bidirektionaler Audioübertragung, Sitzungen mit geringer Latenz und Speech-to-Speech-Workflows.

Backend Development

Favoriten 0GitHub 2.2k

podcast-generation

von microsoft

podcast-generation hilft dabei, aus Text KI-generierte Audioinhalte im Podcast-Stil zu erstellen – mit Azure OpenAI GPT Realtime Mini über WebSocket. Es eignet sich für podcast-generation im Full-Stack-Development und bietet Orientierung für React, Python FastAPI, PCM-Streaming, Transkript-Erfassung und WAV-Konvertierung. Nutze es, wenn du einen praxisnahen podcast-generation-Leitfaden für die Integration in echte Anwendungen brauchst und nicht nur einen generischen Prompt.

Full-Stack Development

Favoriten 0GitHub 2.2k

github-issue-creator

von microsoft

github-issue-creator wandelt rohe Notizen, Fehlermeldungen, Sprachdiktate und Screenshots in prägnante GitHub-kompatible Issue-Entwürfe um. Diese github-issue-creator-Skill unterstützt beim Issue-Tracking, indem sie Zusammenfassung, Umgebung, Schritte zur Reproduktion, erwartetes vs. tatsächliches Verhalten, Auswirkungen und Belege in ein prüfbares Markdown-Issue strukturiert.

Issue Tracking

Favoriten 0GitHub 2.2k

speech-to-text

von NoizAI

Die speech-to-text-Skill transkribiert unterstützte Audiodateien in Klartext und bietet Optionen für Zeitstempel, Sprecherlabels und JSON-Ausgabe. Sie ist auf den praktischen Einsatz von speech-to-text in wiederholbaren Workflows ausgelegt, darunter Interviews, Meetings, Podcasts, Vorlesungen und Automatisierungsaufgaben, bei denen konsistente Transkriptionen wichtig sind.

Workflow Automation

Favoriten 0GitHub 498

tts

von NoizAI

Die tts-Skill wandelt Text in Sprachaudio um – für Erzählungen, Synchronisation, Voiceover und zeitlich abgestimmte Wiedergabe. Sie eignet sich, um aus reinem Text eine Sprachdatei zu erzeugen, Artikel oder Textdateien in Sprache zu konvertieren oder SRT-gesteuertes Audio mit Timing-Kontrolle zu rendern. Unterstützt werden ein einfacher Modus und ein Timeline-Modus sowie backend-bewusste Workflows für wiederholbare tts-Nutzung.

Voice Generation

Favoriten 0GitHub 498

sound-fx

von NoizAI

Nutze die sound-fx-Skill, um Textprompts in Soundeffekte, Foley, Ambient-Betten, Kreaturengeräusche und UI-Geräusche umzuwandeln. Sie eignet sich für Audio Editing mit sound-fx, schnelles Prototyping und herunterladbare Audio-Assets. Installation über NoizAI/skills, anschließend der skriptbasierte Workflow mit einem gültigen Noiz API-Schlüssel. Nicht für Sprache, Lyrics, Melodien oder Voice Cloning.

Audio Editing

Favoriten 0GitHub 498

characteristic-voice

von NoizAI

characteristic-voice ist ein Voice-Generation-Skill für warme, begleitende und emotional präsente Sprache. Verwende ihn für tröstende Antworten, Morgen- oder Nachtbotschaften, lockeren Schlagabtausch und charakterorientierte Wiedergabe mit Pausen, Lachen oder Zärtlichkeit. Er bietet einen preset-gesteuerten Workflow sowie Backend-Unterstützung für den praktischen Einsatz von characteristic-voice.

Voice Generation

Favoriten 0GitHub 498

chat-with-anyone

von NoizAI

chat-with-anyone hilft dir, die Stimme einer echten Person aus öffentlichem Audio zu klonen oder aus einem Bild eine passende Stimme zu entwerfen und anschließend mit TTS synthetische Antworten zu erzeugen. Der Skill unterstützt praxisnahe Workflows für Rollenspiel, Narration und Stimmgenerierung und bietet Hinweise zu Installation, Quellenauswahl und sicherer Nutzung.

Voice Generation

Favoriten 0GitHub 498

seedance-2.0-prompter

von pexoai

seedance-2.0-prompter hilft dabei, multimodale Seedance 2.0-Assets in strukturierte Prompts mit klaren Rollen, `@asset`-Syntax und wiederverwendbaren Vorlagen für Installation, Einrichtung und den praktischen Einsatz zu überführen.

Prompt Writing

Favoriten 0GitHub 452

transcribe-video

von rameerez

Die transcribe-video-Skill wandelt Video- oder Audiodateien mit AWS Transcribe in .srt-, .vtt- und .txt-Ausgaben um. Verwenden Sie sie, wenn Sie transcribe-video für Untertitel, ein durchsuchbares Transkript oder eine saubere Textfassung gesprochener Inhalte brauchen. Sie eignet sich auch für transcribe-video in Format-Conversion-Workflows.

Format Conversion

Favoriten 0GitHub 23

transformers

von K-Dense-AI

Die transformers-Skill hilft dir bei der Nutzung von Hugging Face Transformers für Modellladen, Inferenz, Tokenisierung und Fine-Tuning. Sie ist ein praxisnaher transformers-Leitfaden für Machine-Learning-Aufgaben über Text-, Bild-, Audio- und multimodale Workflows hinweg, mit klaren Wegen für schnelle Baselines und eigenes Training.

Machine Learning

Favoriten 0GitHub 0

markitdown

von K-Dense-AI

markitdown konvertiert Dateien und Office-Dokumente in Markdown, damit Inhalte leichter lesbar, in Chunks aufteilbar und durchsuchbar sind und sich besser in LLM-Workflows nutzen lassen. Diese markitdown-Skill unterstützt PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, Bilder mit OCR und Audio-Transkription und ist damit ein praktischer markitdown-Leitfaden für die Formatkonvertierung.

Format Conversion

Favoriten 0GitHub 0

detecting-deepfake-audio-in-vishing-attacks

von mukul975

detecting-deepfake-audio-in-vishing-attacks unterstützt Security-Teams dabei, Audio in Fällen von Vishing, Betrug und Identitätsmissbrauch auf KI-generierte Sprache zu analysieren. Das Skill extrahiert spektrale und MFCC-basierte Merkmale, bewertet verdächtige Samples und erstellt einen forensisch anmutenden Bericht zur Prüfung. Ideal für Security-Audit- und Incident-Response-Workflows.

Security Audit

Favoriten 0GitHub 0

speech

von openai

Nutze die speech-Skill, um Text in gesprochene Audiodateien für Erzählungen, Voiceovers, IVR-Ansagen, barrierefreie Vorlesefunktionen und die Stapelgenerierung von Sprache umzuwandeln. Sie verwendet die OpenAI Audio API mit integrierten Stimmen, eine mitgelieferte CLI und `OPENAI_API_KEY` für Live-Ausführungen. Die Erstellung eigener Stimmen ist nicht abgedeckt.

Design Implementation

Favoriten 0GitHub 0

azure-ai-voicelive-py

von microsoft

azure-ai-voicelive-py hilft dir, Echtzeit-Voice-AI-Apps in Python mit Azure AI Voice Live zu bauen. Nutze es für bidirektionales WebSocket-Audio, Voice-Assistants, Speech-to-Speech-Chat, Transkription, Avatare und sprachbasierte Agents mit Tool-Nutzung. Besonders geeignet für Backend-Entwicklung, wenn du asynchrone Verbindungen, Azure-Authentifizierung, Session-Steuerung und Streaming mit geringer Latenz brauchst.

Backend Development

Favoriten 0GitHub 0