Audio

Explorez les agent skills avec le tag Audio et comparez les workflows associes dans le repertoire.

18 skills
A
videodb

par affaan-m

videodb vous aide à ingérer des vidéos et de l’audio depuis des fichiers locaux, des URL, des flux live RTSP/RTMP ou une capture d’écran, à retrouver des moments précis avec horodatage et preuve lisible, puis à agir avec des clips, des superpositions, la transcription, des alertes et le montage sur timeline. C’est un guide pratique de videodb pour VideoDB for Video Editing et l’analyse de flux en direct.

Video Editing
Favoris 0GitHub 156.3k
A
video-editing

par affaan-m

La compétence video-editing vous aide à transformer plus vite des rushs existants en vidéos soignées, prêtes à être publiées sur différentes plateformes. Elle se concentre sur le montage, la structuration, les sous-titres, le recadrage et de légères améliorations pour les vlogs, tutoriels, démonstrations, clips courts et montages d’interviews. C’est l’option idéale si vous avez déjà des rushs et cherchez un guide pratique de video-editing.

Video Editing
Favoris 0GitHub 156.3k
A
fal-ai-media

par affaan-m

fal-ai-media est une skill GitHub pour la génération multimédia unifiée via fal.ai MCP. Elle aide les utilisateurs à installer et à utiliser la skill fal-ai-media pour des workflows de génération d'images, de retouche d'images, de vidéo, de voix et d'audio, avec recherche de modèles, vérification des coûts et prompts guidés.

Image Generation
Favoris 0GitHub 156.1k
O
transcribe

par openai

transcribe transforme l’audio ou la vidéo en texte, avec en option la diarisation et des indications sur les locuteurs connus. C’est particulièrement adapté à la rédaction technique, aux comptes rendus de réunion, aux entretiens, aux cours et aux opérations de contenu lorsqu’il faut un skill de transcription reproductible, avec des formats de sortie clairs et moins d’approximations qu’avec un prompt générique.

Technical Writing
Favoris 0GitHub 18.8k
J
baoyu-youtube-transcript

par JimLiu

baoyu-youtube-transcript permet d’extraire les transcriptions YouTube, les sous-titres et les images de couverture à partir d’une URL ou d’un ID de vidéo. Il prend en charge le choix de la langue, la traduction, la sortie en markdown ou en SRT, le reformatage avec cache, ainsi qu’un basculement de l’API InnerTube vers yt-dlp pour récupérer les transcriptions de façon plus fiable.

Format Conversion
Favoris 0GitHub 13.2k
H
hyperframes

par heygen-com

hyperframes est un skill de workflow pour créer des compositions vidéo en HTML dans HyperFrames. Utilisez-le pour les cartes de titre, les superpositions, les sous-titres, les voix off, les mouvements réactifs à l'audio et les transitions de scène lorsque vous avez besoin de hyperframes structurés, pensés d'abord en code, pour le montage vidéo. Il privilégie les choix de mise en page, de timing et d'animation plutôt que de simples requêtes vidéo génériques basées sur du prompt.

Video Editing
Favoris 0GitHub 2.7k
M
azure-ai-voicelive-ts

par microsoft

azure-ai-voicelive-ts vous aide à créer des applications vocales IA en temps réel avec le SDK TypeScript Azure AI Voice Live. Utilisez-le pour des projets Node.js ou navigateur qui nécessitent de l’audio bidirectionnel, des réponses en streaming, la configuration de session et l’appel de fonctions. Ce guide azure-ai-voicelive-ts est utile si vous cherchez une aide concrète pour l’installation, l’utilisation et la génération de code.

Code Generation
Favoris 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

par microsoft

azure-ai-contentunderstanding-py est le skill Python pour Azure AI Content Understanding. Il extrait du contenu structuré à partir de documents, d’images, d’audio et de vidéos pour les workflows RAG et l’automatisation. Utilisez-le lorsque vous avez besoin d’une extraction multimodale fiable, de l’authentification Azure et d’une sortie répétable, prête pour les pipelines.

RAG Workflows
Favoris 0GitHub 2.2k
M
azure-ai-voicelive-java

par microsoft

azure-ai-voicelive-java est un skill Azure AI VoiceLive pour le développement backend Java. Il couvre l’installation, l’authentification, le streaming vocal WebSocket, la gestion des événements et une utilisation guidée par des exemples pour créer des assistants temps réel.

Backend Development
Favoris 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

par microsoft

azure-ai-voicelive-dotnet est le skill .NET pour créer des applications vocales IA en temps réel avec Azure AI Voice Live. Il couvre l’installation, la configuration, l’authentification et les consignes d’utilisation pour le développement backend, y compris l’audio bidirectionnel, les sessions à faible latence et les workflows de parole à parole.

Backend Development
Favoris 0GitHub 2.2k
M
podcast-generation

par microsoft

podcast-generation aide à créer des audios de type podcast générés par IA à partir de texte, en utilisant Azure OpenAI GPT Realtime Mini via WebSocket. Elle convient à podcast-generation pour le développement full-stack, avec des repères pour React, Python FastAPI, le streaming PCM, la capture de transcription et la conversion WAV. Utilisez-la si vous avez besoin d’un guide pratique de podcast-generation pour une intégration réelle dans une application, et non d’un simple prompt générique.

Full-Stack Development
Favoris 0GitHub 2.2k
M
github-issue-creator

par microsoft

github-issue-creator transforme des notes brutes, des journaux d’erreurs, de la dictée vocale et des captures d’écran en brouillons d’issues GitHub clairs et structurés. Cette skill github-issue-creator aide au suivi des issues en organisant le résumé, l’environnement, les étapes de reproduction, le comportement attendu vs observé, l’impact et les preuves dans un issue Markdown prêt à relire.

Issue Tracking
Favoris 0GitHub 2.2k
P
seedance-2.0-prompter

par pexoai

seedance-2.0-prompter aide à transformer des ressources multimodales Seedance 2.0 en prompts structurés, avec des rôles clairs, la syntaxe `@asset` et des modèles réutilisables pour l’installation, la configuration et l’usage concret.

Prompt Writing
Favoris 0GitHub 452
R
transcribe-video

par rameerez

La skill transcribe-video transforme des fichiers vidéo ou audio en sorties .srt, .vtt et .txt avec AWS Transcribe. Utilisez-la pour les usages de transcribe-video quand vous avez besoin de sous-titres, d’une transcription consultable ou d’une version texte propre d’un contenu oral. Elle convient aussi aux workflows de conversion de format autour de transcribe-video.

Format Conversion
Favoris 0GitHub 23
M
detecting-deepfake-audio-in-vishing-attacks

par mukul975

detecting-deepfake-audio-in-vishing-attacks aide les équipes de sécurité à analyser l’audio pour repérer la parole générée par IA dans des cas de vishing, de fraude et d’usurpation d’identité. Il extrait des caractéristiques spectrales et basées sur les MFCC, attribue un score aux échantillons suspects et produit un rapport de type forensique pour examen. Idéal pour les workflows d’audit de sécurité et de réponse à incident.

Security Audit
Favoris 0GitHub 0
O
speech

par openai

Utilisez la compétence speech pour transformer du texte en audio parlé, pour de la narration, du voice-over, des consignes IVR, des lectures d’accessibilité et la génération de speech en lot. Elle s’appuie sur l’OpenAI Audio API avec des voix intégrées, un CLI fourni et `OPENAI_API_KEY` pour les exécutions en direct. La création de voix personnalisées n’entre pas dans le périmètre.

Design Implementation
Favoris 0GitHub 0
M
azure-ai-voicelive-py

par microsoft

azure-ai-voicelive-py vous aide à créer en Python des applications vocales IA en temps réel avec Azure AI Voice Live. Utilisez-le pour l’audio bidirectionnel via WebSocket, les assistants vocaux, le chat speech-to-speech, la transcription, les avatars et les agents vocaux capables d’utiliser des outils. C’est particulièrement adapté au développement backend quand vous avez besoin de connexions asynchrones, de l’authentification Azure, du contrôle de session et d’un streaming à faible latence.

Backend Development
Favoris 0GitHub 0
M
azure-ai-transcription-py

par microsoft

azure-ai-transcription-py est un skill Python pour Azure AI Transcription. Utilisez-le pour la transcription vocale en lot ou en temps réel, avec horodatage et diarisation. Il convient au développement backend, repose sur une authentification par clé d’abonnement et vous guide vers le bon flux d’installation et d’utilisation de la bibliothèque cliente Azure.

Backend Development
Favoris 0GitHub 0