Audio

Explorez les agent skills avec le tag Audio et comparez les workflows associes dans le repertoire.

25 skills

videodb

par affaan-m

videodb vous aide à ingérer des vidéos et de l’audio depuis des fichiers locaux, des URL, des flux live RTSP/RTMP ou une capture d’écran, à retrouver des moments précis avec horodatage et preuve lisible, puis à agir avec des clips, des superpositions, la transcription, des alertes et le montage sur timeline. C’est un guide pratique de videodb pour VideoDB for Video Editing et l’analyse de flux en direct.

Video Editing

Favoris 0GitHub 156.3k

video-editing

par affaan-m

La compétence video-editing vous aide à transformer plus vite des rushs existants en vidéos soignées, prêtes à être publiées sur différentes plateformes. Elle se concentre sur le montage, la structuration, les sous-titres, le recadrage et de légères améliorations pour les vlogs, tutoriels, démonstrations, clips courts et montages d’interviews. C’est l’option idéale si vous avez déjà des rushs et cherchez un guide pratique de video-editing.

Video Editing

Favoris 0GitHub 156.3k

fal-ai-media

par affaan-m

fal-ai-media est une skill GitHub pour la génération multimédia unifiée via fal.ai MCP. Elle aide les utilisateurs à installer et à utiliser la skill fal-ai-media pour des workflows de génération d'images, de retouche d'images, de vidéo, de voix et d'audio, avec recherche de modèles, vérification des coûts et prompts guidés.

Image Generation

Favoris 0GitHub 156.1k

transcribe

par openai

transcribe transforme l’audio ou la vidéo en texte, avec en option la diarisation et des indications sur les locuteurs connus. C’est particulièrement adapté à la rédaction technique, aux comptes rendus de réunion, aux entretiens, aux cours et aux opérations de contenu lorsqu’il faut un skill de transcription reproductible, avec des formats de sortie clairs et moins d’approximations qu’avec un prompt générique.

Technical Writing

Favoris 0GitHub 18.8k

baoyu-youtube-transcript

par JimLiu

baoyu-youtube-transcript permet d’extraire les transcriptions YouTube, les sous-titres et les images de couverture à partir d’une URL ou d’un ID de vidéo. Il prend en charge le choix de la langue, la traduction, la sortie en markdown ou en SRT, le reformatage avec cache, ainsi qu’un basculement de l’API InnerTube vers yt-dlp pour récupérer les transcriptions de façon plus fiable.

Format Conversion

Favoris 0GitHub 13.2k

hyperframes

par heygen-com

hyperframes est un skill de workflow pour créer des compositions vidéo en HTML dans HyperFrames. Utilisez-le pour les cartes de titre, les superpositions, les sous-titres, les voix off, les mouvements réactifs à l'audio et les transitions de scène lorsque vous avez besoin de hyperframes structurés, pensés d'abord en code, pour le montage vidéo. Il privilégie les choix de mise en page, de timing et d'animation plutôt que de simples requêtes vidéo génériques basées sur du prompt.

Video Editing

Favoris 0GitHub 2.7k

azure-ai-voicelive-ts

par microsoft

azure-ai-voicelive-ts vous aide à créer des applications vocales IA en temps réel avec le SDK TypeScript Azure AI Voice Live. Utilisez-le pour des projets Node.js ou navigateur qui nécessitent de l’audio bidirectionnel, des réponses en streaming, la configuration de session et l’appel de fonctions. Ce guide azure-ai-voicelive-ts est utile si vous cherchez une aide concrète pour l’installation, l’utilisation et la génération de code.

Code Generation

Favoris 0GitHub 2.3k

azure-ai-contentunderstanding-py

par microsoft

azure-ai-contentunderstanding-py est le skill Python pour Azure AI Content Understanding. Il extrait du contenu structuré à partir de documents, d’images, d’audio et de vidéos pour les workflows RAG et l’automatisation. Utilisez-le lorsque vous avez besoin d’une extraction multimodale fiable, de l’authentification Azure et d’une sortie répétable, prête pour les pipelines.

RAG Workflows

Favoris 0GitHub 2.2k

azure-ai-voicelive-java

par microsoft

azure-ai-voicelive-java est un skill Azure AI VoiceLive pour le développement backend Java. Il couvre l’installation, l’authentification, le streaming vocal WebSocket, la gestion des événements et une utilisation guidée par des exemples pour créer des assistants temps réel.

Backend Development

Favoris 0GitHub 2.2k

azure-ai-voicelive-dotnet

par microsoft

azure-ai-voicelive-dotnet est le skill .NET pour créer des applications vocales IA en temps réel avec Azure AI Voice Live. Il couvre l’installation, la configuration, l’authentification et les consignes d’utilisation pour le développement backend, y compris l’audio bidirectionnel, les sessions à faible latence et les workflows de parole à parole.

Backend Development

Favoris 0GitHub 2.2k

podcast-generation

par microsoft

podcast-generation aide à créer des audios de type podcast générés par IA à partir de texte, en utilisant Azure OpenAI GPT Realtime Mini via WebSocket. Elle convient à podcast-generation pour le développement full-stack, avec des repères pour React, Python FastAPI, le streaming PCM, la capture de transcription et la conversion WAV. Utilisez-la si vous avez besoin d’un guide pratique de podcast-generation pour une intégration réelle dans une application, et non d’un simple prompt générique.

Full-Stack Development

Favoris 0GitHub 2.2k

github-issue-creator

par microsoft

github-issue-creator transforme des notes brutes, des journaux d’erreurs, de la dictée vocale et des captures d’écran en brouillons d’issues GitHub clairs et structurés. Cette skill github-issue-creator aide au suivi des issues en organisant le résumé, l’environnement, les étapes de reproduction, le comportement attendu vs observé, l’impact et les preuves dans un issue Markdown prêt à relire.

Issue Tracking

Favoris 0GitHub 2.2k

speech-to-text

par NoizAI

La skill speech-to-text transcrit les fichiers audio pris en charge en texte brut, avec des options pour les horodatages, les identifiants de locuteurs et la sortie JSON. Elle est conçue pour un usage pratique de la transcription speech-to-text dans des workflows reproductibles, notamment pour les interviews, réunions, podcasts, cours et tâches d’automatisation où la régularité de la transcription compte.

Workflow Automation

Favoris 0GitHub 498

tts

par NoizAI

Le skill tts transforme du texte en audio parlé pour la narration, le doublage, la voix off et la lecture synchronisée à une timeline. Utilisez-le pour générer un fichier vocal à partir d’un texte simple, convertir des articles ou des fichiers texte en parole, ou produire un audio piloté par SRT avec contrôle du timing. Il prend en charge des modes simple et timeline, ainsi que des workflows adaptés au backend pour un usage tts reproductible.

Voice Generation

Favoris 0GitHub 498

sound-fx

par NoizAI

Utilisez le skill sound-fx pour transformer des prompts textuels en effets sonores, bruitages, nappes d’ambiance, sons de créatures et bruits d’interface. Il convient au montage audio, au prototypage rapide et à la création d’assets audio téléchargeables. Installez-le avec NoizAI/skills, puis utilisez le workflow basé sur un script avec une clé Noiz API valide. Ne convient pas à la parole, aux paroles, à la mélodie ni au clonage de voix.

Audio Editing

Favoris 0GitHub 498

characteristic-voice

par NoizAI

characteristic-voice est une skill de génération vocale pour une parole chaleureuse, proche d’un compagnon, et émotionnellement présente. Utilisez-la pour des réponses réconfortantes, des messages du matin ou du soir, des échanges légers, et des voix de personnage avec des pauses, des rires ou de la tendresse. Elle inclut un flux de travail guidé par des préréglages et une prise en charge backend pour une utilisation pratique de characteristic-voice.

Voice Generation

Favoris 0GitHub 498

chat-with-anyone

par NoizAI

chat-with-anyone permet de cloner la voix d’une personne réelle à partir d’audios publics ou de créer une voix assortie à partir d’une image, puis de générer des réponses synthétiques avec la TTS. Il prend en charge des usages concrets pour le roleplay, la narration et la génération vocale, avec des নির্দেশրctions sur l’installation, le choix des sources et une utilisation sûre.

Voice Generation

Favoris 0GitHub 498

seedance-2.0-prompter

par pexoai

seedance-2.0-prompter aide à transformer des ressources multimodales Seedance 2.0 en prompts structurés, avec des rôles clairs, la syntaxe `@asset` et des modèles réutilisables pour l’installation, la configuration et l’usage concret.

Prompt Writing

Favoris 0GitHub 452

transcribe-video

par rameerez

La skill transcribe-video transforme des fichiers vidéo ou audio en sorties .srt, .vtt et .txt avec AWS Transcribe. Utilisez-la pour les usages de transcribe-video quand vous avez besoin de sous-titres, d’une transcription consultable ou d’une version texte propre d’un contenu oral. Elle convient aussi aux workflows de conversion de format autour de transcribe-video.

Format Conversion

Favoris 0GitHub 23

transformers

par K-Dense-AI

Le skill transformers vous aide à utiliser Hugging Face Transformers pour le chargement de modèles, l’inférence, la tokenisation et le fine-tuning. C’est un guide pratique de transformers pour les tâches de machine learning, couvrant le texte, la vision, l’audio et les workflows multimodaux, avec des parcours clairs pour démarrer vite avec une base simple ou aller vers un entraînement personnalisé.

Machine Learning

Favoris 0GitHub 0

markitdown

par K-Dense-AI

markitdown convertit des fichiers et des documents bureautiques en Markdown pour faciliter la lecture, le découpage en chunks, la recherche et les workflows LLM. Cette skill markitdown prend en charge les PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, les images avec OCR et la transcription audio, ce qui en fait un guide markitdown pratique pour la conversion de formats.

Format Conversion

Favoris 0GitHub 0

detecting-deepfake-audio-in-vishing-attacks

par mukul975

detecting-deepfake-audio-in-vishing-attacks aide les équipes de sécurité à analyser l’audio pour repérer la parole générée par IA dans des cas de vishing, de fraude et d’usurpation d’identité. Il extrait des caractéristiques spectrales et basées sur les MFCC, attribue un score aux échantillons suspects et produit un rapport de type forensique pour examen. Idéal pour les workflows d’audit de sécurité et de réponse à incident.

Security Audit

Favoris 0GitHub 0

speech

par openai

Utilisez la compétence speech pour transformer du texte en audio parlé, pour de la narration, du voice-over, des consignes IVR, des lectures d’accessibilité et la génération de speech en lot. Elle s’appuie sur l’OpenAI Audio API avec des voix intégrées, un CLI fourni et `OPENAI_API_KEY` pour les exécutions en direct. La création de voix personnalisées n’entre pas dans le périmètre.

Design Implementation

Favoris 0GitHub 0

azure-ai-voicelive-py

par microsoft

azure-ai-voicelive-py vous aide à créer en Python des applications vocales IA en temps réel avec Azure AI Voice Live. Utilisez-le pour l’audio bidirectionnel via WebSocket, les assistants vocaux, le chat speech-to-speech, la transcription, les avatars et les agents vocaux capables d’utiliser des outils. C’est particulièrement adapté au développement backend quand vous avez besoin de connexions asynchrones, de l’authentification Azure, du contrôle de session et d’un streaming à faible latence.

Backend Development

Favoris 0GitHub 0