Audio

Explora agent skills con la etiqueta Audio y compara workflows relacionados en el directorio.

18 skills
A
videodb

por affaan-m

videodb te ayuda a ingerir video y audio desde archivos locales, URLs, transmisiones en vivo RTSP/RTMP o captura de escritorio; a buscar momentos con marcas de tiempo y evidencia reproducible; y a actuar con clips, superposiciones, transcripción, alertas y edición en línea de tiempo. Es una guía práctica de videodb para VideoDB for Video Editing y análisis de transmisiones en directo.

Video Editing
Favoritos 0GitHub 156.3k
A
video-editing

por affaan-m

La skill de video-editing te ayuda a convertir metraje existente en videos pulidos y listos para publicar, más rápido. Se centra en cortar, estructurar, añadir subtítulos, reencuadrar y aplicar mejoras ligeras para vlogs, tutoriales, demos, clips cortos y ediciones de entrevistas. Es ideal cuando ya tienes material en bruto y necesitas una guía práctica de video-editing.

Video Editing
Favoritos 0GitHub 156.3k
A
fal-ai-media

por affaan-m

fal-ai-media es un skill de GitHub para la generación unificada de medios a través de fal.ai MCP. Ayuda a los usuarios a instalar y usar el skill fal-ai-media para flujos de trabajo de generación de imágenes, edición de imágenes, video, voz y audio, con búsqueda de modelos, comprobación de costes y prompts guiados.

Image Generation
Favoritos 0GitHub 156.1k
O
transcribe

por openai

transcribe convierte audio o video en texto con diarización opcional y pistas de hablantes conocidos. Encaja muy bien para redacción técnica, notas de reuniones, entrevistas, clases y operaciones de contenido cuando necesitas una skill de transcripción repetible, con formatos de salida claros y menos improvisación que con un prompt genérico.

Technical Writing
Favoritos 0GitHub 18.8k
J
baoyu-youtube-transcript

por JimLiu

baoyu-youtube-transcript ayuda a extraer transcripciones, subtítulos e imágenes de portada de YouTube a partir de una URL o un ID de video. Admite selección de idioma, traducción, salida en markdown o SRT, reformateo con caché y una alternativa de respaldo desde la API InnerTube a yt-dlp para obtener transcripciones con mayor fiabilidad.

Format Conversion
Favoritos 0GitHub 13.2k
H
hyperframes

por heygen-com

hyperframes es una skill de flujo de trabajo para crear composiciones de video basadas en HTML en HyperFrames. Úsala para tarjetas de título, superposiciones, subtítulos, locuciones, movimiento reactivo al audio y transiciones de escena cuando necesites hyperframes estructurados y orientados al código para edición de video. Prioriza decisiones de diseño, tiempo y animación por encima de solicitudes genéricas de video basadas solo en prompts.

Video Editing
Favoritos 0GitHub 2.7k
M
azure-ai-voicelive-ts

por microsoft

azure-ai-voicelive-ts te ayuda a crear aplicaciones de voz en tiempo real con el SDK de TypeScript de Azure AI Voice Live. Úsalo en proyectos de Node.js o de navegador que necesiten audio bidireccional, respuestas en streaming, configuración de sesiones y llamadas a funciones. Esta guía de azure-ai-voicelive-ts es útil cuando buscas ayuda práctica para instalarlo, usarlo y generar código.

Code Generation
Favoritos 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py es la skill de Python para Azure AI Content Understanding. Extrae contenido estructurado de documentos, imágenes, audio y video para flujos de trabajo RAG y automatización. Úsala cuando necesites extracción multimodal fiable, autenticación con Azure y resultados repetibles, listos para integrar en pipelines.

RAG Workflows
Favoritos 0GitHub 2.2k
M
azure-ai-voicelive-java

por microsoft

azure-ai-voicelive-java es una skill de Azure AI VoiceLive para desarrollo backend en Java. Cubre instalación, autenticación, streaming de voz por WebSocket, gestión de eventos y uso guiado por ejemplos para crear asistentes en tiempo real.

Backend Development
Favoritos 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

por microsoft

azure-ai-voicelive-dotnet es el skill de .NET para crear apps de voz con IA en tiempo real con Azure AI Voice Live. Incluye guía de instalación, configuración, autenticación y uso para desarrollo backend, con audio bidireccional, sesiones de baja latencia y flujos de speech-to-speech.

Backend Development
Favoritos 0GitHub 2.2k
M
podcast-generation

por microsoft

podcast-generation ayuda a crear audio tipo podcast generado por IA a partir de texto usando Azure OpenAI GPT Realtime Mini sobre WebSocket. Encaja en podcast-generation para desarrollo full-stack, con orientación para React, Python FastAPI, streaming PCM, captura de transcripción y conversión a WAV. Úsalo cuando necesites una guía práctica de podcast-generation para integrarlo en una app real, no un prompt genérico.

Full-Stack Development
Favoritos 0GitHub 2.2k
M
github-issue-creator

por microsoft

github-issue-creator convierte notas sueltas, registros de error, dictado por voz y capturas de pantalla en borradores de incidencias de GitHub bien definidos. Esta habilidad de github-issue-creator ayuda con el seguimiento de incidencias al organizar el resumen, el entorno, los pasos para reproducir, el comportamiento esperado frente al real, el impacto y las pruebas en una incidencia en Markdown lista para revisión.

Issue Tracking
Favoritos 0GitHub 2.2k
P
seedance-2.0-prompter

por pexoai

seedance-2.0-prompter ayuda a convertir recursos multimodales de Seedance 2.0 en prompts estructurados, con roles claros, sintaxis `@asset` y plantillas reutilizables para la instalación, la configuración y el uso práctico.

Prompt Writing
Favoritos 0GitHub 452
R
transcribe-video

por rameerez

La skill transcribe-video convierte archivos de video o audio en salidas .srt, .vtt y .txt con AWS Transcribe. Úsala cuando necesites transcribe-video para subtítulos, una transcripción buscable o una versión limpia en texto del contenido hablado. También encaja en flujos de trabajo de conversión de formato con transcribe-video.

Format Conversion
Favoritos 0GitHub 23
M
detecting-deepfake-audio-in-vishing-attacks

por mukul975

detecting-deepfake-audio-in-vishing-attacks ayuda a los equipos de seguridad a analizar audio en busca de voz generada por IA en casos de vishing, fraude y suplantación de identidad. Extrae características espectrales y basadas en MFCC, puntúa muestras sospechosas y genera un informe de estilo forense para su revisión. Es ideal para flujos de trabajo de auditoría de seguridad y respuesta a incidentes.

Security Audit
Favoritos 0GitHub 0
O
speech

por openai

Usa la skill de speech para convertir texto en audio hablado para narración, locuciones, prompts de IVR, lecturas de accesibilidad y generación de voz por lotes. Funciona con la OpenAI Audio API, voces integradas, una CLI incluida y `OPENAI_API_KEY` para ejecuciones en vivo. La creación de voces personalizadas no entra en el alcance.

Design Implementation
Favoritos 0GitHub 0
M
azure-ai-voicelive-py

por microsoft

azure-ai-voicelive-py te ayuda a crear aplicaciones de IA de voz en tiempo real con Python y Azure AI Voice Live. Úsalo para audio bidireccional por WebSocket, asistentes de voz, chat de voz a voz, transcripción, avatares y agentes de voz que usan herramientas. Es la mejor opción para desarrollo backend cuando necesitas conexiones asíncronas, autenticación de Azure, control de sesiones y streaming de baja latencia.

Backend Development
Favoritos 0GitHub 0
M
azure-ai-transcription-py

por microsoft

azure-ai-transcription-py es una skill en Python para Azure AI Transcription. Úsala para convertir voz a texto por lotes o en tiempo real, con marcas de tiempo y diarización. Encaja en desarrollo backend, usa autenticación con clave de suscripción y te guía hacia el flujo correcto de instalación y uso de la biblioteca cliente de Azure.

Backend Development
Favoritos 0GitHub 0