Audio

Explora agent skills con la etiqueta Audio y compara workflows relacionados en el directorio.

25 skills

videodb

por affaan-m

videodb te ayuda a ingerir video y audio desde archivos locales, URLs, transmisiones en vivo RTSP/RTMP o captura de escritorio; a buscar momentos con marcas de tiempo y evidencia reproducible; y a actuar con clips, superposiciones, transcripción, alertas y edición en línea de tiempo. Es una guía práctica de videodb para VideoDB for Video Editing y análisis de transmisiones en directo.

Video Editing

Favoritos 0GitHub 156.3k

video-editing

por affaan-m

La skill de video-editing te ayuda a convertir metraje existente en videos pulidos y listos para publicar, más rápido. Se centra en cortar, estructurar, añadir subtítulos, reencuadrar y aplicar mejoras ligeras para vlogs, tutoriales, demos, clips cortos y ediciones de entrevistas. Es ideal cuando ya tienes material en bruto y necesitas una guía práctica de video-editing.

Video Editing

Favoritos 0GitHub 156.3k

fal-ai-media

por affaan-m

fal-ai-media es un skill de GitHub para la generación unificada de medios a través de fal.ai MCP. Ayuda a los usuarios a instalar y usar el skill fal-ai-media para flujos de trabajo de generación de imágenes, edición de imágenes, video, voz y audio, con búsqueda de modelos, comprobación de costes y prompts guiados.

Image Generation

Favoritos 0GitHub 156.1k

transcribe

por openai

transcribe convierte audio o video en texto con diarización opcional y pistas de hablantes conocidos. Encaja muy bien para redacción técnica, notas de reuniones, entrevistas, clases y operaciones de contenido cuando necesitas una skill de transcripción repetible, con formatos de salida claros y menos improvisación que con un prompt genérico.

Technical Writing

Favoritos 0GitHub 18.8k

baoyu-youtube-transcript

por JimLiu

baoyu-youtube-transcript ayuda a extraer transcripciones, subtítulos e imágenes de portada de YouTube a partir de una URL o un ID de video. Admite selección de idioma, traducción, salida en markdown o SRT, reformateo con caché y una alternativa de respaldo desde la API InnerTube a yt-dlp para obtener transcripciones con mayor fiabilidad.

Format Conversion

Favoritos 0GitHub 13.2k

hyperframes

por heygen-com

hyperframes es una skill de flujo de trabajo para crear composiciones de video basadas en HTML en HyperFrames. Úsala para tarjetas de título, superposiciones, subtítulos, locuciones, movimiento reactivo al audio y transiciones de escena cuando necesites hyperframes estructurados y orientados al código para edición de video. Prioriza decisiones de diseño, tiempo y animación por encima de solicitudes genéricas de video basadas solo en prompts.

Video Editing

Favoritos 0GitHub 2.7k

azure-ai-voicelive-ts

por microsoft

azure-ai-voicelive-ts te ayuda a crear aplicaciones de voz en tiempo real con el SDK de TypeScript de Azure AI Voice Live. Úsalo en proyectos de Node.js o de navegador que necesiten audio bidireccional, respuestas en streaming, configuración de sesiones y llamadas a funciones. Esta guía de azure-ai-voicelive-ts es útil cuando buscas ayuda práctica para instalarlo, usarlo y generar código.

Code Generation

Favoritos 0GitHub 2.3k

azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py es la skill de Python para Azure AI Content Understanding. Extrae contenido estructurado de documentos, imágenes, audio y video para flujos de trabajo RAG y automatización. Úsala cuando necesites extracción multimodal fiable, autenticación con Azure y resultados repetibles, listos para integrar en pipelines.

RAG Workflows

Favoritos 0GitHub 2.2k

azure-ai-voicelive-java

por microsoft

azure-ai-voicelive-java es una skill de Azure AI VoiceLive para desarrollo backend en Java. Cubre instalación, autenticación, streaming de voz por WebSocket, gestión de eventos y uso guiado por ejemplos para crear asistentes en tiempo real.

Backend Development

Favoritos 0GitHub 2.2k

azure-ai-voicelive-dotnet

por microsoft

azure-ai-voicelive-dotnet es el skill de .NET para crear apps de voz con IA en tiempo real con Azure AI Voice Live. Incluye guía de instalación, configuración, autenticación y uso para desarrollo backend, con audio bidireccional, sesiones de baja latencia y flujos de speech-to-speech.

Backend Development

Favoritos 0GitHub 2.2k

podcast-generation

por microsoft

podcast-generation ayuda a crear audio tipo podcast generado por IA a partir de texto usando Azure OpenAI GPT Realtime Mini sobre WebSocket. Encaja en podcast-generation para desarrollo full-stack, con orientación para React, Python FastAPI, streaming PCM, captura de transcripción y conversión a WAV. Úsalo cuando necesites una guía práctica de podcast-generation para integrarlo en una app real, no un prompt genérico.

Full-Stack Development

Favoritos 0GitHub 2.2k

github-issue-creator

por microsoft

github-issue-creator convierte notas sueltas, registros de error, dictado por voz y capturas de pantalla en borradores de incidencias de GitHub bien definidos. Esta habilidad de github-issue-creator ayuda con el seguimiento de incidencias al organizar el resumen, el entorno, los pasos para reproducir, el comportamiento esperado frente al real, el impacto y las pruebas en una incidencia en Markdown lista para revisión.

Issue Tracking

Favoritos 0GitHub 2.2k

speech-to-text

por NoizAI

La skill de speech-to-text transcribe archivos de audio compatibles a texto plano, con opciones de marcas de tiempo, etiquetas de hablantes y salida JSON. Está pensada para un uso práctico de speech-to-text en flujos de trabajo repetibles, como entrevistas, reuniones, pódcast, clases y tareas de automatización donde importa mantener una transcripción consistente.

Workflow Automation

Favoritos 0GitHub 498

tts

por NoizAI

La skill de tts convierte texto en audio hablado para narración, doblaje, locución y reproducción alineada a una línea de tiempo. Úsala para generar un archivo de voz a partir de texto plano, convertir artículos o archivos de texto en voz, o renderizar audio a partir de SRT con control de tiempos. Admite modos simple y de línea de tiempo, además de flujos de trabajo conscientes del backend para un uso repetible de tts.

Voice Generation

Favoritos 0GitHub 498

sound-fx

por NoizAI

Usa la skill sound-fx para convertir instrucciones de texto en efectos de sonido, foley, ambientes, sonidos de criaturas y ruidos de interfaz. Encaja bien para edición de audio con sound-fx, prototipado rápido y activos de audio descargables. Se instala con NoizAI/skills y luego se usa el flujo de trabajo basado en scripts con una clave válida de Noiz API. No sirve para voz hablada, letras, melodías ni clonación de voz.

Audio Editing

Favoritos 0GitHub 498

characteristic-voice

por NoizAI

characteristic-voice es una habilidad de generación de voz para un habla cálida, cercana y con presencia emocional. Úsala para respuestas reconfortantes, mensajes de buenos días o buenas noches, charla casual y entregas con estilo de personaje con pausas, risas o ternura. Incluye un flujo de trabajo guiado por presets y soporte de backend para un uso práctico de characteristic-voice.

Voice Generation

Favoritos 0GitHub 498

chat-with-anyone

por NoizAI

chat-with-anyone te ayuda a clonar la voz de una persona real a partir de audio público o a diseñar una voz parecida desde una imagen, y luego generar respuestas sintéticas con TTS. Admite flujos prácticos para roleplay, narración y generación de voz, con orientación sobre instalación, चयन de fuentes y uso seguro.

Voice Generation

Favoritos 0GitHub 498

seedance-2.0-prompter

por pexoai

seedance-2.0-prompter ayuda a convertir recursos multimodales de Seedance 2.0 en prompts estructurados, con roles claros, sintaxis `@asset` y plantillas reutilizables para la instalación, la configuración y el uso práctico.

Prompt Writing

Favoritos 0GitHub 452

transcribe-video

por rameerez

La skill transcribe-video convierte archivos de video o audio en salidas .srt, .vtt y .txt con AWS Transcribe. Úsala cuando necesites transcribe-video para subtítulos, una transcripción buscable o una versión limpia en texto del contenido hablado. También encaja en flujos de trabajo de conversión de formato con transcribe-video.

Format Conversion

Favoritos 0GitHub 23

transformers

por K-Dense-AI

La skill de transformers te ayuda a usar Hugging Face Transformers para cargar modelos, hacer inferencia, tokenizar y realizar fine-tuning. Es una guía práctica de transformers para tareas de Machine Learning en texto, visión, audio y flujos multimodales, con rutas claras para crear baselines rápidas y entrenar modelos a medida.

Machine Learning

Favoritos 0GitHub 0

markitdown

por K-Dense-AI

markitdown convierte archivos y documentos de oficina a Markdown para facilitar la lectura, la fragmentación, la búsqueda y los flujos de trabajo con LLM. Esta skill de markitdown admite PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, imágenes con OCR y transcripción de audio, por lo que es una guía práctica de markitdown para la conversión de formatos.

Format Conversion

Favoritos 0GitHub 0

detecting-deepfake-audio-in-vishing-attacks

por mukul975

detecting-deepfake-audio-in-vishing-attacks ayuda a los equipos de seguridad a analizar audio en busca de voz generada por IA en casos de vishing, fraude y suplantación de identidad. Extrae características espectrales y basadas en MFCC, puntúa muestras sospechosas y genera un informe de estilo forense para su revisión. Es ideal para flujos de trabajo de auditoría de seguridad y respuesta a incidentes.

Security Audit

Favoritos 0GitHub 0

speech

por openai

Usa la skill de speech para convertir texto en audio hablado para narración, locuciones, prompts de IVR, lecturas de accesibilidad y generación de voz por lotes. Funciona con la OpenAI Audio API, voces integradas, una CLI incluida y `OPENAI_API_KEY` para ejecuciones en vivo. La creación de voces personalizadas no entra en el alcance.

Design Implementation

Favoritos 0GitHub 0

azure-ai-voicelive-py

por microsoft

azure-ai-voicelive-py te ayuda a crear aplicaciones de IA de voz en tiempo real con Python y Azure AI Voice Live. Úsalo para audio bidireccional por WebSocket, asistentes de voz, chat de voz a voz, transcripción, avatares y agentes de voz que usan herramientas. Es la mejor opción para desarrollo backend cuando necesitas conexiones asíncronas, autenticación de Azure, control de sesiones y streaming de baja latencia.

Backend Development

Favoritos 0GitHub 0