Audio

Explore agent skills com a tag Audio e compare workflows relacionados no diretorio.

18 skills
A
videodb

por affaan-m

O videodb ajuda você a ingerir vídeo e áudio a partir de arquivos locais, URLs, feeds ao vivo RTSP/RTMP ou captura da área de trabalho; buscar momentos com timestamps e evidências reproduzíveis; e agir com clipes, overlays, transcrição, alertas e edição na linha do tempo. É um guia prático de videodb para VideoDB for Video Editing e análise de livestream.

Video Editing
Favoritos 0GitHub 156.3k
A
video-editing

por affaan-m

A skill de video-editing ajuda você a transformar filmagens já gravadas em vídeos mais polidos e prontos para publicação, mais rápido. Ela foca em corte, estruturação, legendas, reformatar enquadramento e pequenas melhorias para vlogs, tutoriais, demos, vídeos curtos e edições de entrevistas. É ideal quando você já tem material bruto e precisa de um guia prático de video-editing.

Video Editing
Favoritos 0GitHub 156.3k
A
fal-ai-media

por affaan-m

fal-ai-media é uma skill do GitHub para geração unificada de mídia via fal.ai MCP. Ela ajuda usuários a instalar e usar a skill fal-ai-media para geração de imagens, edição de imagens, vídeo, voz e áudio, com busca de modelos, checagem de custos e prompts guiados.

Image Generation
Favoritos 0GitHub 156.1k
O
transcribe

por openai

transcribe converte áudio ou vídeo em texto com diarização opcional e dicas de falantes conhecidos. É uma boa opção para redação técnica, atas de reunião, entrevistas, aulas e operações de conteúdo quando você precisa de uma skill de transcrição repetível, com formatos de saída claros e menos tentativa e erro do que um prompt genérico.

Technical Writing
Favoritos 0GitHub 18.8k
J
baoyu-youtube-transcript

por JimLiu

baoyu-youtube-transcript ajuda a extrair transcrições, legendas e imagens de capa do YouTube a partir de uma URL ou ID de vídeo. Suporta seleção de idioma, tradução, saída em markdown ou SRT, reformatação com cache e fallback da API InnerTube para yt-dlp, tornando a obtenção de transcrições mais confiável.

Format Conversion
Favoritos 0GitHub 13.2k
H
hyperframes

por heygen-com

hyperframes é uma skill de fluxo de trabalho para criar composições de vídeo baseadas em HTML no HyperFrames. Use-a para cards de título, sobreposições, legendas, narração, movimento reativo ao áudio e transições de cena quando precisar de hyperframes estruturados e orientados por código para Edição de Vídeo. Ela prioriza decisões de layout, tempo e animação em vez de pedidos genéricos de vídeo só com prompt.

Video Editing
Favoritos 0GitHub 2.7k
M
azure-ai-voicelive-ts

por microsoft

O azure-ai-voicelive-ts ajuda você a criar apps de IA de voz em tempo real com o Azure AI Voice Live TypeScript SDK. Use-o em projetos Node.js ou de navegador que precisem de áudio bidirecional, respostas em streaming, configuração de sessão e chamadas de função. Este guia do azure-ai-voicelive-ts é útil quando você quer ajuda prática com instalação, uso e geração de código.

Code Generation
Favoritos 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py é a skill em Python para o Azure AI Content Understanding. Ela extrai conteúdo estruturado de documentos, imagens, áudio e vídeo para fluxos de trabalho de RAG e automação. Use-a quando precisar de extração multimodal confiável, autenticação com Azure e saídas repetíveis prontas para pipeline.

RAG Workflows
Favoritos 0GitHub 2.2k
M
azure-ai-voicelive-java

por microsoft

azure-ai-voicelive-java é uma skill do Azure AI VoiceLive SDK para desenvolvimento de backend em Java. Ela cobre instalação, autenticação, streaming de voz via WebSocket, tratamento de eventos e uso guiado por exemplos para construir assistentes em tempo real.

Backend Development
Favoritos 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

por microsoft

azure-ai-voicelive-dotnet é a skill .NET para criar apps de IA de voz em tempo real com o Azure AI Voice Live. Ela cobre orientações de instalação, configuração, autenticação e uso para desenvolvimento de backend, incluindo áudio bidirecional, sessões de baixa latência e fluxos de speech-to-speech.

Backend Development
Favoritos 0GitHub 2.2k
M
podcast-generation

por microsoft

O podcast-generation ajuda a criar áudio no estilo de podcast gerado por IA a partir de texto usando Azure OpenAI GPT Realtime Mini via WebSocket. Ele é indicado para podcast-generation em desenvolvimento full-stack, com orientações para React, Python FastAPI, streaming PCM, captura de transcrição e conversão para WAV. Use quando precisar de um guia prático de podcast-generation para integração real em aplicativo, e não de um prompt genérico.

Full-Stack Development
Favoritos 0GitHub 2.2k
M
github-issue-creator

por microsoft

github-issue-creator converte anotações brutas, logs de erro, ditado por voz e capturas de tela em rascunhos de issues no estilo GitHub, claros e diretos. Este skill github-issue-creator ajuda no rastreamento de issues ao organizar resumo, ambiente, passos para reproduzir, comportamento esperado vs. observado, impacto e evidências em uma issue em markdown pronta para revisão.

Issue Tracking
Favoritos 0GitHub 2.2k
P
seedance-2.0-prompter

por pexoai

seedance-2.0-prompter ajuda a transformar assets multimodais do Seedance 2.0 em prompts estruturados, com papéis bem definidos, sintaxe `@asset` e templates reutilizáveis para instalação, configuração e uso prático.

Prompt Writing
Favoritos 0GitHub 452
R
transcribe-video

por rameerez

A skill transcribe-video transforma arquivos de vídeo ou áudio em saídas .srt, .vtt e .txt com o AWS Transcribe. Use-a quando precisar de legendas, uma transcrição pesquisável ou uma versão em texto limpa do conteúdo falado. Também se encaixa em fluxos de trabalho de conversão de formato com transcribe-video.

Format Conversion
Favoritos 0GitHub 23
M
detecting-deepfake-audio-in-vishing-attacks

por mukul975

detecting-deepfake-audio-in-vishing-attacks ajuda equipes de segurança a analisar áudio em busca de fala gerada por IA em casos de vishing, fraude e impersonação. A skill extrai características espectrais e baseadas em MFCC, atribui pontuação a amostras suspeitas e gera um relatório no estilo forense para revisão. É ideal para fluxos de Security Audit e resposta a incidentes.

Security Audit
Favoritos 0GitHub 0
O
speech

por openai

Use a skill speech para transformar texto em áudio falado para narração, locução, prompts de IVR, leitura para acessibilidade e geração em lote de fala. Ela usa a OpenAI Audio API com vozes integradas, um CLI incluído e `OPENAI_API_KEY` para execuções ao vivo. A criação de vozes personalizadas está fora do escopo.

Design Implementation
Favoritos 0GitHub 0
M
azure-ai-voicelive-py

por microsoft

azure-ai-voicelive-py ajuda você a criar apps de IA de voz em tempo real em Python com o Azure AI Voice Live. Use para áudio bidirecional via WebSocket, assistentes de voz, chat speech-to-speech, transcrição, avatares e agentes de voz que usam ferramentas. É a melhor opção para desenvolvimento de backend quando você precisa de conexões assíncronas, autenticação Azure, controle de sessão e streaming de baixa latência.

Backend Development
Favoritos 0GitHub 0
M
azure-ai-transcription-py

por microsoft

azure-ai-transcription-py é um skill em Python para Azure AI Transcription. Use-o para transcrição de fala para texto em lote ou em tempo real, com timestamps e diarização. Ele é indicado para desenvolvimento de backend, usa autenticação por subscription key e orienta o fluxo correto de instalação e uso da biblioteca cliente da Azure.

Backend Development
Favoritos 0GitHub 0