Audio

Explore agent skills com a tag Audio e compare workflows relacionados no diretorio.

25 skills
A
videodb

por affaan-m

O videodb ajuda você a ingerir vídeo e áudio a partir de arquivos locais, URLs, feeds ao vivo RTSP/RTMP ou captura da área de trabalho; buscar momentos com timestamps e evidências reproduzíveis; e agir com clipes, overlays, transcrição, alertas e edição na linha do tempo. É um guia prático de videodb para VideoDB for Video Editing e análise de livestream.

Video Editing
Favoritos 0GitHub 156.3k
A
video-editing

por affaan-m

A skill de video-editing ajuda você a transformar filmagens já gravadas em vídeos mais polidos e prontos para publicação, mais rápido. Ela foca em corte, estruturação, legendas, reformatar enquadramento e pequenas melhorias para vlogs, tutoriais, demos, vídeos curtos e edições de entrevistas. É ideal quando você já tem material bruto e precisa de um guia prático de video-editing.

Video Editing
Favoritos 0GitHub 156.3k
A
fal-ai-media

por affaan-m

fal-ai-media é uma skill do GitHub para geração unificada de mídia via fal.ai MCP. Ela ajuda usuários a instalar e usar a skill fal-ai-media para geração de imagens, edição de imagens, vídeo, voz e áudio, com busca de modelos, checagem de custos e prompts guiados.

Image Generation
Favoritos 0GitHub 156.1k
O
transcribe

por openai

transcribe converte áudio ou vídeo em texto com diarização opcional e dicas de falantes conhecidos. É uma boa opção para redação técnica, atas de reunião, entrevistas, aulas e operações de conteúdo quando você precisa de uma skill de transcrição repetível, com formatos de saída claros e menos tentativa e erro do que um prompt genérico.

Technical Writing
Favoritos 0GitHub 18.8k
J
baoyu-youtube-transcript

por JimLiu

baoyu-youtube-transcript ajuda a extrair transcrições, legendas e imagens de capa do YouTube a partir de uma URL ou ID de vídeo. Suporta seleção de idioma, tradução, saída em markdown ou SRT, reformatação com cache e fallback da API InnerTube para yt-dlp, tornando a obtenção de transcrições mais confiável.

Format Conversion
Favoritos 0GitHub 13.2k
H
hyperframes

por heygen-com

hyperframes é uma skill de fluxo de trabalho para criar composições de vídeo baseadas em HTML no HyperFrames. Use-a para cards de título, sobreposições, legendas, narração, movimento reativo ao áudio e transições de cena quando precisar de hyperframes estruturados e orientados por código para Edição de Vídeo. Ela prioriza decisões de layout, tempo e animação em vez de pedidos genéricos de vídeo só com prompt.

Video Editing
Favoritos 0GitHub 2.7k
M
azure-ai-voicelive-ts

por microsoft

O azure-ai-voicelive-ts ajuda você a criar apps de IA de voz em tempo real com o Azure AI Voice Live TypeScript SDK. Use-o em projetos Node.js ou de navegador que precisem de áudio bidirecional, respostas em streaming, configuração de sessão e chamadas de função. Este guia do azure-ai-voicelive-ts é útil quando você quer ajuda prática com instalação, uso e geração de código.

Code Generation
Favoritos 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py é a skill em Python para o Azure AI Content Understanding. Ela extrai conteúdo estruturado de documentos, imagens, áudio e vídeo para fluxos de trabalho de RAG e automação. Use-a quando precisar de extração multimodal confiável, autenticação com Azure e saídas repetíveis prontas para pipeline.

RAG Workflows
Favoritos 0GitHub 2.2k
M
azure-ai-voicelive-java

por microsoft

azure-ai-voicelive-java é uma skill do Azure AI VoiceLive SDK para desenvolvimento de backend em Java. Ela cobre instalação, autenticação, streaming de voz via WebSocket, tratamento de eventos e uso guiado por exemplos para construir assistentes em tempo real.

Backend Development
Favoritos 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

por microsoft

azure-ai-voicelive-dotnet é a skill .NET para criar apps de IA de voz em tempo real com o Azure AI Voice Live. Ela cobre orientações de instalação, configuração, autenticação e uso para desenvolvimento de backend, incluindo áudio bidirecional, sessões de baixa latência e fluxos de speech-to-speech.

Backend Development
Favoritos 0GitHub 2.2k
M
podcast-generation

por microsoft

O podcast-generation ajuda a criar áudio no estilo de podcast gerado por IA a partir de texto usando Azure OpenAI GPT Realtime Mini via WebSocket. Ele é indicado para podcast-generation em desenvolvimento full-stack, com orientações para React, Python FastAPI, streaming PCM, captura de transcrição e conversão para WAV. Use quando precisar de um guia prático de podcast-generation para integração real em aplicativo, e não de um prompt genérico.

Full-Stack Development
Favoritos 0GitHub 2.2k
M
github-issue-creator

por microsoft

github-issue-creator converte anotações brutas, logs de erro, ditado por voz e capturas de tela em rascunhos de issues no estilo GitHub, claros e diretos. Este skill github-issue-creator ajuda no rastreamento de issues ao organizar resumo, ambiente, passos para reproduzir, comportamento esperado vs. observado, impacto e evidências em uma issue em markdown pronta para revisão.

Issue Tracking
Favoritos 0GitHub 2.2k
N
speech-to-text

por NoizAI

A skill speech-to-text transcreve arquivos de áudio compatíveis em texto simples, com opções de timestamps, identificação de falantes e saída em JSON. Ela foi pensada para uso prático de speech-to-text em fluxos de trabalho repetíveis, incluindo entrevistas, reuniões, podcasts, aulas e tarefas de automação em que a consistência da transcrição faz diferença.

Workflow Automation
Favoritos 0GitHub 498
N
tts

por NoizAI

O skill tts transforma texto em áudio com voz para narração, dublagem, locução e reprodução sincronizada com a linha do tempo. Use-o para gerar um arquivo de voz a partir de texto simples, converter artigos ou arquivos de texto em fala, ou renderizar áudio guiado por SRT com controle de timing. Ele oferece modos simples e de linha do tempo, além de fluxos de trabalho cientes do backend para uso repetível do tts.

Voice Generation
Favoritos 0GitHub 498
N
sound-fx

por NoizAI

Use a skill sound-fx para transformar prompts de texto em efeitos sonoros, foley, camas ambiênciais, sons de criaturas e ruídos de interface. Ela é ideal para sound-fx em Edição de Áudio, prototipagem rápida e criação de ativos de áudio para download. Instale com NoizAI/skills e, em seguida, use o fluxo de trabalho baseado em script com uma chave Noiz API válida. Não serve para fala, letras, melodia ou clonagem de voz.

Audio Editing
Favoritos 0GitHub 498
N
characteristic-voice

por NoizAI

characteristic-voice é uma skill de geração de voz para fala calorosa, acolhedora e emocionalmente presente. Use-a para respostas reconfortantes, mensagens de bom dia ou boa noite, bate-papo casual e entregas no estilo de personagem com pausas, risadas ou ternura. Inclui um fluxo orientado por presets e suporte de backend para uso prático do characteristic-voice.

Voice Generation
Favoritos 0GitHub 498
N
chat-with-anyone

por NoizAI

chat-with-anyone ajuda você a clonar a voz de uma pessoa real a partir de áudio público ou criar uma voz equivalente com base em uma imagem e, depois, gerar respostas sintéticas com TTS. Ele oferece suporte a fluxos práticos para roleplay, narração e geração de voz, com orientações sobre instalação, seleção de fontes e uso seguro.

Voice Generation
Favoritos 0GitHub 498
P
seedance-2.0-prompter

por pexoai

seedance-2.0-prompter ajuda a transformar assets multimodais do Seedance 2.0 em prompts estruturados, com papéis bem definidos, sintaxe `@asset` e templates reutilizáveis para instalação, configuração e uso prático.

Prompt Writing
Favoritos 0GitHub 452
R
transcribe-video

por rameerez

A skill transcribe-video transforma arquivos de vídeo ou áudio em saídas .srt, .vtt e .txt com o AWS Transcribe. Use-a quando precisar de legendas, uma transcrição pesquisável ou uma versão em texto limpa do conteúdo falado. Também se encaixa em fluxos de trabalho de conversão de formato com transcribe-video.

Format Conversion
Favoritos 0GitHub 23
K
transformers

por K-Dense-AI

A skill transformers ajuda você a usar o Hugging Face Transformers para carregamento de modelos, inferência, tokenização e fine-tuning. É um guia prático de transformers para tarefas de Machine Learning em fluxos de texto, visão, áudio e multimodais, com caminhos claros para partir de baselines rápidas ou treinamento personalizado.

Machine Learning
Favoritos 0GitHub 0
K
markitdown

por K-Dense-AI

markitdown converte arquivos e documentos de escritório para Markdown, facilitando a leitura, a segmentação em partes, a busca e fluxos de trabalho com LLMs. Esta skill markitdown oferece suporte a PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, imagens com OCR e transcrição de áudio, tornando-se um guia prático do markitdown para conversão de formatos.

Format Conversion
Favoritos 0GitHub 0
M
detecting-deepfake-audio-in-vishing-attacks

por mukul975

detecting-deepfake-audio-in-vishing-attacks ajuda equipes de segurança a analisar áudio em busca de fala gerada por IA em casos de vishing, fraude e impersonação. A skill extrai características espectrais e baseadas em MFCC, atribui pontuação a amostras suspeitas e gera um relatório no estilo forense para revisão. É ideal para fluxos de Security Audit e resposta a incidentes.

Security Audit
Favoritos 0GitHub 0
O
speech

por openai

Use a skill speech para transformar texto em áudio falado para narração, locução, prompts de IVR, leitura para acessibilidade e geração em lote de fala. Ela usa a OpenAI Audio API com vozes integradas, um CLI incluído e `OPENAI_API_KEY` para execuções ao vivo. A criação de vozes personalizadas está fora do escopo.

Design Implementation
Favoritos 0GitHub 0
M
azure-ai-voicelive-py

por microsoft

azure-ai-voicelive-py ajuda você a criar apps de IA de voz em tempo real em Python com o Azure AI Voice Live. Use para áudio bidirecional via WebSocket, assistentes de voz, chat speech-to-speech, transcrição, avatares e agentes de voz que usam ferramentas. É a melhor opção para desenvolvimento de backend quando você precisa de conexões assíncronas, autenticação Azure, controle de sessão e streaming de baixa latência.

Backend Development
Favoritos 0GitHub 0
Audio tagged agent skills