音频

浏览带有音频标签的 Agent Skill，并比较目录中的相关工作流与详情页。

25 个技能

videodb

作者 affaan-m

videodb 可帮助你从本地文件、URL、RTSP/RTMP 直播流或桌面录制中导入视频和音频；按时间戳搜索片段并查看可播放证据；还可通过剪辑、叠加层、转写、告警和时间线编辑来执行操作。它是面向 VideoDB 视频编辑与直播分析的实用 videodb 指南。

视频编辑

收藏 0GitHub 156.3k

video-editing

作者 affaan-m

video-editing 技能可以帮助你更快把现有素材打磨成适合各平台发布的成片。它聚焦剪辑、结构整理、字幕添加、画面重构和轻度增强，适用于 vlog、教程、演示、短视频片段和访谈剪辑。特别适合你已经有原始素材、需要一份实用的 video-editing 指南时使用。

视频编辑

收藏 0GitHub 156.3k

fal-ai-media

作者 affaan-m

fal-ai-media 是一个通过 fal.ai MCP 实现统一媒体生成的 GitHub 技能。它帮助用户安装和使用 fal-ai-media 技能，覆盖图像生成、图像编辑、视频、语音和音频工作流，并提供模型搜索、成本检查和引导式提示。

图像生成

收藏 0GitHub 156.1k

transcribe

作者 openai

transcribe 可将音频或视频转成文本，并支持可选的说话人分离和已知说话人提示。它很适合技术写作、会议纪要、访谈、讲座和内容运营等场景，尤其是在你需要一个可重复使用、输出格式清晰、比通用提示词更少猜测的 transcribe 技能时。

技术写作

收藏 0GitHub 18.8k

baoyu-youtube-transcript

作者 JimLiu

baoyu-youtube-transcript 可从 YouTube URL 或 video ID 提取 transcript、subtitles 和封面图。它支持语言选择、翻译、Markdown 或 SRT 输出、基于缓存的重新格式化，并在 InnerTube API 不可用时回退到 yt-dlp，以更稳定地获取 transcript。

格式转换

收藏 0GitHub 13.2k

hyperframes

作者 heygen-com

hyperframes 是一项工作流技能，用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景，比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策，而不是泛泛的只靠提示词生成视频请求。

视频编辑

收藏 0GitHub 2.7k

azure-ai-voicelive-ts

作者 microsoft

azure-ai-voicelive-ts 可帮助你使用 Azure AI Voice Live TypeScript SDK 构建实时语音 AI 应用。适用于需要双向音频、流式响应、会话设置和函数调用的 Node.js 或浏览器项目。这份 azure-ai-voicelive-ts 指南适合在你需要实用的安装、用法和代码生成帮助时参考。

代码生成

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-voicelive-java

作者 microsoft

azure-ai-voicelive-java 是面向 Java 后端开发的 Azure AI VoiceLive SDK 技能，涵盖安装、身份验证、WebSocket 语音流式传输、事件处理以及基于示例的使用方式，适合构建实时助手。

后端开发

收藏 0GitHub 2.2k

azure-ai-voicelive-dotnet

作者 microsoft

azure-ai-voicelive-dotnet 是用于借助 Azure AI Voice Live 构建实时语音 AI 应用的 .NET 技能。它涵盖安装、配置、身份验证和使用指南，面向后端开发，内容包括双向音频、低延迟会话以及 speech-to-speech 工作流。

后端开发

收藏 0GitHub 2.2k

podcast-generation

作者 microsoft

podcast-generation 可基于文本，借助 Azure OpenAI GPT Realtime Mini 通过 WebSocket 生成 AI 播客风格音频。它适用于 Full-Stack Development 场景，并提供 React、Python FastAPI、PCM 流式传输、转录捕获和 WAV 转换方面的指导。若你需要的是面向真实应用集成的实用 podcast-generation 指南，而不是通用提示词，这个技能就很合适。

全栈开发

收藏 0GitHub 2.2k

github-issue-creator

作者 microsoft

github-issue-creator 可将原始笔记、错误日志、语音口述和截图整理成清晰的 GitHub 风格 issue 草稿。这个 github-issue-creator 技能适用于 Issue Tracking，会把摘要、环境、复现步骤、预期与实际行为、影响范围和证据组织成一份可审阅的 markdown issue。

问题追踪

收藏 0GitHub 2.2k

speech-to-text

作者 NoizAI

speech-to-text 技能可将受支持的音频文件转写为纯文本，并支持时间戳、说话人标签和 JSON 输出。它面向需要稳定、可重复流程的实际 speech-to-text 场景，适用于访谈、会议、播客、讲座，以及对转写一致性要求较高的自动化任务。

工作流自动化

收藏 0GitHub 498

tts

作者 NoizAI

tts 技能可将文本转换为语音音频，适用于旁白、配音、配音解说和按时间轴对齐的播放。你可以用它把纯文本生成语音文件，将文章或文本文件转成语音，或生成带时间控制的 SRT 驱动音频。它支持简单模式和时间轴模式，也支持面向后端的工作流，便于重复、稳定地使用 tts。

语音生成

收藏 0GitHub 498

sound-fx

作者 NoizAI

使用 sound-fx 技能，把文本提示词转换成音效、拟音、环境底噪、怪物声音和 UI 音效。它适合用于音效编辑、快速原型验证和可下载音频素材制作。先通过 NoizAI/skills 安装，然后使用基于脚本的工作流，并准备有效的 Noiz API key。它不适用于语音、歌词、旋律或声音克隆。

音频编辑

收藏 0GitHub 498

characteristic-voice

作者 NoizAI

characteristic-voice 是一款用于生成温暖、像陪伴者一样、带有情感在场感的语音技能。适合安抚式回复、早安晚安消息、轻松闲聊，以及带停顿、笑声或温柔感的角色化表达。它包含基于预设的工作流和后端支持，便于实际使用 characteristic-voice。

语音生成

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可从公开音频克隆真实人物的声音，或根据图片设计匹配的声音，再通过 TTS 生成合成回复。它支持角色扮演、旁白和语音生成等实用工作流，并提供安装、素材选择和安全使用方面的指导。

语音生成

收藏 0GitHub 498

seedance-2.0-prompter

作者 pexoai

seedance-2.0-prompter 可将多模态 Seedance 2.0 素材整理为结构化 prompts，提供清晰角色定义、`@asset` 语法和可复用模板，方便安装、配置与实际使用。

提示词写作

收藏 0GitHub 452

transcribe-video

作者 rameerez

transcribe-video 技能可使用 AWS Transcribe 将视频或音频文件转换为 .srt、.vtt 和 .txt 输出。适合需要字幕、可检索转写稿，或将口语内容整理为干净文本版本的 transcribe-video 场景。它也适用于 transcribe-video 的 Format Conversion 工作流。

格式转换

收藏 0GitHub 23

transformers

作者 K-Dense-AI

transformers 技能可帮助你使用 Hugging Face Transformers 进行模型加载、推理、分词和微调。它是一份面向 Machine Learning 任务的实用 transformers 指南，覆盖文本、视觉、音频和多模态工作流，并为快速基线和自定义训练提供清晰路径。

机器学习

收藏 0GitHub 0

markitdown

作者 K-Dense-AI

markitdown 可将文件和办公文档转换为 Markdown，便于阅读、分块、检索和 LLM 工作流。这个 markitdown 技能支持 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、带 OCR 的图片以及音频转写，是一份实用的 markitdown 格式转换指南。

格式转换

收藏 0GitHub 0

detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可帮助安全团队分析音频中的 AI 生成语音，适用于 vishing、诈骗和冒充类案件。它会提取频谱特征和基于 MFCC 的特征，对可疑样本进行评分，并生成可供复核的法医风格报告。非常适合安全审计和事件响应工作流。

安全审计

收藏 0GitHub 0

speech

作者 openai

使用 speech 技能将文本转换为可朗读的音频，适用于旁白、配音、IVR 提示、无障碍朗读和批量语音生成。它基于 OpenAI Audio API，内置 voices，附带 CLI，并在实际运行时需要 `OPENAI_API_KEY`。不支持自定义 voice 创建。

设计实现

收藏 0GitHub 0

azure-ai-voicelive-py

作者 microsoft

azure-ai-voicelive-py 可帮助你使用 Azure AI Voice Live 在 Python 中构建实时语音 AI 应用。适用于双向 WebSocket 音频、语音助手、speech-to-speech 对话、转写、avatar 以及使用工具的语音 agent。最适合需要异步连接、Azure 身份验证、会话控制和低延迟流式传输的后端开发场景。

后端开发

收藏 0GitHub 0

音频

浏览带有 音频 标签的 Agent Skill，并比较目录中的相关工作流与详情页。

浏览带有音频标签的 Agent Skill，并比较目录中的相关工作流与详情页。