作者 affaan-m
videodb 可帮助你从本地文件、URL、RTSP/RTMP 直播流或桌面录制中导入视频和音频;按时间戳搜索片段并查看可播放证据;还可通过剪辑、叠加层、转写、告警和时间线编辑来执行操作。它是面向 VideoDB 视频编辑与直播分析的实用 videodb 指南。
作者 affaan-m
videodb 可帮助你从本地文件、URL、RTSP/RTMP 直播流或桌面录制中导入视频和音频;按时间戳搜索片段并查看可播放证据;还可通过剪辑、叠加层、转写、告警和时间线编辑来执行操作。它是面向 VideoDB 视频编辑与直播分析的实用 videodb 指南。
作者 affaan-m
video-editing 技能可以帮助你更快把现有素材打磨成适合各平台发布的成片。它聚焦剪辑、结构整理、字幕添加、画面重构和轻度增强,适用于 vlog、教程、演示、短视频片段和访谈剪辑。特别适合你已经有原始素材、需要一份实用的 video-editing 指南时使用。
作者 affaan-m
fal-ai-media 是一个通过 fal.ai MCP 实现统一媒体生成的 GitHub 技能。它帮助用户安装和使用 fal-ai-media 技能,覆盖图像生成、图像编辑、视频、语音和音频工作流,并提供模型搜索、成本检查和引导式提示。
作者 openai
transcribe 可将音频或视频转成文本,并支持可选的说话人分离和已知说话人提示。它很适合技术写作、会议纪要、访谈、讲座和内容运营等场景,尤其是在你需要一个可重复使用、输出格式清晰、比通用提示词更少猜测的 transcribe 技能时。
作者 JimLiu
baoyu-youtube-transcript 可从 YouTube URL 或 video ID 提取 transcript、subtitles 和封面图。它支持语言选择、翻译、Markdown 或 SRT 输出、基于缓存的重新格式化,并在 InnerTube API 不可用时回退到 yt-dlp,以更稳定地获取 transcript。
作者 heygen-com
hyperframes 是一项工作流技能,用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景,比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策,而不是泛泛的只靠提示词生成视频请求。
作者 microsoft
azure-ai-voicelive-ts 可帮助你使用 Azure AI Voice Live TypeScript SDK 构建实时语音 AI 应用。适用于需要双向音频、流式响应、会话设置和函数调用的 Node.js 或浏览器项目。这份 azure-ai-voicelive-ts 指南适合在你需要实用的安装、用法和代码生成帮助时参考。
作者 microsoft
azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容,适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出,就适合使用它。
作者 microsoft
azure-ai-voicelive-java 是面向 Java 后端开发的 Azure AI VoiceLive SDK 技能,涵盖安装、身份验证、WebSocket 语音流式传输、事件处理以及基于示例的使用方式,适合构建实时助手。
作者 microsoft
azure-ai-voicelive-dotnet 是用于借助 Azure AI Voice Live 构建实时语音 AI 应用的 .NET 技能。它涵盖安装、配置、身份验证和使用指南,面向后端开发,内容包括双向音频、低延迟会话以及 speech-to-speech 工作流。
作者 microsoft
podcast-generation 可基于文本,借助 Azure OpenAI GPT Realtime Mini 通过 WebSocket 生成 AI 播客风格音频。它适用于 Full-Stack Development 场景,并提供 React、Python FastAPI、PCM 流式传输、转录捕获和 WAV 转换方面的指导。若你需要的是面向真实应用集成的实用 podcast-generation 指南,而不是通用提示词,这个技能就很合适。
作者 microsoft
github-issue-creator 可将原始笔记、错误日志、语音口述和截图整理成清晰的 GitHub 风格 issue 草稿。这个 github-issue-creator 技能适用于 Issue Tracking,会把摘要、环境、复现步骤、预期与实际行为、影响范围和证据组织成一份可审阅的 markdown issue。
作者 pexoai
seedance-2.0-prompter 可将多模态 Seedance 2.0 素材整理为结构化 prompts,提供清晰角色定义、`@asset` 语法和可复用模板,方便安装、配置与实际使用。
作者 rameerez
transcribe-video 技能可使用 AWS Transcribe 将视频或音频文件转换为 .srt、.vtt 和 .txt 输出。适合需要字幕、可检索转写稿,或将口语内容整理为干净文本版本的 transcribe-video 场景。它也适用于 transcribe-video 的 Format Conversion 工作流。
作者 mukul975
detecting-deepfake-audio-in-vishing-attacks 可帮助安全团队分析音频中的 AI 生成语音,适用于 vishing、诈骗和冒充类案件。它会提取频谱特征和基于 MFCC 的特征,对可疑样本进行评分,并生成可供复核的法医风格报告。非常适合安全审计和事件响应工作流。
作者 openai
使用 speech 技能将文本转换为可朗读的音频,适用于旁白、配音、IVR 提示、无障碍朗读和批量语音生成。它基于 OpenAI Audio API,内置 voices,附带 CLI,并在实际运行时需要 `OPENAI_API_KEY`。不支持自定义 voice 创建。
作者 microsoft
azure-ai-voicelive-py 可帮助你使用 Azure AI Voice Live 在 Python 中构建实时语音 AI 应用。适用于双向 WebSocket 音频、语音助手、speech-to-speech 对话、转写、avatar 以及使用工具的语音 agent。最适合需要异步连接、Azure 身份验证、会话控制和低延迟流式传输的后端开发场景。
作者 microsoft
azure-ai-transcription-py 是面向 Azure AI Transcription 的 Python 技能,适用于带时间戳和说话人分离的批量或实时语音转文字。它适合后端开发,使用订阅密钥认证,并会引导你走向 Azure 客户端库正确的安装与使用流程。