音频编辑

浏览设计下与音频编辑相关的 Agent Skill，并比较相近工作流、工具与使用场景。

6 个技能

fal-ai-media

作者 affaan-m

fal-ai-media 是一个通过 fal.ai MCP 实现统一媒体生成的 GitHub 技能。它帮助用户安装和使用 fal-ai-media 技能，覆盖图像生成、图像编辑、视频、语音和音频工作流，并提供模型搜索、成本检查和引导式提示。

图像生成

收藏 0GitHub 156.1k

video-translation

作者 NoizAI

video-translation 技能可将视频中的口语内容翻译成其他语言，生成 TTS 配音，并在保留视频本体不变的前提下替换或混合音频。对于你已经有源视频、字幕和目标翻译语言的实际视频翻译场景，它尤其合适。

翻译

收藏 0GitHub 498

tts

作者 NoizAI

tts 技能可将文本转换为语音音频，适用于旁白、配音、配音解说和按时间轴对齐的播放。你可以用它把纯文本生成语音文件，将文章或文本文件转成语音，或生成带时间控制的 SRT 驱动音频。它支持简单模式和时间轴模式，也支持面向后端的工作流，便于重复、稳定地使用 tts。

语音生成

收藏 0GitHub 498

sound-fx

作者 NoizAI

使用 sound-fx 技能，把文本提示词转换成音效、拟音、环境底噪、怪物声音和 UI 音效。它适合用于音效编辑、快速原型验证和可下载音频素材制作。先通过 NoizAI/skills 安装，然后使用基于脚本的工作流，并准备有效的 Noiz API key。它不适用于语音、歌词、旋律或声音克隆。

音频编辑

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可从公开音频克隆真实人物的声音，或根据图片设计匹配的声音，再通过 TTS 生成合成回复。它支持角色扮演、旁白和语音生成等实用工作流，并提供安装、素材选择和安全使用方面的指导。

语音生成

收藏 0GitHub 498

speech

作者 openai

使用 speech 技能将文本转换为可朗读的音频，适用于旁白、配音、IVR 提示、无障碍朗读和批量语音生成。它基于 OpenAI Audio API，内置 voices，附带 CLI，并在实际运行时需要 `OPENAI_API_KEY`。不支持自定义 voice 创建。

设计实现

收藏 0GitHub 0