tts

作者 NoizAI

tts 技能可将文本转换为语音音频，适用于旁白、配音、配音解说和按时间轴对齐的播放。你可以用它把纯文本生成语音文件，将文章或文本文件转成语音，或生成带时间控制的 SRT 驱动音频。它支持简单模式和时间轴模式，也支持面向后端的工作流，便于重复、稳定地使用 tts。

Stars498

收录时间2026年5月14日

分类语音生成

安装命令

npx skills add NoizAI/skills --skill tts

编辑评分

该技能评分 84/100，属于 Agent Skills Finder 中相当稳妥的收录候选。目录用户可以拿到一个真实可触发的 TTS 工作流，入口清晰，覆盖文字转语音、语音克隆、字幕/时间轴渲染，以及从类文本输入进行转换。它并不完美——SKILL.md 里没有安装命令，且部分使用细节分散在不同脚本中，带来一定上手摩擦——但从仓库表现来看，依然足以支持一次值得的安装决策。

84/100

亮点

触发性强：SKILL.md 明确把常见用户意图映射到该技能，例如 TTS、speak、voiceover、dubbing、EPUB/PDF/SRT-to-audio，以及时间轴对齐音频。
工作流深度真实：仓库包含可运行的 simple TTS、timeline rendering 和 text-to-SRT 脚本，同时还有测试和第三方交付参考。
运维清晰度高于平均水平：frontmatter 合法，描述具体，正文还说明了默认 speak 模式以及 backend/mode 之间的区别。

注意点

安装门槛偏高：SKILL.md 没有安装命令，用户可能需要自行推断如何把该技能接入自己的环境。
部分上手信息分散在多个文件中，包括单独的第三方集成参考，这会拖慢首次理解速度。

Tts 音频语音转文字 Transcription Podcast 视频 Discord Telegram

概览

tts 技能概览

tts 技能能做什么

tts 技能可以把文本转换成语音音频，适用于语音生成、旁白、配音以及按时间轴对齐的播放。它更适合那些需要拿到可用音频文件，而不只是聊天回复的用户：比如根据提示词生成一段语音、把文章或文本文件转成语音，或者在时间控制下渲染基于 SRT 的旁白。

什么时候安装 tts

如果你的工作流包含 tts install 这类安装步骤、周期性的 text-to-speech 任务，或者你需要一条可复用的 tts usage 路径，而不是每次都临时拼提示词，就应该安装 tts 技能。它尤其适合同时处理“说出这段内容”这类快速任务，以及基于字幕或分段文本的更结构化语音生成。

它有什么不同

这个 tts 技能围绕真实执行路径构建：默认的简易模式、时间轴模式，以及了解后端的脚本。这一点很重要，因为它影响输出格式、voice cloning、字幕时间对齐，以及你是在本地 TTS 还是云端 TTS 之间做选择。如果你只想要一次性的自然语言提示，而且不需要文件输出，也不需要控制渲染流程，那么它的价值就没那么大。

如何使用 tts 技能

安装并找到入口文件

先使用仓库提供的安装流程：npx skills add NoizAI/skills --skill tts。然后依次阅读 skills/tts/SKILL.md、scripts/tts.py、scripts/render_timeline.py 和 scripts/text_to_srt.py。这些文件会告诉你真实的命令形式、支持的模式，以及每种模式需要什么输入。

把粗略需求整理成可用提示词

想获得更好的 tts usage，你至少要明确四件事：文本来源、语音目标、输出格式，以及是否需要时间控制。好的输入例如：“把这篇文章转换成 MP3，使用平稳的英文声音”、“把这些 SRT 字幕渲染成时间精准的音频”，或者“使用参考音频，把这段脚本生成一条 OPUS 语音备忘录”。像“让它听起来更好一点”这种模糊输入只会让系统猜测，通常会导致语速、停顿或格式不匹配。

选择合适的工作流

如果你有纯文本或文本文件，并且想尽快生成单个音频文件，就用简易模式。若文本本来就是分段的、需要字幕严格对齐，或者每个段落可能要用不同的声音设置，就用时间轴模式。若你只需要语音输出，就走最短路径；如果需要按段控制，就先从 SRT 开始，或者先从文本生成 SRT。

重点看会影响输出质量的文件

最有用的文件是 scripts/tts.py，它定义了命令接口；scripts/noiz_tts.py，它包含云端相关选项；以及 scripts/render_timeline.py，它负责对齐规则。如果你想了解输入和默认值相关的边界情况，可以再看 scripts/test_tts.py。只有在你打算把生成音频渲染后再发到其他平台时，才需要额外查看 ref_3rd_party.md。

tts 技能常见问题

tts 只是做文本转语音吗？

不是。tts 技能还覆盖 voice cloning、字幕转音频渲染，以及配音制作等工作流。如果你的任务是“把这段文字变成可听音频”，它就合适；如果你的任务是“从零写一段脚本”，那它就不适合。

使用它需要编程经验吗？

不需要太多，但你确实要能提供结构化输入。只要能提供文本、文件路径或 SRT，并选择基础输出格式，初学者也可以用 tts。而更复杂的时间轴和克隆功能，则在你理解脚本期望的输入后会更容易上手。

它和普通提示词有什么区别？

普通提示词可以描述任务，但 tts 技能提供了可复用的执行路径、文件处理能力，以及特定后端行为。这会减少反复试错，尤其是在你需要稳定的 tts usage、重复性的语音生成任务，或者输出格式必须固定时。

什么时候不该用 tts？

如果你只需要一个临时的语音摘要，而且不保存文件，就不要用 tts。如果你无法提供文本、字幕或参考音频，也不适合用它。它同样不适合你的目标是广义音频编辑，而不是语音合成的时候。

如何改进 tts 技能

给技能提供合适的原始素材

质量提升最大的来源是更干净的输入。做旁白时，提供已经定稿的脚本，并补好标点和段落分隔。做时间轴工作时，提供分段合理的 SRT。做克隆或风格匹配时，附上参考音频文件或 URL，并说明你想要的是自然语音、更接近原声的克隆，还是更有表现力的演绎。

说明会影响渲染的约束

如果你关注 tts for Voice Generation，就直接说清楚，并注明你需要的输出格式，比如 WAV 或 OPUS。还要说明时间约束、语言、语速、情绪，以及输出是用于直接播放还是上传到其他服务。这些细节可以避免技能选到一个“听起来不错、但不适合下游用途”的路径。

修正常见失败模式

最常见的失败点是语音目标模糊、分段过长，以及缺少格式要求。如果结果听起来太赶，先缩短文本，或者把内容拆成更多段后再运行。如果声音不对，就明确说明你想要的是中性、温暖、活力感强，还是克隆语音。如果文件在下游无法使用，就一开始直接要求精确的容器或 codec。

从第一次渲染开始迭代

把第一次输出当作草稿来处理。改进它时，优先改脚本文本，而不只是改提示词：用标点增加停顿，把密集段落拆开，或者调整 SRT 边界，让时间更干净。对于时间轴模式，最有效的迭代方式通常是：先调整分段，再重新渲染，最后才微调 voice 或情绪设置。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

speech

作者 openai

使用 speech 技能将文本转换为可朗读的音频，适用于旁白、配音、IVR 提示、无障碍朗读和批量语音生成。它基于 OpenAI Audio API，内置 voices，附带 CLI，并在实际运行时需要 `OPENAI_API_KEY`。不支持自定义 voice 创建。

设计实现

收藏 0GitHub 0

sound-fx

作者 NoizAI

使用 sound-fx 技能，把文本提示词转换成音效、拟音、环境底噪、怪物声音和 UI 音效。它适合用于音效编辑、快速原型验证和可下载音频素材制作。先通过 NoizAI/skills 安装，然后使用基于脚本的工作流，并准备有效的 Noiz API key。它不适用于语音、歌词、旋律或声音克隆。

音频编辑

收藏 0GitHub 498

characteristic-voice

作者 NoizAI

characteristic-voice 是一款用于生成温暖、像陪伴者一样、带有情感在场感的语音技能。适合安抚式回复、早安晚安消息、轻松闲聊，以及带停顿、笑声或温柔感的角色化表达。它包含基于预设的工作流和后端支持，便于实际使用 characteristic-voice。

语音生成

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可从公开音频克隆真实人物的声音，或根据图片设计匹配的声音，再通过 TTS 生成合成回复。它支持角色扮演、旁白和语音生成等实用工作流，并提供安装、素材选择和安全使用方面的指导。

语音生成

收藏 0GitHub 498

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一项工作流技能，用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景，比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策，而不是泛泛的只靠提示词生成视频请求。

视频编辑

收藏 0GitHub 2.7k

kreuzberg

作者 kreuzberg-dev

kreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取，支持 91+ 种格式，包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流，适用于 OCR、表格、元数据、批量处理以及实用的解析指导。

PDF 处理

收藏 0GitHub 0

skill-creator

作者 anthropics

skill-creator 是一个用于 Skill 编写的元技能，可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案，并借助仓库脚本和审查工具优化触发描述。

Skill 编写

收藏 2GitHub 105.1k

azure-identity-py

作者 microsoft

azure-identity-py 帮助你在 Python 中使用 Microsoft Entra ID 配置 Azure 身份验证。它适合用于选择 DefaultAzureCredential、managed identity 或 service principal 认证，配置环境变量，并排查访问控制和凭据链问题。安装说明、使用模式和实用的配置提示均基于 repo skill file。

访问控制

收藏 0GitHub 2.2k

claude-api

作者 anthropics

claude-api 是一项实用技能，帮助开发者安装并使用 Claude API 与 Anthropic SDK。它可协助选择合适的 SDK 或原生 HTTP 方案，识别对应语言文档，并更稳妥地实现流式输出、tool use、文件、批处理和错误处理，减少试错成本。

API 开发

收藏 0GitHub 105k

wrangler

作者 cloudflare

wrangler 技能可帮助你找到 Cloudflare Workers 的正确 CLI 命令、配置结构和部署步骤。可用于 wrangler 的使用、wrangler 安装检查，以及在构建或交付 Workers 时获取一份实用的 wrangler 指南，适合 Backend Development 场景。

后端开发

收藏 0GitHub 1.3k

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是面向数据库工程的 ClickHouse 最佳实践技能。它围绕 schema 设计、查询调优、写入策略和 agent 连接提供基于规则的建议，让 clickhouse-best-practices 在 ClickHouse 工作流中的触发、审阅和引用都更容易。

数据库工程

收藏 0GitHub 412

clickhouse-architecture-advisor

作者 ClickHouse

clickhouse-architecture-advisor 可帮助设计 ClickHouse 工作负载，并针对数据摄取、分区、JOIN、字典、upsert 和预聚合做出符合工作负载的决策。它尤其适用于后端开发、可观测性、SIEM、产品分析、IoT 遥测和金融数据管道。该技能会将建议标记为 official、derived 或 field。

后端开发

收藏 0GitHub 412

figma-generate-library

作者 figma

figma-generate-library 可帮助你从代码库出发，按顺序完成 tokens、组件库、文档以及浅色/深色主题的设计系统构建或更新。需要的是面向 Design Systems 的实用指南，而不是一次性的 mockup 时，就该用 figma-generate-library。它与 figma-use 互补，用于 Plugin API 调用。

设计系统

收藏 0GitHub 0

winui-app

作者 openai

winui-app 技能可帮助你使用 C# 和 Windows App SDK 启动、构建并排查 WinUI 3 桌面应用。适用于环境准备、新应用初始化、Shell 与导航方案选择、XAML 控件、主题、可访问性、部署，以及面向 Frontend Development 的启动修复工作流。

前端开发

收藏 0GitHub 0