speech

作者 openai

使用 speech 技能将文本转换为可朗读的音频，适用于旁白、配音、IVR 提示、无障碍朗读和批量语音生成。它基于 OpenAI Audio API，内置 voices，附带 CLI，并在实际运行时需要 `OPENAI_API_KEY`。不支持自定义 voice 创建。

Stars0

收录时间2026年5月8日

分类设计实现

安装命令

npx skills add openai/skills --skill speech

编辑评分

该技能得分 88/100，属于实用性较强的目录条目，对 agent 来说有不错的落地价值。它提供了一个清晰可触发的语音生成工作流，比泛泛的提示词更可执行，并配有足够的 CLI 与参考细节，足以支持真实安装与使用；但实时输出仍依赖网络和 OpenAI API。

88/100

亮点

触发性强：frontmatter 明确限定了旁白式 text-to-speech、配音、无障碍朗读和批量语音生成等使用场景。
操作路径清晰：SKILL.md 提供了单次与批量处理的决策树和逐步工作流，并配有 bundled CLI 参考。
对 agent 友好：配套参考覆盖 voices、audio API 参数、无障碍默认值和批量用法，减少执行时的猜测成本。

注意点

实时生成需要 `OPENAI_API_KEY` 和网络连接，因此无法完全离线自包含使用。
不支持自定义 voice 创建；如果需要定制声音或更高级的音频工作流，需选择其他方案。

音频 Accessibility Anthropic OpenAI Cli

概览

speech 技能概览

speech 技能能做什么

speech 技能可以把文本转成可朗读的音频，适用于旁白、配音、IVR 提示词、无障碍朗读和批量生成语音。它最适合需要从提示词中稳定产出可复现音频的场景，而不是那种笼统的“把它做得更好听一点”的需求。

适合谁使用

如果你需要 speech 安装后能真正融入实际工作流，就应该用它：比如产品演示、应用引导、无障碍素材，或者从结构化文本批量生成很多短音频。它在你关心音色选择、语速节奏、输出格式，以及多次运行结果一致性时，尤其合适。

它有什么不同

speech 指南围绕 OpenAI Audio API 和随附的 CLI 构建，因此更偏向确定性用法，而不是临时起意式的提示。它使用内置音色，支持单条或批量任务，并且在正式生成时需要 OPENAI_API_KEY。自定义音色创建不在这个仓库的范围内。

如何使用 speech 技能

安装并找到工作流

使用 npx skills add openai/skills --skill speech 安装。安装后，先读 SKILL.md，然后再看 references/cli.md 了解命令细节，查看 references/audio-api.md 了解模型和参数限制，再参考 references/prompting.md 或 references/voice-directions.md 来写更好的指令。想快速建立上下文，可以再看 agents/openai.yaml 和 references/sample-prompts.md。

把粗略目标变成可用提示词

speech 的使用方式最适合你把“要读什么内容、用什么声音、什么表达风格、什么输出格式、有没有发音限制”都说清楚。一个更好的请求会像这样：Generate a 45-second product demo voiceover from this script, use cedar, keep it warm and steady, output mp3, and emphasize the product name on first mention. 这比“让它听起来专业一点”有效得多，因为前者给了技能明确的合成控制参数。

单条流程与批量流程的区别

这个技能为两种路径而设计：生成一条音频，或者生成多条音频。如果你有多行文案、多个提示词或多个文件，就按批量处理，先在 tmp/ 下准备一个临时 JSONL 文件，然后一次性运行 CLI，使用完再删除 JSONL。如果只有一个脚本，就走单文件路径。这个选择很重要，因为输出量不同，技能的结构和校验步骤也会随之变化。

运行前要检查什么

想要最好效果，先逐字核对文本，而不只是确认主题。检查音色、文件格式、语速，以及输出到底需要偏中性、偏表现力，还是优先满足无障碍阅读。执行时主要需要查看的仓库文件是 scripts/text_to_speech.py；除非仓库维护者明确要求，不要自行修改它。

speech 技能 FAQ

speech 技能只适合旁白吗？

不是。speech 技能同样适用于配音、无障碍朗读、IVR 提示词，以及简短音频提示。它不太适合自定义声音克隆或创意化的音色设计，这个 repo 也不覆盖这些内容。

使用 speech 一定要用 CLI 吗？

如果你想稳定地使用 speech，答案是要。随附的 CLI 是正式进行实时生成的预期路径，而 --dry-run 适合在不发起 API 调用的情况下检查调用形状。如果你只写一个泛泛的提示词，就会失去让这个技能可复现的结构。

这个技能适合新手吗？

适合，只要你能提供准确文本和基本的声音方向。speech 的安装并不复杂，但输出质量取决于你把语速、语气、格式和发音要求说得多清楚。新手通常从短音频和单一音色开始，成功会更快。

什么情况下不该用这个技能？

如果你需要自定义音色创建、重度后期制作，或者依赖修改随附脚本的工作流，就不要用 speech。若你无法使用联网的 OpenAI API 调用，或者没有 OPENAI_API_KEY，它也不是合适选择。

如何改进 speech 技能

减少歧义，让技能少猜

speech 技能输出质量提升最大的方式，就是减少猜测空间。请提供完整原文，不要只给摘要；说明目标听众是谁；并明确这段朗读应该像旁白、客服消息、无障碍朗读，还是 IVR 提示词。如果某个词难读，就直接拼写出来，或者补充发音说明。

一次只调整一个变量

如果第一版已经接近预期但还不够好，就一次只改一项：音色、语速，或者指令风格。这样迭代会比重写整段提示词更清晰。比如，如果节奏听起来太赶，就保持文本和音色不变，只把语速从 1.0 调到 0.95。

使用真正有用的输出约束

当约束是可操作的，而不是空泛的，speech 指南的效果会更好。可以直接说“用 mp3 便于快速播放”、“用 wav 便于审听”，或者“无障碍场景要保持稳定、克制、偏中性”。如果是批量任务，每一行都要尽量聚焦，才能让技能在多个输出之间保持一致的表达。

先读对参考资料

如果你想把 speech 用在 Design Implementation 上，优先看 references/accessibility.md 了解中性朗读，查看 references/voiceover.md 了解演示型表达，再参考 references/sample-prompts.md 把提示词写对。这些文件能帮助你写出 CLI 和 API 都能直接执行、而不需要额外猜测的指令。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

hyperframes

作者 heygen-com

hyperframes 是一项工作流技能，用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景，比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策，而不是泛泛的只靠提示词生成视频请求。

视频编辑

收藏 0GitHub 2.7k

figma-generate-library

作者 figma

figma-generate-library 可帮助你从代码库出发，按顺序完成 tokens、组件库、文档以及浅色/深色主题的设计系统构建或更新。需要的是面向 Design Systems 的实用指南，而不是一次性的 mockup 时，就该用 figma-generate-library。它与 figma-use 互补，用于 Plugin API 调用。

设计系统

收藏 0GitHub 0

winui-app

作者 openai

winui-app 技能可帮助你使用 C# 和 Windows App SDK 启动、构建并排查 WinUI 3 桌面应用。适用于环境准备、新应用初始化、Shell 与导航方案选择、XAML 控件、主题、可访问性、部署，以及面向 Frontend Development 的启动修复工作流。

前端开发

收藏 0GitHub 0

gsap-plugins

作者 greensock

gsap-plugins 帮助前端开发者正确选择、安装和使用 GSAP 插件。它涵盖插件注册、导入方式，以及 ScrollToPlugin、ScrollSmoother、Flip、Draggable、Inertia、Observer、SplitText、ScrambleText、SVG 插件、缓动工具和 GSDevTools 的实用指导。适合在你需要一份清晰的 gsap-plugins 指南，而不是泛泛的动画建议时使用。

前端开发

收藏 0GitHub 3.2k

ckm:design-system

作者 nextlevelbuilder

ckm:design-system 基于清晰的 token 架构，帮你构建三层 tokens、组件规格、CSS variables、Tailwind 映射，以及保持品牌一致性的幻灯片素材。

设计系统

收藏 0GitHub 53.6k

impeccable

作者 pbakaus

impeccable 可帮助你打造有辨识度、可直接用于生产的前端 UI，而不是千篇一律、带有明显 AI 痕迹的界面。它支持 craft、teach 和 extract 三种工作流，可用于页面、web components、应用界面、海报及其他设计驱动型前端场景，因此适合 UI Design、设计上下文搭建以及可复用模式提取。

UI 设计

收藏 0GitHub 20.4k

figma

作者 openai

使用 figma 从 Figma MCP server 中拉取设计上下文、截图、变量和资源，然后把 Figma 节点转化为可直接落地的 UI 决策。这个 figma skill 适合你手头有 Figma URL 或 node ID，需要用于设计转代码、配置或排障的准确 figma 用法时使用。

设计实现

收藏 0GitHub 18.6k

archimate

作者 markdown-viewer

archimate 可帮助你在 PlantUML 中使用 `!include <archimate/Archimate>`、类型化元素宏和关系宏来创建 ArchiMate 图。它适用于业务、应用、技术、动因和迁移规划等分层企业架构视图。如果你需要的是结构化的 EA 记法，而不是通用的云图或网络图，就用 archimate 来做 Diagramming。

图表绘制

收藏 0GitHub 1.1k

tvos-design-guidelines

作者 ehmo

tvos-design-guidelines 是一套实用的 Apple TV 设计规范，用于审查 tvOS 界面、基于焦点的导航、Siri Remote 行为、10 英尺可读性和媒体播放。当你需要清晰的约束、逐屏评审和实现检查时，可使用这份 tvos-design-guidelines 指南来做客厅 UI 设计。

UI 设计

收藏 0GitHub 357

android-design-guidelines

作者 ehmo

android-design-guidelines 是一份实用指南，涵盖 Material Design 3、Jetpack Compose 和 XML 布局。可用于审查 Android UI 决策，重点关注主题、导航、可访问性、自适应布局、动态颜色以及对 Material You 的符合性。非常适合用于 android-design-guidelines 指南和 android-design-guidelines UI Design 任务。

UI 设计

收藏 0GitHub 357

figma-use

作者 openai

figma-use 是在 Figma Plugin API 工作流中安全调用 `use_figma` 的必备技能。请先安装并加载 figma-use，再用 JavaScript 编写、更新、检查或组织 Figma 文件。它尤其适用于设计实现、组件工作、变量、auto layout 以及程序化读取文件。

设计实现

收藏 0GitHub 0

shadcn

作者 shadcn-ui

使用 shadcn skill 检查项目上下文、运行正确的 CLI 命令、安装组件，并基于文档中的模式完成 UI 组合，包括 base 与 radix 的差异、表单、主题以及 registries 的用法。

UI 设计

收藏 0GitHub 111k

visionos-design-guidelines

作者 ehmo

visionos-design-guidelines 技能可帮助你按照 Apple Vision Pro 规则处理空间 UI、眼睛和手部输入、沉浸式空间、窗口、体积以及无障碍设计。适合在审核或设计需要舒适性、正确摆放位置和符合平台规范的 visionOS 界面时使用。

UI 设计

收藏 0GitHub 357

swiftui-patterns

作者 affaan-m

swiftui-patterns 是一份面向 Apple 平台前端开发的实用指南。它涵盖 SwiftUI 状态管理、NavigationStack 流程、视图组合和性能建议，帮助你为真实应用代码选择合适的模式。适合在重构或构建界面时使用，尤其是在需要明确职责划分、减少重复渲染的场景中。

前端开发

收藏 0GitHub 156.3k

design-review

作者 garrytan

design-review 是一款面向 UX 的设计 QA 技能，用于审核线上界面，发现间距、层级、视觉一致性和交互问题，并通过带验证的迭代方式逐步修正。它支持在实现前进行 plan-mode 审查，适合你想要一份针对具体源代码改动的 design-review 指南，而不是泛泛而谈的建议时使用。

UX 审计

收藏 0GitHub 91.8k