transcribe

作者 openai

transcribe 可将音频或视频转成文本，并支持可选的说话人分离和已知说话人提示。它很适合技术写作、会议纪要、访谈、讲座和内容运营等场景，尤其是在你需要一个可重复使用、输出格式清晰、比通用提示词更少猜测的 transcribe 技能时。

Stars18.8k

收录时间2026年5月11日

分类技术写作

安装命令

npx skills add openai/skills --skill transcribe

编辑评分

这个技能得分 74/100，说明它是目录用户值得考虑的安装候选：它有明确的转写用例、配套 CLI，以及足以减少比通用提示词更多不确定性的操作说明。不过它的范围仍然比较聚焦，仓库证据更像是一个专注的音频转写工作流，而不是文档完备的端到端通用方案。

74/100

亮点

在 SKILL.md 中明确支持音频/视频转写、说话人标注，以及访谈/会议等使用场景，触发条件清晰。
配套脚本和速查文档说明了关键运行约束：返回格式、分块策略、最大文件大小和已知说话人限制。
操作流程很具体：检查 API key、运行 CLI、验证输出，并将结果保存到标准输出路径。

注意点

这个技能范围较窄，主要围绕单一转写工作流；如果你需要更广泛的媒体处理能力，就要选择其他方案。
从现有证据看，安装路径并不算完全自助：SKILL.md 提到了依赖项，但摘录中没有展示完整的安装命令或完整的快速上手示例。

语音转文字 Transcription 音频视频 OpenAI Cli Python

概览

transcribe 技能概览

transcribe 技能能做什么

transcribe 技能使用 OpenAI 将音频或视频转成文本，并支持可选的说话人分离和已知说话人提示。当你需要从录音、访谈、会议、讲座或短视频中获得稳定可靠的 transcribe 结果时，它是很合适的选择，尤其适合说话人标签也很重要的场景。

适合谁使用

如果你想要的是可重复执行的流程，而不是一次性提示词，那么就该用这个 transcribe 技能。它尤其适合 Technical Writing、会议纪要、内容运营、研究访谈，以及任何需要干净文本和可追溯说话人结构的人。

这个技能为什么不一样

它最大的优势是流程上的清晰：优先使用打包好的 CLI，对模型和输出格式有明确的决策规则，并且在需要时支持带说话人分离的输出。相比泛泛一句“请帮我转写”的提示词，transcribe 更容易稳定运行，尤其当你在意可重复性和输出结构时更是如此。

如何使用 transcribe 技能

安装 transcribe 技能

使用 npx skills add openai/skills --skill transcribe 安装。如果你是直接使用仓库，可以从 skills/.curated/transcribe 开始，并保持内置工作流不变，除非你的环境确实需要调整。

为 transcribe 使用准备合适的输入

要获得更好的 transcribe 使用效果，请提供：

音频或视频文件路径
期望的响应格式：text、json 或 diarized_json
可选的语言提示
如果需要说话人分离，提供已知说话人参考信息

一个更强的提示词可以写成：“转写这段 18 分钟的访谈，返回 diarized_json，如果可以的话标注主持人和两位嘉宾。”这比只说“给我一份 transcript”更好，因为它明确告诉技能要优化的输出结构和说话人上下文。

先阅读这些文件

先看 SKILL.md，再查看 references/api.md，了解格式限制和说话人分离规则。如果你要扩展或自动化这条流程，请检查 scripts/transcribe_diarize.py 和 agents/openai.yaml，里面包含默认模型、CLI 行为以及提示词入口点。

实用工作流建议

纯文本快速转写时用 gpt-4o-mini-transcribe，如果说话人标签很重要，就切换到 gpt-4o-transcribe-diarize。音频超过大约 30 秒时，把 chunking_strategy 保持为 auto。运行前先确保本地已经设置好 OPENAI_API_KEY；这个技能默认依赖已配置好的环境，而不是临时粘贴密钥。

transcribe 技能 FAQ

transcribe 适合 Technical Writing 吗？

适合。对于 Technical Writing 来说，transcribe 技能非常适合把原始音频转成可编辑文本，用于文档、访谈或内容整理。它更关注把语音稳定地转成结构清晰的文本，而不是创意改写。

什么时候不该用 transcribe？

如果你只需要一个大致摘要，不需要 transcript，就不该用 transcribe。文件太大、在支持的请求限制内无法直接处理、又不想拆分时，也不适合。若你的目标是重度意译而不是尽量贴近原话的语音转写，它同样不是好选择。

这和普通提示词有什么区别？

普通提示词也能要求转写，但这个 transcribe 技能额外提供了可复现的工作流、首选 CLI、明确的响应格式选项，以及说话人分离指引。这样在处理多个文件、需要一致输出时，就能少很多猜测。

transcribe 对新手友好吗？

友好，只要你能明确文件和期望输出即可。新手通常只需要在纯文本和带说话人分离的输出之间做选择。最大的门槛其实是环境配置，所以先确认 OPENAI_API_KEY。

如何改进 transcribe 技能

给 transcribe 更好的源内容上下文

质量提升通常来自更好的输入，而不是更多提示。比如要说明音频是播客、电话录音还是讲座；是否存在多人重叠发言；以及你想要逐字稿还是清理后的 transcript 输出。这样能帮助 transcribe 选择更合适的处理路径。

当说话人分离重要时，使用说话人提示

如果你知道说话人的名字，就把它们作为参考信息提供出来，不要期待模型仅凭音频自己全部推断出来。对于 transcribe 来说，这一点尤其重要，尤其当两个人声音相近，或者录音里有多个嘉宾时。已知说话人能提升标签一致性，但前提是这些参考信息本身要准确。

一次只改一个变量，逐步迭代

如果第一次 transcribe 输出不理想，就只改一个变量：模型、分块方式、响应格式，或者说话人提示。不要一次把整条请求重写。比如如果标签错了，就保持转写目标不变，只补充说话人参考，或者切换到 diarized JSON。

留意常见失败模式

最常见的问题包括：API key 缺失、不支持的文件处理、输出请求太模糊，以及在没有可用说话人上下文的情况下硬要做说话人分离。如果你是在为某个工作流编写 transcribe 指南，要明确记录预期文件类型、首选输出格式，以及录音太吵或太长时的兜底方案。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

seo-hreflang

作者 AgriciDaniel

seo-hreflang 可帮助你验证并生成面向多语言、多地区网站的 hreflang 标记。可用于检查自引用、返回标签、x-default，以及 HTML、HTTP 标头和 XML 站点地图中的有效语言-地区代码。非常适合需要可靠 seo-hreflang 指南支持的 SEO 内容团队。

SEO 内容

收藏 0GitHub 0

openai-docs

作者 openai

将 openai-docs 用于技术写作、OpenAI API 和产品问题、模型选择、迁移检查，以及提示词升级指导。它优先通过 Developer Docs MCP server 调用官方 OpenAI 文档，仅在需要时才把随附参考资料作为备用上下文。

技术写作

收藏 0GitHub 0

seo

作者 affaan-m

seo 技能可用于审计、规划和落地技术 SEO、页面优化、结构化数据、Core Web Vitals 和关键词映射。适合用于抓取可访问性、索引可访问性、元数据、schema、内链、sitemap 和 robots 变更，或面向 Keyword Research 的 SEO 工作，并提供可直接执行、按页面拆解的指导。

关键词研究

收藏 0GitHub 156.3k

adr-skill

作者 vercel

adr-skill 可帮助团队创建和维护可供智能体执行的 Architecture Decision Records。它支持起草 ADR、初始化 ADR 目录、选择模板、更新状态，并通过检查清单、脚本和示例来校验决策。

技术写作

收藏 0GitHub 23.1k

building-incident-response-playbook

作者 mukul975

building-incident-response-playbook 可帮助安全团队创建可复用的事件响应 playbook，涵盖分阶段步骤、决策树、升级标准、RACI 责任分配以及可直接用于 SOAR 的结构。它适用于事件响应流程文档、事件分诊工作流和便于审计的运营响应方案。

事件分诊

收藏 0GitHub 6.1k

prd-development

作者 deanpeters

prd-development 技能可帮助你把调研笔记整理成结构化 PRD，涵盖问题定义、用户、方案、范围和成功标准。适用于工程交接、新功能规划，以及 Technical Writing 相关的 prd-development。

技术写作

收藏 0GitHub 4.1k

user-story

作者 deanpeters

user-story 技能可帮助你把产品需求转化为一条可直接进入开发的用户故事，采用 Mike Cohn 语法和 Gherkin 验收标准。适用于更清晰的交接、更准确的估算，以及为技术写作和产品团队提供更紧凑的用户故事指南。

技术写作

收藏 0GitHub 4.1k

provider-docs

作者 hashicorp

provider-docs 技能可帮助你为 Terraform Provider 创建、更新并验证 Terraform Registry 文档。它适用于 provider-docs 指南工作、Technical Writing 场景下的 provider-docs，以及在文档变更时保持 schema 描述、tfplugindocs 模板和 Registry 输出同步。

技术写作

收藏 0GitHub 0

api-design

作者 affaan-m

api-design 是一款用于 REST API 设计的技能，帮助你规划和审查端点、资源命名、状态码、分页、过滤、版本管理和错误响应。

API 开发

收藏 0GitHub 156.1k

press-release

作者 deanpeters

press-release 技能可帮助你在动手构建前，先起草一份 Amazon 风格的 Working Backwards 新闻稿。它适合用来厘清客户价值、验证产品或功能想法，并用一段简洁、以客户为中心的叙述让相关方达成一致。对 Technical Writing 的 press-release 场景以及早期产品规划都很有帮助。

技术写作

收藏 0GitHub 4.1k

asc-whats-new-writer

作者 rudrankriyam

asc-whats-new-writer 可将 git log、要点列表或自由文本转写为本地化的 App Store Connect“新内容”文案，并结合 `./metadata` 中的权威元数据以及可选的推广文案更新。它面向发布经理、应用市场营销人员和 SEO 内容团队，适合需要一份可重复使用、少靠猜测的 asc-whats-new-writer 指南的场景。

SEO 内容

收藏 0GitHub 790

source-driven-development

作者 addyosmani

source-driven-development 技能将框架相关编码建立在官方文档之上，帮助你在实现前先验证模式是否正确。它非常适合在 React、Vue、Next.js、Svelte、Angular 等技术栈中进行 source-driven-development 相关使用，尤其是在正确性、来源可追溯性和版本敏感决策很重要的时候。

代码生成

收藏 0GitHub 18.8k

readme-i18n

作者 xixu-me

readme-i18n 可将 GitHub 风格的 README 翻译并整理为易维护的多语言版本，同时保留 Markdown、链接、代码块、文件命名，以及各个 README 文件之间统一的语言切换器。

翻译

收藏 0GitHub 6

prd-generator

作者 ognjengt

prd-generator 能把一个粗略的产品想法转化为适合 AI 使用的 Product Requirements Document（PRD）。它会先追问关键澄清问题，再按固定模板整理内容，帮助创始人、产品负责人和 Skill Authoring 工作流产出更清晰的规格说明，供下游 AI 编码工具使用。当你需要结构化需求、指标、约束以及可直接用于实现的上下文时，就用 prd-generator。

Skill 编写

收藏 0GitHub 0

brainstorming

作者 obra

brainstorming 是一项面向实现前阶段的技能，用于梳理上下文、逐条提出澄清问题，并要求在任何代码编写之前先完成设计确认。它还包含可选的 visual companion，并对 Requirements Planning 提供了较强支持。

需求规划

收藏 1GitHub 121.7k

crafting-effective-readmes

作者 softaworks

crafting-effective-readmes 可用于撰写、更新和审阅 README 文件，结合项目类型模板、章节检查清单、风格指导以及面向仓库上下文的提示，帮助产出更清晰的安装与使用文档。

技术写作

收藏 0GitHub 1.3k