transcribe-video

作者 rameerez

transcribe-video 技能可使用 AWS Transcribe 将视频或音频文件转换为 .srt、.vtt 和 .txt 输出。适合需要字幕、可检索转写稿，或将口语内容整理为干净文本版本的 transcribe-video 场景。它也适用于 transcribe-video 的 Format Conversion 工作流。

Stars23

收录时间2026年5月9日

分类格式转换

安装命令

npx skills add rameerez/claude-code-startup-skills --skill transcribe-video

编辑评分

该技能评分为 78/100，属于目录用户的稳妥候选：它提供了一个清晰且真实的工作流，可借助 AWS Transcribe 将视频或音频转为 SRT/VTT 和纯文本，安装决策也相对明确。不过，用户仍需接受一定的配置成本，因为它依赖 ffmpeg、AWS CLI 以及已配置好的 AWS 权限。

78/100

亮点

触发条件和输出约定清晰：可对视频或音频文件路径进行转写，支持可选语言代码，并生成 .srt、.vtt 和 .txt 文件。
操作流程具体：前置条件、音频提取、临时 S3 上传、AWS Transcribe 任务、结果下载和清理步骤都写得很明确。
仓库内容对 agent 很友好：有效的 frontmatter、充实的正文、代码块和文件引用都减少了猜测，比通用提示更可执行。

注意点

需要外部环境和凭证配置：必须安装 ffmpeg、AWS CLI，并具备 s3:* 和 transcribe:* 权限。
没有提供安装命令或配套脚本/资源，用户需要按文档步骤手动完成。

Aws Ffmpeg Transcription 视频音频

概览

transcribe-video 技能概览

transcribe-video 是做什么的

transcribe-video 技能会借助 AWS Transcribe，把视频或音频文件转换为 .srt、.vtt 和 .txt 输出。它最适合需要字幕、可搜索的转写稿，或者把口语内容整理成干净文本版本，但又不想手动听打的场景。如果你的工作流里本来就包含 AWS，并且你希望采用一种可重复、基于文件的转写流程，那么 transcribe-video 是个很合适的选择。

谁适合使用它

如果你处理的是录制会议、访谈、网络研讨会、演示视频或课程视频，并且需要尽快拿到转写结果，这个技能会很实用。它尤其适合那些不仅关心纯文本，还在意字幕格式的人。如果你需要 transcribe-video for Format Conversion，这个技能可以把原始媒体转换成更容易在后续流程中复用的字幕和转写产物。

需要了解的主要取舍

它最大的优势在于流程很具体：提取音频、上传、运行转写任务、清理资源。相比一个笼统的“请转写这段内容”提示，transcribe-video 更容易落地到实际操作中。主要限制在于依赖开销：你需要 ffmpeg、AWS CLI，以及有效的 AWS 权限。如果这些环境条件本来就没有，安装和配置成本可能会超过一次性使用的收益。

如何使用 transcribe-video 技能

安装与就绪检查

进行 transcribe-video install 时，使用 npx skills add rameerez/claude-code-startup-skills --skill transcribe-video 添加该技能。运行前先确认 ffmpeg 和 aws 已安装，并且 aws configure 已配置有效凭证。这个技能还需要创建和删除 S3 bucket，以及启动和删除 Transcribe 任务的权限，所以即使命令看起来没问题，权限收得很紧的 AWS 账号也可能会失败。

给技能一个可用的输入

这个技能期望输入一个媒体文件路径，并可选提供语言代码，例如 en-US 或 es-ES。弱一点的请求是“转写这个视频”；更好的写法是 transcribe-video /path/to/demo.mp4 en-US，或者“把 /work/interview.mp4 转成英文的 SRT、VTT 和 TXT，并清理临时 AWS 资源”。如果已知语言，务必写上。如果文件噪声大、时长长，或者多人说话，也要提前说明，因为这些条件对准确率的影响往往比命令语法更大。

提升输出质量的技巧

尽量使用音频质量最好的源文件。如果视频里有多个音轨、压缩过重，或者背景音乐很明显，最好先处理好再转写。发起任务时，建议在提示里明确文件名和输出预期，比如“保留基础文件名”或者“我需要字幕格式和纯文本转写稿，便于编辑”。如果你希望 transcribe-video usage 的结果更可预测，最好明确语言代码、输出位置，以及你更偏向字幕可读性还是纯阅读版转写稿。

transcribe-video 技能 FAQ

这比通用提示更好吗？

通常是的，前提是你想要的是一个可重复的转写工作流，而不是一次性的回答。通用提示可以要求生成转写稿，但它不会可靠地处理 AWS Transcribe 的配置、音频提取、临时 bucket 创建和清理这些步骤。对于需要文件、格式和操作纪律的任务，transcribe-video 会更实用。

使用它需要 AWS 吗？

需要。这个技能依赖 AWS Transcribe 和 S3，因此它不是纯本地的转写工具。如果你不能使用 AWS 凭证，或者不想管理云端权限，这大概率不是合适的技能。在这种情况下，本地语音转文字工具可能更适合你。

它适合初学者吗？

只有在你愿意安装命令行工具并授予 AWS 权限的前提下，它才算对初学者友好。转写流程本身很直接，但前期配置可能会卡住首次使用。新手最稳妥的做法通常是严格照着仓库里预期的文件路径和语言代码格式来写，然后每次只调整一个变量。

什么情况下不该用 transcribe-video？

如果只是很小、一次性、用完即弃的任务，而且你还没有配置好 AWS，就不建议用它。你在需要离线处理、定制说话人分离逻辑，或者超出基础转写的深度编辑整理时，也最好不要用它。如果你的目标只是总结口语内容，这个技能的基础设施成本可能会高于你的实际需要。

如何改进 transcribe-video 技能

提供更强的源文件上下文

最好的结果来自于你清楚说明文件是什么、输出里什么最重要。比如：“这是一个 42 分钟的产品演示，只有一位说话人，音频清晰；请生成准确的英文字幕和可读转写稿。”这比只给一个路径更好，因为它能帮助工作流优先处理语言、格式和潜在故障点。

减少可避免的转写错误

如果音频发闷、混有音乐，或者是从嘈杂环境录下来的，最好先改善源文件再运行技能。如果视频里包含多种语言，请明确说明应该转写哪一种。如果主要目标是字幕，也要明确说出来，这样输出就会更多按时间轴和可读性来评判，而不只是按原始文本准确率。与其笼统地要求“更高质量”，不如把这些细节说清楚。

在第一次输出后继续迭代

分别检查 .srt、.vtt 和 .txt 输出。字幕在技术上可能是对的，但显示时太长；而文本转写稿可能还需要标点或说话人整理后才能用于笔记。如果第一版已经接近可用但还不完美，优先用更清晰的语言代码、更好的音频源，或者更明确的输出目标重新运行 transcribe-video，不要试图把所有问题都留到后期一次性修。

留意常见失败模式

最常见的问题包括缺少 ffmpeg、AWS CLI 配置错误、IAM 权限不足，以及临时 AWS 资源被意外保留。如果运行失败，先检查前置条件，再检查权限，最后核对文件路径。对 transcribe-video 来说，能否顺利用起来，关键不在提示有多聪明，而在于你是否提供了有效的媒体文件、正确的语言提示，以及一个能够端到端完成任务的 AWS 环境。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

kreuzberg

作者 kreuzberg-dev

kreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取，支持 91+ 种格式，包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流，适用于 OCR、表格、元数据、批量处理以及实用的解析指导。

PDF 处理

收藏 0GitHub 0

xlsx

作者 anthropics

xlsx skill 适合在交付物必须是电子表格时，让智能体读取、编辑、修复、创建并转换 .xlsx、.xlsm、.csv 和 .tsv 文件。它尤其擅长保留模板的更新、尽量不破坏公式的工作簿编辑、杂乱表格清洗，以及借助仓库脚本完成打包、校验和重算的实用电子表格工作流。

电子表格工作流

收藏 0GitHub 105.1k

pdf

作者 anthropics

pdf skill 可处理多种 PDF Processing 任务，包括文本提取、合并与拆分、页面渲染为图片，以及 PDF 表单流程。它尤其适合检查可填写字段、提取表单元数据，并通过脚本验证不可填写表单的版式。

PDF 处理

收藏 0GitHub 105.1k

baoyu-youtube-transcript

作者 JimLiu

baoyu-youtube-transcript 可从 YouTube URL 或 video ID 提取 transcript、subtitles 和封面图。它支持语言选择、翻译、Markdown 或 SRT 输出、基于缓存的重新格式化，并在 InnerTube API 不可用时回退到 yt-dlp，以更稳定地获取 transcript。

格式转换

收藏 0GitHub 13.2k

baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可借助内置的 baoyu-fetch CLI，将在线 URL 转为 Markdown，支持 Chrome CDP、站点适配器以及通用回退方案。适合在安装前了解 Bun 运行时要求、首次使用所需的 EXTEND.md 配置，以及处理 X、YouTube、Hacker News 和需渲染页面时的具体用法。

格式转换

收藏 0GitHub 13.2k

pymatgen

作者 K-Dense-AI

pymatgen 是一个面向 Python 的材料科学工具包，支持晶体结构、相图、电子结构和文件转换。这个 pymatgen 技能可帮助处理涉及 CIF、POSCAR、VASP 和 Materials Project 数据的科研工作流。

科学

收藏 0GitHub 0

minimax-xlsx

作者 MiniMax-AI

minimax-xlsx 技能可帮助你以 Excel 优先的工作流创建、读取、编辑、验证和格式化 Excel 工作簿。适用于需要保留公式、样式、工作表布局和工作簿行为的结构化文件处理场景。它支持 .xlsx、.xlsm、.csv 和 .tsv 任务，包括分析、新建工作簿、最小侵入式编辑、公式修复和校验。minimax-xlsx 指南面向真实工作簿交付，而不是扁平表格。

电子表格工作流

收藏 0GitHub 0

baoyu-format-markdown

作者 JimLiu

baoyu-format-markdown 可将纯文本或杂乱的 Markdown 整理为更干净、适合发布的 Markdown，同时尽量保留原意。它会修复 frontmatter、标题、列表、代码块、引用以及中日韩文字间距，因此很适合用于 Format Conversion，而不是改写内容。

格式转换

收藏 0GitHub 13.2k

baoyu-danger-x-to-markdown

作者 JimLiu

baoyu-danger-x-to-markdown 可将 X 的帖子、线程以及部分文章转换为带 YAML front matter 的 Markdown。它通过 `scripts/` 中的脚本配合 `bun` 或 `npx -y bun` 运行，支持基于 cookie 的访问与 consent 流程；相比通用提示词，更适合需要稳定复用的 Format Conversion 工作流。

格式转换

收藏 0GitHub 13.2k

baoyu-markdown-to-html

作者 JimLiu

baoyu-markdown-to-html 可将 Markdown 转换为适合微信排版风格的样式化 HTML。它支持主题、代码高亮、数学公式、PlantUML、脚注、图片处理，以及可选的链接引用，并可通过 bun 或 `npx -y bun` 在运行时执行。

格式转换

收藏 0GitHub 13.2k

nutrient-document-processing

作者 affaan-m

nutrient-document-processing 技能，基于 Nutrient DWS API 进行 PDF 处理和文档自动化。可转换、OCR、提取、编辑脱敏、签名、加水印，并填写 PDF、DOCX、XLSX、PPTX、HTML 和图片等文件。

PDF 处理

收藏 0GitHub 156.2k

speech-to-text

作者 NoizAI

speech-to-text 技能可将受支持的音频文件转写为纯文本，并支持时间戳、说话人标签和 JSON 输出。它面向需要稳定、可重复流程的实际 speech-to-text 场景，适用于访谈、会议、播客、讲座，以及对转写一致性要求较高的自动化任务。

工作流自动化

收藏 0GitHub 498

markitdown

作者 K-Dense-AI

markitdown 可将文件和办公文档转换为 Markdown，便于阅读、分块、检索和 LLM 工作流。这个 markitdown 技能支持 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、带 OCR 的图片以及音频转写，是一份实用的 markitdown 格式转换指南。

格式转换

收藏 0GitHub 0

pdf

作者 openai

在涉及版式、分页和渲染结果的 PDF 处理任务中，使用 pdf skill。它支持你以“先渲染、再检查、后调整”的可视化优先流程来读取、创建、编辑和审阅 PDF。适合需要可靠的 PDF 安装、pdf 用法，以及面向文档准确性的实用 pdf 指南时使用。

PDF 处理

收藏 0GitHub 0

web-to-markdown

作者 softaworks

web-to-markdown 是一项用于格式转换的 skill，可通过本地 `web2md` CLI 将在线网页转换为干净的 Markdown；对于 JS 渲染页面、交互式流程和批量 URL 转换，则会配合 Chromium 系浏览器完成处理。它只会在被用户明确点名时运行。

格式转换

收藏 0GitHub 1.3k

defuddle

作者 kepano

defuddle 可通过 Defuddle CLI 从网页中提取干净的 markdown，去除页面杂项，适合研究、文档整理和文章采集。适用于常规 HTML 页面，可通过 npm 安装；对于以 .md 结尾的 URL 则不建议使用。

Web 研究

收藏 0GitHub 19.7k

transcribe-video

transcribe-video 技能概览

transcribe-video 是做什么的

谁适合使用它

需要了解的主要取舍

如何使用 transcribe-video 技能

安装与就绪检查

给技能一个可用的输入

推荐工作流

提升输出质量的技巧

transcribe-video 技能 FAQ

这比通用提示更好吗？

使用它需要 AWS 吗？

它适合初学者吗？

什么情况下不该用 transcribe-video？

如何改进 transcribe-video 技能

提供更强的源文件上下文

减少可避免的转写错误

在第一次输出后继续迭代

留意常见失败模式

评分与评论