speech-to-text

作者 NoizAI

speech-to-text 技能可将受支持的音频文件转写为纯文本，并支持时间戳、说话人标签和 JSON 输出。它面向需要稳定、可重复流程的实际 speech-to-text 场景，适用于访谈、会议、播客、讲座，以及对转写一致性要求较高的自动化任务。

Stars498

收录时间2026年5月14日

分类工作流自动化

安装命令

npx skills add NoizAI/skills --skill speech-to-text

编辑评分

该技能评分为 78/100，说明它是一个相当稳妥的目录收录候选：用户大概率能正确触发并理解预期工作流，几乎不需要猜测，但在配置和边缘场景上仍可能存在一些落地空缺。仓库提供了足够明确的实际操作信息，足以支撑面向转写的 agent 安装使用。

78/100

亮点

触发条件明确：SKILL.md 直接列出了与转写相关的触发词，包括 speech-to-text、transcript、subtitle generation 和多语言请求。
工作流价值清晰：Quick Start 示例展示了对音频文件的直接 CLI 调用、语言选择、文件输出，以及带时间戳/说话人标签的 JSON 输出。
具备真实实现：随附的 scripts/stt.py 表明这是一个可运行的技能而非占位内容，并包含 API key 处理和格式校验。

注意点

可见文档中的配置说明仍不完整：SKILL.md 没有安装命令，用户可能需要自行推断依赖与环境设置。
该技能似乎依赖 API 且有大小限制（NOIZ_API_KEY、最大 50 MB、最长 10 分钟），这会限制部分真实场景下的转写任务。

语音转文字 Transcription 音频视频 Multilingual Captions Speaker Labels Ffmpeg

概览

speech-to-text 技能概览

这个 speech-to-text 技能能做什么

speech-to-text 技能可以把受支持的音频文件转成纯文本转写，并支持时间戳、说话人标签和 JSON 输出。它更适合想要一套实用的 speech-to-text 工作流的人，而不是依赖通用提示词去“猜”转写步骤。

适合谁安装

如果你经常需要转写访谈、会议、播客、讲座、语音备忘录，或者短视频里的音频轨道，就适合安装 speech-to-text 技能。它尤其适合 workflow automation 场景：转写是一个可重复执行的步骤，而且你需要一套稳定的命令式流程。

在采用之前要注意什么

主要的决策点是文件限制、语言处理和输出格式。这个 repo 支持常见音频类型，并提供清晰的 CLI 路径，因此 speech-to-text 指南很容易落地到实际工作流中。如果你要处理大批量、长录音，或者高度定制的说话人分离，先确认你的场景是否符合脚本限制，再决定是否依赖它。

如何使用 speech-to-text 技能

安装并确认运行环境

按文档里的安装路径执行：npx skills add NoizAI/skills --skill speech-to-text。这个 speech-to-text 安装只有在你也能运行 helper script 时才真正有用，所以要确认环境里已经具备 Python、requests 包，以及有效的 NOIZ_API_KEY。

给技能提供正确的输入

这个 script 需要的是一个真实音频文件，而不是含糊的请求。高质量输入应该明确文件名、已知语言、期望输出，以及任何格式要求。例如：“Transcribe meeting.wav in English, include timestamps, and save JSON to result.json.” 这比 “transcribe this” 更好，因为它消除了 speech-to-text 使用中的歧义。

先读这些文件

先看 SKILL.md，了解触发方式、参数和输出模式；再检查 scripts/stt.py，看实际的校验规则、文件处理和 API 行为。如果你要把 speech-to-text 调整到 Workflow Automation 里，script 比说明文字更重要，因为它会告诉你这个技能在接近生产环境的使用中能接收什么、不能接收什么。

最佳实践的提示词结构

一次好的调用应该明确说明：

源文件路径
语言是否已知，还是需要自动检测
你要的是纯文本、JSON，还是保存后的输出
是否需要时间戳或说话人标签

一个实用的 speech-to-text 提示词可以这样写：“Use the speech-to-text skill on podcast.m4a. Auto-detect language, return a clean transcript, and include timestamps in JSON because I need to publish captions later.”

speech-to-text 技能常见问题

这个技能只适用于音频文件吗？

核心 speech-to-text 技能是为音频转写设计的，仓库示例主要覆盖 MP3、WAV、M4A、OGG、FLAC、AAC 和 WEBM 等文件。如果你的来源是视频，通常需要先提取音频，除非你的工作流本身已经处理了这一步。

安装前最需要知道的限制是什么？

最实际的限制是文件大小和时长。如果你的工作流经常超出这些限制，speech-to-text 安装在小任务上仍然可用，但它不会是长篇档案转写的理想默认方案。

它和普通转写提示词有什么区别？

普通提示词可以描述任务，但 speech-to-text 技能给你的是一条可重复的操作路径：安装、必需密钥、受支持输入、输出模式，以及脚本驱动的工作流。这让它在重复使用 speech-to-text 时，比一次性的说明更稳定可靠。

对新手友好吗？

如果你能运行基础 Python 命令并设置 API key，那么答案是肯定的。speech-to-text 指南本身很直接，但新手仍然应该阅读脚本，避免误以为它支持未列出的文件类型、输出选项或语言行为。

如何改进 speech-to-text 技能

把转写目标说清楚

更好的结果从更明确的意图开始。你需要明确说明是逐字稿、可读性更强的润色稿、带时间戳的转写、说话人标签，还是可被机器处理的 JSON。speech-to-text 技能可以支持多种输出，但你必须选对下游任务需要的那一种。

补充文件和语言信息

如果你知道语言，就直接提供。如果录音里有多个说话人，也要说明。如果音频比较嘈杂，同样要提出来。这些细节会提升 speech-to-text 输出质量，因为它们能减少在口音识别、语言切换和说话人切分上的猜测。

让输出匹配下一步

如果用于编辑，就要纯文本；如果用于字幕或自动化，就要 JSON 或带时间戳的输出；如果用于搜索索引，就要能保留说话人轮次的转写。这正是 speech-to-text 在 Workflow Automation 中真正有用的地方：输出应该围绕下一个工具来设计，而不只是为了阅读。

从第一版转写结果继续迭代

如果第一轮结果接近可用但还不够好，不要大范围重来，而是先收紧输入。常见的修正包括：提供正确语言、裁掉静音或背景噪音、拆分长文件，或者请求不同的输出格式。这样通常是改进 speech-to-text 技能最快的方法，而不必推翻整个工作流。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

playwright-interactive

作者 openai

playwright-interactive 是一项浏览器自动化技能，适用于本地 Web 和 Electron 应用中的持久 Playwright 会话。它可用于检查 UI 状态、重试交互，以及在不重启工具链的情况下执行功能或视觉 QA。非常适合需要一份实用的 playwright-interactive 迭代调试指南的场景。

浏览器自动化

收藏 0GitHub 0

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

iterative-retrieval

作者 affaan-m

iterative-retrieval 是一种工作流模式，用于在 agentic 工作中逐步优化上下文检索。它能帮助 subagents 避免获取过多或过少的上下文，因此适用于 iterative-retrieval 的使用场景、安装决策，以及 Workflow Automation 中的 iterative-retrieval。

工作流自动化

收藏 0GitHub 156.2k

data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

网页抓取

收藏 0GitHub 156.1k

notion-meeting-intelligence

作者 openai

notion-meeting-intelligence 可将 Notion 上下文转化为可直接用于会议的议程和会前材料，并结合 Codex 研究，为决策、状态更新、规划、复盘和 1:1 准备提供支持。它尤其适合 notion-meeting-intelligence for Meeting Prep 工作流：当你需要有依据的材料、清晰的时间分配，以及面向不同参会者的输出时，这个技能会很有帮助。

会议准备

收藏 0GitHub 18.6k

multi-agent-patterns

作者 muratcankoylan

multi-agent-patterns 技能可帮助你设计和实现带有 Agent Orchestration、上下文隔离、并行工作和结构化交接的智能体系统。当你需要在单智能体与多智能体方案之间做选择，或者需要 supervisor 路由、peer 交接、共识机制或故障处理时，就适合使用它。它最适合编排密集型任务，因为这类任务更看重清晰的协同，而不是单纯增加智能体数量。

Agent 编排

收藏 0GitHub 15.6k

building-incident-response-playbook

作者 mukul975

building-incident-response-playbook 可帮助安全团队创建可复用的事件响应 playbook，涵盖分阶段步骤、决策树、升级标准、RACI 责任分配以及可直接用于 SOAR 的结构。它适用于事件响应流程文档、事件分诊工作流和便于审计的运营响应方案。

事件分诊

收藏 0GitHub 6.1k

building-patch-tuesday-response-process

作者 mukul975

building-patch-tuesday-response-process 帮助团队建立可重复的 Microsoft Patch Tuesday 流程，用于梳理公告优先级、评估风险、测试补丁、批准发布并跟踪合规性。适用于安全运营、漏洞管理，以及用于项目管理的 building-patch-tuesday-response-process。

项目管理

收藏 0GitHub 6.1k

secure-workflow-guide

作者 trailofbits

secure-workflow-guide 提供一套 5 步 Solidity 安全工作流：Slither 初筛、按功能的专项检查、可视化审查、安全属性记录，以及人工复核。它面向智能合约团队、审计人员和开发者，适合在部署或发布前使用一套可重复的 secure-workflow-guide 流程。

安全审计

收藏 0GitHub 4.9k

twitter-cli

作者 public-clis

twitter-cli 是一款以终端为核心的 Twitter/X skill，可用于查看时间线、书签、搜索结果、个人资料和推文详情；在完成认证后，还支持发帖及其他写入操作。适合用于社交媒体调研、账号监控，以及通过命令行进行轻量发布。

社交媒体

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

wp-performance

作者 WordPress

使用 wp-performance 从后端排查并提升 WordPress 性能，无需浏览器界面。它支持先测量、后诊断的方式，适用于前台请求缓慢、后台页面、REST 路由和 WP-Cron 等场景，并提供关于 WP-CLI profile/doctor、通过 REST 头查看 Query Monitor、Server-Timing、数据库查询、autoloaded options、对象缓存、cron 和远程 HTTP 调用的指导。

性能优化

收藏 0GitHub 1.4k

wp-wpcli-and-ops

作者 WordPress

wp-wpcli-and-ops 技能用于 WP-CLI 下的 WordPress 运维：安全的 search-replace、db export/import、插件和主题操作、cron、缓存清理、多站点定向，以及可复用的后端开发自动化。

后端开发

收藏 0GitHub 1.4k

agents-sdk

作者 cloudflare

agents-sdk 可帮助你构建带有有状态对话、持久化执行、WebSocket 或流式聊天、MCP 集成、定时任务和浏览器自动化的 Cloudflare Workers 代理。这个 agents-sdk 技能重点面向安装决策、配置和实际使用，适用于现有或新建的 Workers 应用；只有在多代理系统确实符合 Cloudflare 运行时限制时，才会提供相应指导。

多 Agent 系统

收藏 0GitHub 1.3k

reddit-ads

作者 alinaqi

用于 Reddit Ads API 工作流的 reddit-ads 技能：广告系列创建、定向、转化跟踪和广告优化。安装 reddit-ads 指南，可更少凭经验猜测地管理账户层级、预算、受众以及基于 API 的优化。

广告优化

收藏 0GitHub 611

existing-repo

作者 alinaqi

existing-repo 帮助 agents 分析现有代码库，识别技术栈和约定，并在不破坏本地模式的前提下加入防护措施。对于 Git Workflows、首次接手仓库、维护工作以及需要先理解再修改的配置变更，这个 existing-repo skill 都很适合。

Git 工作流

收藏 0GitHub 607