speech-to-text

作者 NoizAI

speech-to-text 技能可將支援的音訊檔轉寫為純文字，並提供時間戳記、說話者標籤與 JSON 輸出等選項。它專為需要可重複執行的實務 speech-to-text 工作流程而設計，包括訪談、會議、Podcast、講座，以及重視轉寫一致性的自動化任務。

Stars498

評論0

加入時間2026年5月14日

分類工作流自動化

安裝指令

npx skills add NoizAI/skills --skill speech-to-text

編輯評分

這個技能獲得 78/100 分，代表它是相當不錯的目錄收錄候選：使用者大致能正確觸發，也能理解預期流程，不太需要猜測，但在設定與邊界情境上仍可能有一些導入落差。儲存庫提供了足夠的實際操作細節，足以支持將其安裝給以轉錄為主的代理使用。

78/100

亮點

觸發性強：SKILL.md 明確列出與轉錄相關的觸發詞，包括 speech-to-text、transcript、subtitle generation 與多語言需求。
工作流程價值具體：Quick Start 範例直接展示如何針對音訊檔使用 CLI、選擇語言、輸出檔案，以及帶有時間戳記/說話者標籤的 JSON 輸出。
已有可運作的實作：附帶的 scripts/stt.py 顯示這比較像是一個真的可用技能，而不是占位內容，且包含 API key 處理與格式驗證。

注意事項

可見資料中的設定說明只有部分內容：SKILL.md 沒有安裝指令，使用者可能需要自行推斷相依套件與環境設定。
這個技能看起來依賴 API 且有大小限制（NOIZ_API_KEY、最大 50 MB、最長 10 分鐘），可能會限制某些真實世界的轉錄工作。

语音转文字 Transcription 音频视频 Multilingual Captions Speaker Labels Ffmpeg

總覽

speech-to-text 技能概覽

這個 speech-to-text 技能能做什麼

speech-to-text 技能可將支援的音訊檔轉成純文字逐字稿，並可選擇加入時間戳、說話者標記與 JSON 輸出。它最適合想要一套實際可用的 speech-to-text 工作流程，而不是只靠一段通用提示去猜測轉錄步驟的使用者。

適合誰安裝

如果你經常需要轉錄訪談、會議、Podcast、講座、語音備忘錄，或短影片的音軌，就很適合安裝 speech-to-text 技能。它特別適合做流程自動化，因為轉錄本身就是可重複執行的一步，而且你會需要一套一致的命令式流程。

採用前先確認的重點

主要的決策點在於檔案限制、語言處理，以及輸出格式。這個 repo 支援常見音訊類型，並提供清楚的 CLI 路徑，讓 speech-to-text 指南很容易落地執行。如果你需要大量批次處理、超長錄音，或高度客製的 diarization，先確認你的使用情境是否符合腳本限制，再決定要不要依賴它。

如何使用 speech-to-text 技能

安裝並確認執行環境

請使用文件中指定的安裝方式：npx skills add NoizAI/skills --skill speech-to-text。這個 speech-to-text 安裝方式只有在你也能執行 helper script 時才真正有用，所以請先確認環境中有 Python、requests 套件，以及有效的 NOIZ_API_KEY。

提供正確的輸入內容

這個 script 需要的是實際的音訊檔，不是模糊的需求描述。好的輸入會清楚寫出檔名、已知語言、想要的輸出，以及任何格式需求。例如："Transcribe meeting.wav in English, include timestamps, and save JSON to result.json." 這樣比 "transcribe this" 更好，因為它能消除 speech-to-text 使用上的歧義。

先看這些檔案

先從 SKILL.md 開始，確認觸發條件、參數與輸出模式，接著再看 scripts/stt.py，了解實際的驗證規則、檔案處理方式與 API 行為。如果你要把 speech-to-text 用在 Workflow Automation，script 比說明文字更重要，因為它會直接揭示這個技能在接近正式生產的使用情境下，究竟能接受什麼、不能接受什麼。

最佳實務的提示詞格式

一個好的呼叫應該明確指定：

來源檔案路徑
語言是否已知，或是否要自動偵測
想要純文字、JSON，或儲存後的輸出
是否需要時間戳或說話者標記

實用的 speech-to-text 提示詞可以是："Use the speech-to-text skill on podcast.m4a. Auto-detect language, return a clean transcript, and include timestamps in JSON because I need to publish captions later."

speech-to-text 技能 FAQ

這個技能只適用於音訊檔嗎？

核心 speech-to-text 技能是為音訊轉錄設計的，而 repo 範例主要涵蓋 MP3、WAV、M4A、OGG、FLAC、AAC 與 WEBM 這些檔案格式。如果你的來源是影片，通常需要先抽出音訊，除非你自己的工作流程本來就已經處理了這一步。

安裝前最重要的限制是什麼？

最實際、也最需要先注意的限制是檔案大小與長度。如果你的流程經常超過這些限制，speech-to-text 安裝本身或許仍可用於小型工作，但它不會是長篇檔案歸檔轉錄的理想預設方案。

這和一般的轉錄提示有什麼不同？

一般提示可以描述任務，但 speech-to-text 技能提供的是可重複的操作路徑：安裝、必要金鑰、支援的輸入、輸出模式，以及由 script 驅動的工作流程。這讓它比一次性的指令更適合反覆使用 speech-to-text。

初學者也適合嗎？

適合，只要你能執行基本的 Python 指令並設定 API key。speech-to-text 指南本身很直接，但初學者還是應該讀一下 script，避免自行假設它支援未列出的檔案類型、輸出選項或語言行為。

如何改進 speech-to-text 技能

把轉錄目標說清楚

結果要好，起點就要清楚。請明確說你需要的是逐字稿、可讀性較高的整理稿、時間戳、說話者標記，還是可供機器處理的 JSON。speech-to-text 技能可以支援多種輸出，但你必須先選對符合下游工作的那一種。

帶上檔案與語言資訊

如果你知道語言，就直接提供。如果錄音有多位說話者，也請說明。如果音檔雜訊很多，也要註明。這些細節能提升 speech-to-text 的輸出品質，因為它們可以減少在口音辨識、語言切換與說話者分段上的猜測。

讓輸出對接下一步

如果是要編輯，請要求純文字。如果是要做字幕或自動化流程，請要求 JSON 或含時間戳的輸出。如果是要做搜尋索引，請要求保留說話者輪替的逐字稿。這也是 speech-to-text 用在 Workflow Automation 時最有價值的地方：輸出應該是為下一個工具而設計，而不只是方便閱讀。

從第一版逐字稿開始迭代

如果第一次結果接近可用，但還不夠理想，先調整輸入，不要整個重來。常見修正包括：提供正確語言、去除靜音或背景雜音、把長檔切段，或改請求不同的輸出格式。這是提升 speech-to-text 技能的最快方式，而且不用整套流程重做。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

playwright-interactive

作者 openai

playwright-interactive 是一個瀏覽器自動化技能，適用於本機網頁與 Electron 應用中的持久化 Playwright 工作階段。可用來檢查 UI 狀態、重試互動，以及執行功能或視覺 QA，而不必重啟工具鏈。當你需要一本實用的 playwright-interactive 迭代除錯指南時，特別適合使用。

瀏覽器自動化

收藏 0GitHub 0

huggingface-datasets

作者 huggingface

使用 huggingface-datasets 技能來處理 Hugging Face Dataset Viewer API 工作流程：驗證資料集、解析 splits、預覽與分頁列資料、搜尋文字、套用篩選條件，並取得 parquet 連結或統計資訊。這是一份實用的 huggingface-datasets 指南，適合只讀的資料集探索。

网页抓取

收藏 0GitHub 10.4k

iterative-retrieval

作者 affaan-m

iterative-retrieval 是一種工作流程模式，用於在 agentic 工作中逐步精煉上下文檢索。它能幫助 subagents 避免取得過多或過少的上下文，因此很適合用來評估 iterative-retrieval 的使用情境、安裝決策，以及 Workflow Automation 中的 iterative-retrieval。

工作流自動化

收藏 0GitHub 156.2k

data-scraper-agent

作者 affaan-m

data-scraper-agent 協助建立可重複執行的公開資料流程，用於網頁爬取、資料增補與儲存。它適合搭配 GitHub Actions 依排程監控工作、價格、新聞、repo、體育賽事與清單，並將結果輸出到 Notion、Sheets 或 Supabase。最適合持續追蹤，不適合一次性擷取。

网页抓取

收藏 0GitHub 156.1k

notion-meeting-intelligence

作者 openai

notion-meeting-intelligence 能把 Notion 內容轉成可直接開會使用的議程與會前閱讀資料，並結合 Codex research，支援決策、狀態更新、規劃、回顧與 1:1 準備。當你需要有根據的素材、清楚的時間分配，以及針對不同與會者產出的內容時，這個 notion-meeting-intelligence for Meeting Prep 工作流程特別合適。

会议準備

收藏 0GitHub 18.6k

multi-agent-patterns

作者 muratcankoylan

multi-agent-patterns 技能可協助你設計與實作具備 Agent Orchestration、上下文隔離、平行工作與結構化交接的代理系統。當你要在單一 agent 與多 agent 架構之間做選擇，或需要 supervisor 路由、同儕交接、共識機制、故障處理時，就很適合使用它。它最適合以編排為核心、且協調清楚比單純增加 agent 數量更重要的任務。

Agent 編排

收藏 0GitHub 15.6k

building-incident-response-playbook

作者 mukul975

building-incident-response-playbook 可協助資安團隊建立可重複使用的事件應變 playbook，內容涵蓋逐步階段、決策樹、升級標準、RACI 權責分工，以及可直接對接 SOAR 的架構。它適合用來撰寫事件應變程序文件、事件分流流程，以及便於稽核的營運應變計畫。

事件分诊

收藏 0GitHub 6.1k

building-patch-tuesday-response-process

作者 mukul975

building-patch-tuesday-response-process 可協助團隊建立可重複的 Microsoft Patch Tuesday 流程，用於彙整與分級公告、評估風險、測試修補程式、核准部署，並追蹤合規性。適合資安營運、弱點管理，以及在專案管理情境中導入 building-patch-tuesday-response-process。

專案管理

收藏 0GitHub 6.1k

read

作者 tw93

read 技能可將 URL 與 PDF 擷取為乾淨的 Markdown，適合閱讀、引用、註解，以及後續工作。它特別適用於付費牆頁面、JavaScript 重度網站、X/Twitter、GitHub 檔案、中文平台，以及需要先可靠取得原始文字再進行分析的 Workflow Automation 流程。當你要的是原始內容擷取，而不是評論或解讀時，就應該使用 read 指南。

工作流自動化

收藏 0GitHub 5.1k

secure-workflow-guide

作者 trailofbits

secure-workflow-guide 提供一套 5 步驟的 Solidity 安全工作流程：Slither 初篩、功能別檢查、視覺化檢視、安全屬性筆記與人工複查。它特別適合智能合約團隊、稽核人員與開發者，讓你在部署或發佈前能依照可重複的 secure-workflow-guide 指引進行安全檢查。

安全稽核

收藏 0GitHub 4.9k

twitter-cli

作者 public-clis

twitter-cli 是一款以終端機為優先的 Twitter/X 技能，可用來讀取時間軸、書籤、搜尋結果、個人檔案與推文細節；在完成驗證後，也能進行發文與其他寫入操作。適合用於社群媒體研究、帳號監控，以及透過命令列進行輕量發布。

社交媒体

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可從文件、圖片、音訊與影片中擷取結構化內容，適合 RAG 工作流程與自動化。當你需要可靠的多模態擷取、Azure 驗證，以及可重複、可直接接入管線的輸出時，這個技能很合適。

RAG 工作流

收藏 0GitHub 2.2k

wp-performance

作者 WordPress

使用 wp-performance 從後端調查並改善 WordPress 效能，不需要瀏覽器介面。它支援先量測、後診斷的流程，適用於緩慢的前台請求、管理後台頁面、REST 路由與 WP-Cron，並提供 WP-CLI profile/doctor、透過 REST header 使用 Query Monitor、Server-Timing、資料庫查詢、autoloaded options、物件快取、cron 與遠端 HTTP 呼叫等指引。

性能优化

收藏 0GitHub 1.4k

wp-wpcli-and-ops

作者 WordPress

wp-wpcli-and-ops 技能可協助你在 WP-CLI 中進行 WordPress 維運：安全的 search-replace、db 匯出/匯入、外掛與佈景主題操作、cron、快取清除、multisite 目標指定，以及可重複執行的後端開發自動化流程。

後端开发

收藏 0GitHub 1.4k

agents-sdk

作者 cloudflare

agents-sdk 可協助你打造具備有狀態對話、持久化執行、WebSocket 或串流聊天、MCP 整合、排程任務與瀏覽器自動化的 Cloudflare Workers agents。這份 agents-sdk 技能聚焦於安裝決策、設定，以及現有或新建 Workers 應用的實作使用；只有在多 agent 系統符合 Cloudflare 執行環境限制時，才會提供相關指引。

多 Agent 系统

收藏 0GitHub 1.3k

reddit-ads

作者 alinaqi

適用於 Reddit Ads API 工作流程的 reddit-ads 技能：包含廣告活動建立、受眾定向、轉換追蹤與廣告優化。安裝 reddit-ads 指南，可更有系統地管理帳戶層級、預算、受眾，以及以 API 為基礎的優化，減少憑感覺判斷。

广告优化

收藏 0GitHub 611