语音转文字

由站点技能导入器展示的语音转文字技能与工作流。

5 個技能

transcribe

作者 openai

transcribe 可將音訊或影片轉成文字，並支援選用的聲紋分群與已知說話者提示。它特別適合技術寫作、會議紀錄、訪談、講座與內容營運；當你需要可重複使用、輸出格式清楚、且比通用提示詞更少猜測的 transcribe 技能時，這是一個相當合適的選擇。

技术写作

收藏 0GitHub 18.8k

azure-speech-to-text-rest-py

作者 microsoft

azure-speech-to-text-rest-py 是一個 Python 版 Azure Speech REST 技能，適合在不使用 Speech SDK 的情況下進行短音訊轉錄。當你需要直接掌控 HTTP、快速完成設定，且要支援最長 60 秒的音訊檔時，這個技能特別適合後端開發。這份指南涵蓋安裝、驗證、音訊格式，以及何時應避免用在長音訊、串流或批次轉錄情境。

後端开发

收藏 0GitHub 2.3k

speech-to-text

作者 NoizAI

speech-to-text 技能可將支援的音訊檔轉寫為純文字，並提供時間戳記、說話者標籤與 JSON 輸出等選項。它專為需要可重複執行的實務 speech-to-text 工作流程而設計，包括訪談、會議、Podcast、講座，以及重視轉寫一致性的自動化任務。

工作流自動化

收藏 0GitHub 498

tts

作者 NoizAI

tts skill 可將文字轉成語音音訊，適用於旁白、配音、口白，以及與時間軸對齊的播放。你可以用它把純文字產生為語音檔、將文章或文字檔轉成語音，或依 SRT 產生具時間控制的音訊。它支援簡單模式與時間軸模式，並提供可感知後端的工作流程，方便重複且穩定地使用 tts。

語音生成

收藏 0GitHub 498

detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可協助資安團隊分析 vishing、詐騙與冒充案件中的音訊，判斷是否含有 AI 生成語音。它會擷取頻譜與 MFCC 特徵、對可疑樣本進行評分，並產出適合檢視的鑑識式報告。很適合安全稽核與事件應變流程使用。

安全稽核

收藏 0GitHub 0