语音转文字

由站点技能导入器展示的语音转文字技能与工作流。

5 个技能

transcribe

作者 openai

transcribe 可将音频或视频转成文本，并支持可选的说话人分离和已知说话人提示。它很适合技术写作、会议纪要、访谈、讲座和内容运营等场景，尤其是在你需要一个可重复使用、输出格式清晰、比通用提示词更少猜测的 transcribe 技能时。

技术写作

收藏 0GitHub 18.8k

azure-speech-to-text-rest-py

作者 microsoft

azure-speech-to-text-rest-py 是一个用于短音频转写的 Python Azure Speech REST 技能，无需 Speech SDK。适合后端开发场景，当你需要直接的 HTTP 控制、快速上手，并支持最长 60 秒的音频文件时使用。本指南涵盖安装、身份验证、音频格式处理，以及何时应避免使用它——例如长音频、流式转写或批量转写。

后端开发

收藏 0GitHub 2.3k

speech-to-text

作者 NoizAI

speech-to-text 技能可将受支持的音频文件转写为纯文本，并支持时间戳、说话人标签和 JSON 输出。它面向需要稳定、可重复流程的实际 speech-to-text 场景，适用于访谈、会议、播客、讲座，以及对转写一致性要求较高的自动化任务。

工作流自动化

收藏 0GitHub 498

tts

作者 NoizAI

tts 技能可将文本转换为语音音频，适用于旁白、配音、配音解说和按时间轴对齐的播放。你可以用它把纯文本生成语音文件，将文章或文本文件转成语音，或生成带时间控制的 SRT 驱动音频。它支持简单模式和时间轴模式，也支持面向后端的工作流，便于重复、稳定地使用 tts。

语音生成

收藏 0GitHub 498

detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可帮助安全团队分析音频中的 AI 生成语音，适用于 vishing、诈骗和冒充类案件。它会提取频谱特征和基于 MFCC 的特征，对可疑样本进行评分，并生成可供复核的法医风格报告。非常适合安全审计和事件响应工作流。

安全审计

收藏 0GitHub 0