语音转文字

由站点技能导入器展示的语音转文字技能与工作流。

3 个技能
O
transcribe

作者 openai

transcribe 可将音频或视频转成文本,并支持可选的说话人分离和已知说话人提示。它很适合技术写作、会议纪要、访谈、讲座和内容运营等场景,尤其是在你需要一个可重复使用、输出格式清晰、比通用提示词更少猜测的 transcribe 技能时。

技术写作
收藏 0GitHub 18.8k
M
azure-speech-to-text-rest-py

作者 microsoft

azure-speech-to-text-rest-py 是一个用于短音频转写的 Python Azure Speech REST 技能,无需 Speech SDK。适合后端开发场景,当你需要直接的 HTTP 控制、快速上手,并支持最长 60 秒的音频文件时使用。本指南涵盖安装、身份验证、音频格式处理,以及何时应避免使用它——例如长音频、流式转写或批量转写。

后端开发
收藏 0GitHub 2.3k
M
detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可帮助安全团队分析音频中的 AI 生成语音,适用于 vishing、诈骗和冒充类案件。它会提取频谱特征和基于 MFCC 的特征,对可疑样本进行评分,并生成可供复核的法医风格报告。非常适合安全审计和事件响应工作流。

安全审计
收藏 0GitHub 0
语音转文字