语音转文字

由站点技能导入器展示的语音转文字技能与工作流。

5 个技能
O
transcribe

作者 openai

transcribe 可将音频或视频转成文本,并支持可选的说话人分离和已知说话人提示。它很适合技术写作、会议纪要、访谈、讲座和内容运营等场景,尤其是在你需要一个可重复使用、输出格式清晰、比通用提示词更少猜测的 transcribe 技能时。

技术写作
收藏 0GitHub 18.8k
M
azure-speech-to-text-rest-py

作者 microsoft

azure-speech-to-text-rest-py 是一个用于短音频转写的 Python Azure Speech REST 技能,无需 Speech SDK。适合后端开发场景,当你需要直接的 HTTP 控制、快速上手,并支持最长 60 秒的音频文件时使用。本指南涵盖安装、身份验证、音频格式处理,以及何时应避免使用它——例如长音频、流式转写或批量转写。

后端开发
收藏 0GitHub 2.3k
N
speech-to-text

作者 NoizAI

speech-to-text 技能可将受支持的音频文件转写为纯文本,并支持时间戳、说话人标签和 JSON 输出。它面向需要稳定、可重复流程的实际 speech-to-text 场景,适用于访谈、会议、播客、讲座,以及对转写一致性要求较高的自动化任务。

工作流自动化
收藏 0GitHub 498
N
tts

作者 NoizAI

tts 技能可将文本转换为语音音频,适用于旁白、配音、配音解说和按时间轴对齐的播放。你可以用它把纯文本生成语音文件,将文章或文本文件转成语音,或生成带时间控制的 SRT 驱动音频。它支持简单模式和时间轴模式,也支持面向后端的工作流,便于重复、稳定地使用 tts。

语音生成
收藏 0GitHub 498
M
detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可帮助安全团队分析音频中的 AI 生成语音,适用于 vishing、诈骗和冒充类案件。它会提取频谱特征和基于 MFCC 的特征,对可疑样本进行评分,并生成可供复核的法医风格报告。非常适合安全审计和事件响应工作流。

安全审计
收藏 0GitHub 0
语音转文字