ai-voice-cloning
作者 inferen-shai-voice-cloning 是基于 inference.sh 的技能,用于在 CLI 中进行 AI 语音生成、文本转语音(TTS)和语音克隆。它封装了 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice 等模型,适合用于自然语音、多角色旁白以及为音视频项目做语音变换。
概览
ai-voice-cloning 是什么?
ai-voice-cloning 是一个面向 CLI 的 AI 语音生成和语音克隆技能,构建在 inference.sh 平台之上。它允许你在命令行中调用文本转语音和语音变换模型,包括 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice。
该技能定义在 inferen-sh/skills 仓库中,设计为可嵌入到能够通过 infsh(inference.sh CLI)调用 Bash 的智能体(agent)工作流里。它重点在于生成自然听感的语音,以及对已有录音做语音变换,而不是做模型训练或数据集管理。
核心能力
- 从 CLI 进行文本转语音(TTS),使用
infsh app run ... - 多个 AI 语音模型统一管理(例如
elevenlabs/tts、infsh/kokoro-tts) - 通过 ElevenLabs Voice Changer 对已有录音进行 语音克隆 / 变声
- 支持多种声音和多语言(通过 ElevenLabs 模型,具体以上游描述为准)
- 长篇旁白,适用于配音、有声书和播客
- 使用为自然语音调优的模型,提供 对话风格与更具表现力的朗读
由于 ai-voice-cloning 是一个技能定义而不是独立应用,你是通过 inference.sh CLI 以及任何允许执行 Bash 命令的 agent 或工具与它交互。
适用人群
如果你符合以下情况,这个技能会比较适合:
- 从事 音频或视频制作,需要快速、可脚本化的语音生成
- 构建需要说话或旁白的 AI agents、CLI 工具或自动化流程
- 制作 配音、讲解视频、教程或培训视频
- 希望在单一 CLI 背后使用 ElevenLabs 级别音质 以及其他专用 TTS 模型
- 更偏好 命令行工作流 而非网页 GUI
不太适用的情况:
- 需要完全图形化界面、不想使用 CLI
- 希望从原始音频数据集训练自定义模型(本技能不涵盖)
- 要求完全在浏览器或本地设备上运行,不调用 inference.sh 服务
典型使用场景
- 为 YouTube 或营销视频生成 旁白音轨
- 从文本脚本生成 有声书或播客 语音
- 为对话和情景剧生成多种 角色声音
- 使用 ElevenLabs Voice Changer 对已有录音进行 变声 / 语音克隆
- 为 agents、机器人和交互式工具添加 语音提示和系统声音
使用方法
1. 先决条件与安装方式
使用 ai-voice-cloning 你需要:
- 访问 inference.sh CLI(
infsh) - 能连通 inference.sh API 的网络环境
- 允许执行 Bash 命令的 shell 环境
你可以通过以下命令将该技能集成进 agent 环境:
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
此命令会从 inferen-sh/skills 拉取技能定义,并完成注册,使你的 agent 可以调用相关工具(特别是通过 infsh 调用 Bash)。
如果你想在 agent 之外直接通过 CLI 使用,请先安装 inference.sh CLI 本身。技能的 SKILL.md 中提供了 CLI 安装说明链接:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
按照该文档的步骤在系统上安装 infsh。
2. 登录 inference.sh
安装好 infsh 后,先进行认证:
infsh login
根据提示完成登录或按 CLI 安装指南配置凭据。
3. 快速上手:使用 Kokoro TTS 生成语音
SKILL.md 提供了一个简单的 Kokoro TTS 示例。登录后,你可以通过以下命令生成语音:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
"voice": "af_sarah"
}'
该命令会执行:
- 调用
infsh/kokoro-ttsapp - 发送包含
prompt(要朗读的文本)和voice(声音选择)的 JSON 输入 - 生成合成语音作为输出(具体输出路径或流式方式参见 CLI 文档)
你可以用不同的 prompt 和支持的 voice 值来套用这一调用模式。
4. 使用其他模型(ElevenLabs、DIA 等)
SKILL.md 在 Available Models 表格中列出了可用模型。根据已公开的内容,可以预期包括:
- ElevenLabs TTS – App ID:
elevenlabs/tts - ElevenLabs Voice Changer – App ID:
elevenlabs/voice-changer - Kokoro TTS – App ID:
infsh/kokoro-tts - DIA – App ID 以
infsh/dia-...开头 - 以及 Chatterbox、Higgs、VibeVoice 等其他在技能描述中提到的模型
要调用不同的 app,只需在 CLI 命令中替换 App ID。例如,使用 ElevenLabs 做 TTS 的一个典型调用模式类似:
infsh app run elevenlabs/tts --input '{
"text": "This audio was generated using the ai-voice-cloning skill.",
"voice": "some_voice_id"
}'
请参考仓库文档以及各模型的 README(如有)确认每个 app 的具体输入 schema,因为不同模型可能使用不同字段名,比如 prompt、text 或 voice_id。
5. 使用 ElevenLabs Voice Changer 进行变声 / 语音克隆
技能描述中特别提到用于处理已有录音的 ElevenLabs Voice Changer(App ID elevenlabs/voice-changer)。一个典型的 CLI 调用会:
- 指定输入音频文件(你的原始录音)
- 指定目标声音或相关设置
- 输出一段已变声的音频文件
通用调用模式类似:
infsh app run elevenlabs/voice-changer --input '{
"audio_url": "https://.../your-input-audio.wav",
"voice": "target_voice_id"
}'
具体字段及支持的格式请查看 inference.sh 上对应 app 的文档。
6. 将 ai-voice-cloning 集成进 agents
当你通过 npx skills add 添加 ai-voice-cloning 技能后,支持 inferen-sh/skills 格式的 agent 平台可以:
- 识别出 Bash(infsh *) 是允许使用的工具
- 使用
SKILL.md中的示例和描述作为调用参考 - 自动生成合适的
infsh app run ...命令,用于创建或变换音频
如需为你的 agent 进一步调优:
- 打开
tools/audio/ai-voice-cloning目录下的SKILL.md。 - 查看其中的示例、可用模型表以及关于使用场景的说明。
- 在你的 agent 配置或编排层中,添加自定义的 prompt 模板、声音选择方案或后处理步骤。
7. 仓库中值得查看的文件
如需更深入理解技能是如何定义以及推荐的使用方式,可查看:
tools/audio/ai-voice-cloning/SKILL.md– 核心说明、快速上手及模型列表- 仓库根目录下的
README.md与cli-install.md– 关于 inference.sh 和 CLI 的通用安装与使用指南
tools 目录下可能还会有其它文档,帮助你了解更广泛的工具生态。
常见问题(FAQ)
ai-voice-cloning 是独立应用还是技能定义?
ai-voice-cloning 是 inferen-sh/skills 仓库中的一个 技能定义。它描述了 agent 如何通过 inference.sh CLI(infsh)执行 AI 语音生成和语音克隆。它本身不提供 GUI 应用,而是提供了一套清晰的方式,在命令行或能执行 Bash 的 agent 工作流中调用 TTS 和 voice changer 模型。
使用 ai-voice-cloning 需要安装什么?
你需要:
- 已安装并在 shell 中可用的 inference.sh CLI(
infsh) - 为 inference.sh 配置好的有效认证(通过
infsh login设置) - 一个允许执行 Bash 命令的环境(例如本地终端,或提供 Bash 的 agent 运行环境)
如果你要在支持 skills 格式的 agent 平台中集成此技能,可以使用:
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
支持哪些 AI 语音模型?
根据技能描述和 SKILL.md,ai-voice-cloning 设计用于配合 inference.sh 上的多种模型使用,包括:
- ElevenLabs TTS –
elevenlabs/tts - ElevenLabs Voice Changer –
elevenlabs/voice-changer - Kokoro TTS –
infsh/kokoro-tts - DIA 系列 TTS apps(App ID 以
infsh/dia-...开头) - 以及在描述中提到的 Chatterbox、Higgs、VibeVoice 等其他模型
最新、完整的模型列表及参数,请参见 SKILL.md 中的 Available Models 表格以及 inference.sh 官方文档。
ai-voice-cloning 能处理长篇旁白吗?
可以。技能明确标注适用于 长篇旁白,包括有声书、播客和视频解说等场景。但具体的长文本处理方式(如分段策略、最大文本长度、拼接行为等)取决于各个底层模型的限制以及 inference.sh 运行时。如果你需要处理非常长的脚本,建议先用较短片段测试,并参考相关模型文档。
这和直接使用 ElevenLabs 或其他服务商有何不同?
ai-voice-cloning 的特点在于:
- 通过 inference.sh CLI 提供统一接口
- 使用相似的
infsh app run ...命令,便捷切换 多个 TTS 和 voice changer 模型 - 自然融入 agent 技能体系、Bash 脚本和自动化工作流
如果你已经直接使用某个服务商的原生 API,当你希望:
- 用 单一 CLI 抽象多个服务商与模型
- 更容易地与支持 skills 格式的 agent 框架 集成
ai-voice-cloning 仍然会有实际价值。
ai-voice-cloning 是否支持实时流式音频?
SKILL.md 片段主要介绍基于批处理的命令(infsh app run ...),没有明确说明实时流式能力。任何流式或低延迟选项都取决于 inference.sh 上具体 app 的实现,而不是技能包装本身。如果你的场景对实时输出有要求,请查阅你计划使用的模型在 inference.sh 上的文档。
ai-voice-cloning 输出的音频格式是什么?
最终输出格式(例如 wav、mp3)以及交付方式(本地文件、URL 等)由底层的 inference.sh apps 决定,如 infsh/kokoro-tts 或 elevenlabs/tts。该技能本身不会强制使用某种音频格式,而是定义 agent 如何调用这些模型。你可以参考各 app 文档或直接跑一次测试命令,确认默认输出行为。
在哪些情况下 ai-voice-cloning 不太适合?
如果你满足以下任一情况,可能需要考虑其他方案:
- 希望 完全无需 CLI、纯浏览器的工作流
- 需要 离线、本地设备上的 TTS,不依赖外部 API
- 重点是从大规模数据集训练自定义模型,而不是使用现成声音
这类需求下,可以考虑带 TTS 插件的桌面 DAW,或专门的本地 TTS 库。如果你的重点是通过 CLI 或 agents 做脚本化、自动化的 AI 语音生成,ai-voice-cloning 则非常适合。
在哪里了解更多配置与高级用法?
你可以从以下文档开始:
inferen-sh/skills仓库中的tools/audio/ai-voice-cloning/SKILL.mdSKILL.md中引用的 CLI 安装文档:cli-install.md- inference.sh 上针对
infsh/kokoro-tts、elevenlabs/tts等 apps 提供的模型专用文档
这些资源会提供最新的示例命令、参数说明和使用注意事项,补充本页面给出的快速上手模式。
