I

ai-voice-cloning

作者 inferen-sh

ai-voice-cloning 是基于 inference.sh 的技能,用于在 CLI 中进行 AI 语音生成、文本转语音(TTS)和语音克隆。它封装了 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice 等模型,适合用于自然语音、多角色旁白以及为音视频项目做语音变换。

Stars0
收藏0
评论0
收录时间2026年3月27日
分类语音生成
安装命令
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
概览

概览

ai-voice-cloning 是什么?

ai-voice-cloning 是一个面向 CLI 的 AI 语音生成和语音克隆技能,构建在 inference.sh 平台之上。它允许你在命令行中调用文本转语音和语音变换模型,包括 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice。

该技能定义在 inferen-sh/skills 仓库中,设计为可嵌入到能够通过 infshinference.sh CLI)调用 Bash 的智能体(agent)工作流里。它重点在于生成自然听感的语音,以及对已有录音做语音变换,而不是做模型训练或数据集管理。

核心能力

  • 从 CLI 进行文本转语音(TTS),使用 infsh app run ...
  • 多个 AI 语音模型统一管理(例如 elevenlabs/ttsinfsh/kokoro-tts
  • 通过 ElevenLabs Voice Changer 对已有录音进行 语音克隆 / 变声
  • 支持多种声音和多语言(通过 ElevenLabs 模型,具体以上游描述为准)
  • 长篇旁白,适用于配音、有声书和播客
  • 使用为自然语音调优的模型,提供 对话风格与更具表现力的朗读

由于 ai-voice-cloning 是一个技能定义而不是独立应用,你是通过 inference.sh CLI 以及任何允许执行 Bash 命令的 agent 或工具与它交互。

适用人群

如果你符合以下情况,这个技能会比较适合:

  • 从事 音频或视频制作,需要快速、可脚本化的语音生成
  • 构建需要说话或旁白的 AI agents、CLI 工具或自动化流程
  • 制作 配音、讲解视频、教程或培训视频
  • 希望在单一 CLI 背后使用 ElevenLabs 级别音质 以及其他专用 TTS 模型
  • 更偏好 命令行工作流 而非网页 GUI

不太适用的情况:

  • 需要完全图形化界面、不想使用 CLI
  • 希望从原始音频数据集训练自定义模型(本技能不涵盖)
  • 要求完全在浏览器或本地设备上运行,不调用 inference.sh 服务

典型使用场景

  • 为 YouTube 或营销视频生成 旁白音轨
  • 从文本脚本生成 有声书或播客 语音
  • 为对话和情景剧生成多种 角色声音
  • 使用 ElevenLabs Voice Changer 对已有录音进行 变声 / 语音克隆
  • 为 agents、机器人和交互式工具添加 语音提示和系统声音

使用方法

1. 先决条件与安装方式

使用 ai-voice-cloning 你需要:

  • 访问 inference.sh CLIinfsh
  • 能连通 inference.sh API 的网络环境
  • 允许执行 Bash 命令的 shell 环境

你可以通过以下命令将该技能集成进 agent 环境:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

此命令会从 inferen-sh/skills 拉取技能定义,并完成注册,使你的 agent 可以调用相关工具(特别是通过 infsh 调用 Bash)。

如果你想在 agent 之外直接通过 CLI 使用,请先安装 inference.sh CLI 本身。技能的 SKILL.md 中提供了 CLI 安装说明链接:

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

按照该文档的步骤在系统上安装 infsh

2. 登录 inference.sh

安装好 infsh 后,先进行认证:

infsh login

根据提示完成登录或按 CLI 安装指南配置凭据。

3. 快速上手:使用 Kokoro TTS 生成语音

SKILL.md 提供了一个简单的 Kokoro TTS 示例。登录后,你可以通过以下命令生成语音:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

该命令会执行:

  • 调用 infsh/kokoro-tts app
  • 发送包含 prompt(要朗读的文本)和 voice(声音选择)的 JSON 输入
  • 生成合成语音作为输出(具体输出路径或流式方式参见 CLI 文档)

你可以用不同的 prompt 和支持的 voice 值来套用这一调用模式。

4. 使用其他模型(ElevenLabs、DIA 等)

SKILL.mdAvailable Models 表格中列出了可用模型。根据已公开的内容,可以预期包括:

  • ElevenLabs TTS – App ID:elevenlabs/tts
  • ElevenLabs Voice Changer – App ID:elevenlabs/voice-changer
  • Kokoro TTS – App ID:infsh/kokoro-tts
  • DIA – App ID 以 infsh/dia-... 开头
  • 以及 Chatterbox、Higgs、VibeVoice 等其他在技能描述中提到的模型

要调用不同的 app,只需在 CLI 命令中替换 App ID。例如,使用 ElevenLabs 做 TTS 的一个典型调用模式类似:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

请参考仓库文档以及各模型的 README(如有)确认每个 app 的具体输入 schema,因为不同模型可能使用不同字段名,比如 prompttextvoice_id

5. 使用 ElevenLabs Voice Changer 进行变声 / 语音克隆

技能描述中特别提到用于处理已有录音的 ElevenLabs Voice Changer(App ID elevenlabs/voice-changer)。一个典型的 CLI 调用会:

  1. 指定输入音频文件(你的原始录音)
  2. 指定目标声音或相关设置
  3. 输出一段已变声的音频文件

通用调用模式类似:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

具体字段及支持的格式请查看 inference.sh 上对应 app 的文档。

6. 将 ai-voice-cloning 集成进 agents

当你通过 npx skills add 添加 ai-voice-cloning 技能后,支持 inferen-sh/skills 格式的 agent 平台可以:

  • 识别出 Bash(infsh *) 是允许使用的工具
  • 使用 SKILL.md 中的示例和描述作为调用参考
  • 自动生成合适的 infsh app run ... 命令,用于创建或变换音频

如需为你的 agent 进一步调优:

  1. 打开 tools/audio/ai-voice-cloning 目录下的 SKILL.md
  2. 查看其中的示例、可用模型表以及关于使用场景的说明。
  3. 在你的 agent 配置或编排层中,添加自定义的 prompt 模板、声音选择方案或后处理步骤。

7. 仓库中值得查看的文件

如需更深入理解技能是如何定义以及推荐的使用方式,可查看:

  • tools/audio/ai-voice-cloning/SKILL.md – 核心说明、快速上手及模型列表
  • 仓库根目录下的 README.mdcli-install.md – 关于 inference.sh 和 CLI 的通用安装与使用指南

tools 目录下可能还会有其它文档,帮助你了解更广泛的工具生态。


常见问题(FAQ)

ai-voice-cloning 是独立应用还是技能定义?

ai-voice-cloning 是 inferen-sh/skills 仓库中的一个 技能定义。它描述了 agent 如何通过 inference.sh CLI(infsh)执行 AI 语音生成和语音克隆。它本身不提供 GUI 应用,而是提供了一套清晰的方式,在命令行或能执行 Bash 的 agent 工作流中调用 TTS 和 voice changer 模型。

使用 ai-voice-cloning 需要安装什么?

你需要:

  • 已安装并在 shell 中可用的 inference.sh CLIinfsh
  • inference.sh 配置好的有效认证(通过 infsh login 设置)
  • 一个允许执行 Bash 命令的环境(例如本地终端,或提供 Bash 的 agent 运行环境)

如果你要在支持 skills 格式的 agent 平台中集成此技能,可以使用:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

支持哪些 AI 语音模型?

根据技能描述和 SKILL.md,ai-voice-cloning 设计用于配合 inference.sh 上的多种模型使用,包括:

  • ElevenLabs TTSelevenlabs/tts
  • ElevenLabs Voice Changerelevenlabs/voice-changer
  • Kokoro TTSinfsh/kokoro-tts
  • DIA 系列 TTS apps(App ID 以 infsh/dia-... 开头)
  • 以及在描述中提到的 ChatterboxHiggsVibeVoice 等其他模型

最新、完整的模型列表及参数,请参见 SKILL.md 中的 Available Models 表格以及 inference.sh 官方文档。

ai-voice-cloning 能处理长篇旁白吗?

可以。技能明确标注适用于 长篇旁白,包括有声书、播客和视频解说等场景。但具体的长文本处理方式(如分段策略、最大文本长度、拼接行为等)取决于各个底层模型的限制以及 inference.sh 运行时。如果你需要处理非常长的脚本,建议先用较短片段测试,并参考相关模型文档。

这和直接使用 ElevenLabs 或其他服务商有何不同?

ai-voice-cloning 的特点在于:

  • 通过 inference.sh CLI 提供统一接口
  • 使用相似的 infsh app run ... 命令,便捷切换 多个 TTS 和 voice changer 模型
  • 自然融入 agent 技能体系、Bash 脚本和自动化工作流

如果你已经直接使用某个服务商的原生 API,当你希望:

  • 单一 CLI 抽象多个服务商与模型
  • 更容易地与支持 skills 格式的 agent 框架 集成

ai-voice-cloning 仍然会有实际价值。

ai-voice-cloning 是否支持实时流式音频?

SKILL.md 片段主要介绍基于批处理的命令(infsh app run ...),没有明确说明实时流式能力。任何流式或低延迟选项都取决于 inference.sh 上具体 app 的实现,而不是技能包装本身。如果你的场景对实时输出有要求,请查阅你计划使用的模型在 inference.sh 上的文档。

ai-voice-cloning 输出的音频格式是什么?

最终输出格式(例如 wavmp3)以及交付方式(本地文件、URL 等)由底层的 inference.sh apps 决定,如 infsh/kokoro-ttselevenlabs/tts。该技能本身不会强制使用某种音频格式,而是定义 agent 如何调用这些模型。你可以参考各 app 文档或直接跑一次测试命令,确认默认输出行为。

在哪些情况下 ai-voice-cloning 不太适合?

如果你满足以下任一情况,可能需要考虑其他方案:

  • 希望 完全无需 CLI、纯浏览器的工作流
  • 需要 离线、本地设备上的 TTS,不依赖外部 API
  • 重点是从大规模数据集训练自定义模型,而不是使用现成声音

这类需求下,可以考虑带 TTS 插件的桌面 DAW,或专门的本地 TTS 库。如果你的重点是通过 CLI 或 agents 做脚本化、自动化的 AI 语音生成,ai-voice-cloning 则非常适合。

在哪里了解更多配置与高级用法?

你可以从以下文档开始:

  • inferen-sh/skills 仓库中的 tools/audio/ai-voice-cloning/SKILL.md
  • SKILL.md 中引用的 CLI 安装文档:cli-install.md
  • inference.sh 上针对 infsh/kokoro-ttselevenlabs/tts 等 apps 提供的模型专用文档

这些资源会提供最新的示例命令、参数说明和使用注意事项,补充本页面给出的快速上手模式。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...