ai-voice-cloning

作者 inferen-sh

ai-voice-cloning 是基于 inference.sh 的技能，用于在 CLI 中进行 AI 语音生成、文本转语音（TTS）和语音克隆。它封装了 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice 等模型，适合用于自然语音、多角色旁白以及为音视频项目做语音变换。

Stars0

收录时间2026年3月27日

分类语音生成

安装命令

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

音频视频开发者受众 Cli Ai

概览

ai-voice-cloning 是什么？

ai-voice-cloning 是一个面向 CLI 的 AI 语音生成和语音克隆技能，构建在 inference.sh 平台之上。它允许你在命令行中调用文本转语音和语音变换模型，包括 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice。

该技能定义在 inferen-sh/skills 仓库中，设计为可嵌入到能够通过 infsh（inference.sh CLI）调用 Bash 的智能体（agent）工作流里。它重点在于生成自然听感的语音，以及对已有录音做语音变换，而不是做模型训练或数据集管理。

核心能力

从 CLI 进行文本转语音（TTS），使用 infsh app run ...
多个 AI 语音模型统一管理（例如 elevenlabs/tts、infsh/kokoro-tts）
通过 ElevenLabs Voice Changer 对已有录音进行 语音克隆 / 变声
支持多种声音和多语言（通过 ElevenLabs 模型，具体以上游描述为准）
长篇旁白，适用于配音、有声书和播客
使用为自然语音调优的模型，提供 对话风格与更具表现力的朗读

由于 ai-voice-cloning 是一个技能定义而不是独立应用，你是通过 inference.sh CLI 以及任何允许执行 Bash 命令的 agent 或工具与它交互。

适用人群

如果你符合以下情况，这个技能会比较适合：

从事 音频或视频制作，需要快速、可脚本化的语音生成
构建需要说话或旁白的 AI agents、CLI 工具或自动化流程
制作 配音、讲解视频、教程或培训视频
希望在单一 CLI 背后使用 ElevenLabs 级别音质 以及其他专用 TTS 模型
更偏好 命令行工作流 而非网页 GUI

不太适用的情况：

需要完全图形化界面、不想使用 CLI
希望从原始音频数据集训练自定义模型（本技能不涵盖）
要求完全在浏览器或本地设备上运行，不调用 inference.sh 服务

典型使用场景

为 YouTube 或营销视频生成 旁白音轨
从文本脚本生成 有声书或播客 语音
为对话和情景剧生成多种 角色声音
使用 ElevenLabs Voice Changer 对已有录音进行 变声 / 语音克隆
为 agents、机器人和交互式工具添加 语音提示和系统声音

使用方法

1. 先决条件与安装方式

使用 ai-voice-cloning 你需要：

访问 inference.sh CLI（infsh）
能连通 inference.sh API 的网络环境
允许执行 Bash 命令的 shell 环境

你可以通过以下命令将该技能集成进 agent 环境：

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

此命令会从 inferen-sh/skills 拉取技能定义，并完成注册，使你的 agent 可以调用相关工具（特别是通过 infsh 调用 Bash）。

如果你想在 agent 之外直接通过 CLI 使用，请先安装 inference.sh CLI 本身。技能的 SKILL.md 中提供了 CLI 安装说明链接：

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

按照该文档的步骤在系统上安装 infsh。

2. 登录 inference.sh

安装好 infsh 后，先进行认证：

infsh login

根据提示完成登录或按 CLI 安装指南配置凭据。

3. 快速上手：使用 Kokoro TTS 生成语音

SKILL.md 提供了一个简单的 Kokoro TTS 示例。登录后，你可以通过以下命令生成语音：

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

该命令会执行：

调用 infsh/kokoro-tts app
发送包含 prompt（要朗读的文本）和 voice（声音选择）的 JSON 输入
生成合成语音作为输出（具体输出路径或流式方式参见 CLI 文档）

你可以用不同的 prompt 和支持的 voice 值来套用这一调用模式。

4. 使用其他模型（ElevenLabs、DIA 等）

SKILL.md 在 Available Models 表格中列出了可用模型。根据已公开的内容，可以预期包括：

ElevenLabs TTS – App ID：elevenlabs/tts
ElevenLabs Voice Changer – App ID：elevenlabs/voice-changer
Kokoro TTS – App ID：infsh/kokoro-tts
DIA – App ID 以 infsh/dia-... 开头
以及 Chatterbox、Higgs、VibeVoice 等其他在技能描述中提到的模型

要调用不同的 app，只需在 CLI 命令中替换 App ID。例如，使用 ElevenLabs 做 TTS 的一个典型调用模式类似：

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

请参考仓库文档以及各模型的 README（如有）确认每个 app 的具体输入 schema，因为不同模型可能使用不同字段名，比如 prompt、text 或 voice_id。

5. 使用 ElevenLabs Voice Changer 进行变声 / 语音克隆

技能描述中特别提到用于处理已有录音的 ElevenLabs Voice Changer（App ID elevenlabs/voice-changer）。一个典型的 CLI 调用会：

指定输入音频文件（你的原始录音）
指定目标声音或相关设置
输出一段已变声的音频文件

通用调用模式类似：

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

具体字段及支持的格式请查看 inference.sh 上对应 app 的文档。

6. 将 ai-voice-cloning 集成进 agents

当你通过 npx skills add 添加 ai-voice-cloning 技能后，支持 inferen-sh/skills 格式的 agent 平台可以：

识别出 Bash（infsh *） 是允许使用的工具
使用 SKILL.md 中的示例和描述作为调用参考
自动生成合适的 infsh app run ... 命令，用于创建或变换音频

如需为你的 agent 进一步调优：

打开 tools/audio/ai-voice-cloning 目录下的 SKILL.md。
查看其中的示例、可用模型表以及关于使用场景的说明。
在你的 agent 配置或编排层中，添加自定义的 prompt 模板、声音选择方案或后处理步骤。

7. 仓库中值得查看的文件

如需更深入理解技能是如何定义以及推荐的使用方式，可查看：

tools/audio/ai-voice-cloning/SKILL.md – 核心说明、快速上手及模型列表
仓库根目录下的 README.md 与 cli-install.md – 关于 inference.sh 和 CLI 的通用安装与使用指南

tools 目录下可能还会有其它文档，帮助你了解更广泛的工具生态。

常见问题（FAQ）

ai-voice-cloning 是独立应用还是技能定义？

ai-voice-cloning 是 inferen-sh/skills 仓库中的一个 技能定义。它描述了 agent 如何通过 inference.sh CLI（infsh）执行 AI 语音生成和语音克隆。它本身不提供 GUI 应用，而是提供了一套清晰的方式，在命令行或能执行 Bash 的 agent 工作流中调用 TTS 和 voice changer 模型。

使用 ai-voice-cloning 需要安装什么？

你需要：

已安装并在 shell 中可用的 inference.sh CLI（infsh）
为 inference.sh 配置好的有效认证（通过 infsh login 设置）
一个允许执行 Bash 命令的环境（例如本地终端，或提供 Bash 的 agent 运行环境）

如果你要在支持 skills 格式的 agent 平台中集成此技能，可以使用：

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

支持哪些 AI 语音模型？

根据技能描述和 SKILL.md，ai-voice-cloning 设计用于配合 inference.sh 上的多种模型使用，包括：

ElevenLabs TTS – elevenlabs/tts
ElevenLabs Voice Changer – elevenlabs/voice-changer
Kokoro TTS – infsh/kokoro-tts
DIA 系列 TTS apps（App ID 以 infsh/dia-... 开头）
以及在描述中提到的 Chatterbox、Higgs、VibeVoice 等其他模型

最新、完整的模型列表及参数，请参见 SKILL.md 中的 Available Models 表格以及 inference.sh 官方文档。

ai-voice-cloning 能处理长篇旁白吗？

可以。技能明确标注适用于 长篇旁白，包括有声书、播客和视频解说等场景。但具体的长文本处理方式（如分段策略、最大文本长度、拼接行为等）取决于各个底层模型的限制以及 inference.sh 运行时。如果你需要处理非常长的脚本，建议先用较短片段测试，并参考相关模型文档。

这和直接使用 ElevenLabs 或其他服务商有何不同？

ai-voice-cloning 的特点在于：

通过 inference.sh CLI 提供统一接口
使用相似的 infsh app run ... 命令，便捷切换 多个 TTS 和 voice changer 模型
自然融入 agent 技能体系、Bash 脚本和自动化工作流

如果你已经直接使用某个服务商的原生 API，当你希望：

用 单一 CLI 抽象多个服务商与模型
更容易地与支持 skills 格式的 agent 框架 集成

ai-voice-cloning 仍然会有实际价值。

ai-voice-cloning 是否支持实时流式音频？

SKILL.md 片段主要介绍基于批处理的命令（infsh app run ...），没有明确说明实时流式能力。任何流式或低延迟选项都取决于 inference.sh 上具体 app 的实现，而不是技能包装本身。如果你的场景对实时输出有要求，请查阅你计划使用的模型在 inference.sh 上的文档。

ai-voice-cloning 输出的音频格式是什么？

最终输出格式（例如 wav、mp3）以及交付方式（本地文件、URL 等）由底层的 inference.sh apps 决定，如 infsh/kokoro-tts 或 elevenlabs/tts。该技能本身不会强制使用某种音频格式，而是定义 agent 如何调用这些模型。你可以参考各 app 文档或直接跑一次测试命令，确认默认输出行为。

在哪些情况下 ai-voice-cloning 不太适合？

如果你满足以下任一情况，可能需要考虑其他方案：

希望 完全无需 CLI、纯浏览器的工作流
需要 离线、本地设备上的 TTS，不依赖外部 API
重点是从大规模数据集训练自定义模型，而不是使用现成声音

这类需求下，可以考虑带 TTS 插件的桌面 DAW，或专门的本地 TTS 库。如果你的重点是通过 CLI 或 agents 做脚本化、自动化的 AI 语音生成，ai-voice-cloning 则非常适合。

在哪里了解更多配置与高级用法？

你可以从以下文档开始：

inferen-sh/skills 仓库中的 tools/audio/ai-voice-cloning/SKILL.md
SKILL.md 中引用的 CLI 安装文档：cli-install.md
inference.sh 上针对 infsh/kokoro-tts、elevenlabs/tts 等 apps 提供的模型专用文档

这些资源会提供最新的示例命令、参数说明和使用注意事项，补充本页面给出的快速上手模式。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

dialogue-audio

作者 inferen-sh

通过 inference.sh CLI，结合 Dia TTS 和 ElevenLabs，生成逼真的多说话人对话音频。dialogue-audio 技能可精细控制说话人、情绪、节奏和对话流，用于播客、有声书、讲解类内容、角色场景以及其他对话型音频内容。

语音生成

收藏 0GitHub 0

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言，同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

视频编辑

收藏 0GitHub 0

elevenlabs-dialogue

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，生成精致的多说话人对话音频。将结构化脚本转换为自然流畅的多角色对话，并输出到同一个音频文件，适用于播客、有声书、讲解视频、教程、角色对白和视频脚本等场景。

语音生成

收藏 0GitHub 0

ai-podcast-creation

作者 inferen-sh

使用 Kokoro TTS、DIA TTS 和 inference.sh CLI，将文本一键生成 AI 播客和语音内容。你可以混合多种声音、添加音乐，并拼接完整的播客节目、有声书和音频简报。

语音生成

收藏 0GitHub 0

elevenlabs-tts

作者 inferen-sh

通过 inference.sh CLI 使用 ElevenLabs 文本转语音（text-to-speech），提供 22+ 高品质声音、多语言支持以及适合生产环境的高性能语音生成模型。

语音生成

收藏 0GitHub 0

elevenlabs-voice-changer

作者 inferen-sh

ElevenLabs voice changer 技能通过 inference.sh CLI（infsh）将录制好的语音转换为另一种合成声音，同时尽可能保留原始内容与情绪表达。支持 eleven_multilingual_sts_v2（70+ 种语言）和 eleven_english_sts_v2，可用于语音转语音、多语言配音、口音变换、声音伪装等内容创作、配音与角色配音场景。

语音生成

收藏 0GitHub 0

elevenlabs-stt

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs Scribe v1/v2 模型，实现高精度语音转文本。支持转写、说话人分离、音频事件标注、逐词时间戳、强制对齐，以及适用于会议、播客和其他音频流程的字幕生成。

音频编辑

收藏 0GitHub 0

elevenlabs-music

作者 inferen-sh

通过 inference.sh CLI 和 ElevenLabs，根据文本提示生成原创 AI 音乐。你可以在终端中直接控制时长、风格和情绪，创作免版税的背景音乐、配乐、jingle、播客底音乐和游戏音频。

音频编辑

收藏 0GitHub 0