elevenlabs-voice-changer
作者 inferen-shElevenLabs voice changer 技能通过 inference.sh CLI(infsh)将录制好的语音转换为另一种合成声音,同时尽可能保留原始内容与情绪表达。支持 eleven_multilingual_sts_v2(70+ 种语言)和 eleven_english_sts_v2,可用于语音转语音、多语言配音、口音变换、声音伪装等内容创作、配音与角色配音场景。
概览
elevenlabs-voice-changer 是什么?
elevenlabs-voice-changer 是一个将 ElevenLabs speech-to-speech voice changer 接入 inference.sh 命令行工具(infsh)的技能。它可以接收一段已有的音频录音,并返回同样内容与情绪、但使用另一种合成声音的音频。
在底层,这个技能通过 infsh app run elevenlabs/voice-changer 调用 ElevenLabs 的 voice-changer 应用,因此你无需自己对接 API。你只需描述输入音频和目标声音,服务就会返回转换后的音频。
核心能力
- Speech-to-speech 转换 – 将任意语音音频转换为新声音,无需重新录制。
- 多语言支持(70+ 种语言) – 通过
eleven_multilingual_sts_v2。 - 英语优化模型 – 通过
eleven_english_sts_v2获得更高质量的英文效果。 - 口音与风格切换 – 使用 ElevenLabs 的 premium voices 更换口音、语气或人物形象。
- 声音伪装与隐私保护 – 对公开内容中的真实声音进行匿名化或遮蔽。
适合哪些使用场景?
如果你符合以下情况,这个技能会比较适合:
- 制作 YouTube、TikTok 或其他社交媒体 内容,希望更换或升级旁白声音。
- 进行 播客或配音 制作,需要快速切换语言、口音或声音。
- 从事 营销或产品解说,希望拥有多种品牌声音,又不想反复聘请不同配音演员。
- 构建 AI 角色或 Demo,需要稳定、可复用的声音形象。
以下情况则 不太适合 使用本技能:
- 需要完全可视化的 GUI 流程和时间线编辑(本技能以 CLI 为主)。
- 必须在完全离线的环境运行(依赖 inference.sh 和云端的 ElevenLabs 服务)。
- 需要精细的音频工程能力,如 EQ、混音或多轨编辑;本技能专注于 语音转换,并非完整的 DAW 级音频制作工具。
模型与声音选项
elevenlabs-voice-changer 技能暴露的模型与仓库中描述的一致:
- Multilingual STS v2 – 模型 ID:
eleven_multilingual_sts_v2(默认,支持 70+ 种语言)。 - English STS v2 – 模型 ID:
eleven_english_sts_v2(针对英文语音优化)。
它可以使用 ElevenLabs TTS 产品中同样提供的 22+ 个 premium voices,包括文档默认示例中的:
george– 英式口音,权威风格(文档默认声音)。aria– 美式口音,日常对话风格。
你可以在调用应用时,通过传入 voice 参数来选择这些声音。
使用指南
1. 前置条件与安装
在使用 elevenlabs-voice-changer 前,需要先安装并完成 inference.sh CLI 的登录认证。
-
安装 inference.sh CLI(
infsh)
按照官方仓库中的说明进行安装:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
登录 inference.sh,使用你的账号执行:
infsh login -
添加技能(Agent Skills Finder / skills registry)
如果你在技能集合中使用本技能,可以通过以下命令添加:npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
完成以上步骤后,你的环境就可以通过 infsh 调用 ElevenLabs voice changer 应用了。
2. 基础语音转换示例
体验 elevenlabs-voice-changer 的最快方式,是运行技能文档中提供的示例:
infsh login
# Transform voice
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
在这个示例中:
audio是指向输入录音的 URL(例如托管在网上的.mp3文件)。voice是目标 ElevenLabs voice 的 ID(此处为aria)。
应用会处理这段录音,并返回一段新的音频,语音内容保持不变,但声音变为 aria 的音色。
3. 选择模型与语言
默认情况下,本技能配置为使用:
eleven_multilingual_sts_v2,用于覆盖 70+ 种语言。
如果你的场景仅涉及英文,并希望使用更适合英文的模型,可在应用输入或工作流中配置:
eleven_english_sts_v2,以获得更清晰的英文发音和韵律。
具体选择模型的字段由 ElevenLabs 应用自身配置处理,但在选择时需要使用这些在技能文档中提到的模型 ID。
4. 切换不同声音和口音
要尝试不同的口音或风格,只需在 --input 的 JSON 中更改 voice 参数。
示例(模式):
# British, authoritative
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'
# American, conversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
你可以对同一段原始音频多次运行命令,使用不同的 voice ID,快速为项目试音、比较不同声音效果。
5. 集成到你的工作流程
由于 elevenlabs-voice-changer 完全通过 CLI 运行,非常适合集成进脚本化或自动化的流程中:
- 批量处理 – 对一批音频 URL 或预上传的录音进行循环调用
infsh app run。 - 内容本地化 – 录制一次原始旁白,然后为不同市场转换为不同口音或声音。
- 声音匿名化 – 在发布前对录音电话、访谈或用户投稿进行后处理,保护隐私。
如果你使用更大的 agent 框架或编排系统,可以在需要“语音转换”或“配音”的流程节点调用此技能。
6. 仓库中值得查看的文件
在 inferen-sh/skills 仓库中打开该技能时,建议先查看:
SKILL.md– 提供高层概览、功能说明,以及可直接复制修改的快速启动命令。
技能仓库中的其他常见文件(例如 AGENTS.md、metadata.json 以及在其他工具中常见的 rules/、scripts/ 等目录),展示了技能如何融入更大的 agent 工作流。对于 elevenlabs-voice-changer 而言,SKILL.md 是主要文档。
常见问题(FAQ)
elevenlabs-voice-changer 具体能做什么?
elevenlabs-voice-changer 通过 inference.sh CLI 调用 ElevenLabs 的 speech-to-speech 模型,将已有的语音录音转换为另一种 AI 合成声音。它会尽量保留原文内容和情绪表达,只改变声音的音色和风格。
如何安装 elevenlabs-voice-changer?
你无需将该技能作为独立应用安装,而是按以下步骤配置环境:
-
按照以下说明安装
infshCLI:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
运行
infsh login完成认证。 -
(可选)在你的技能配置中注册本技能:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
完成后,你就可以通过 infsh app run elevenlabs/voice-changer 调用 ElevenLabs voice changer 应用。
使用这个技能需要 ElevenLabs 账号吗?
本技能本质上是对通过 inference.sh 运行的 ElevenLabs 模型的一层封装。关于 ElevenLabs 使用中的账号、额度或配额等要求,均由你的 inference.sh 与 ElevenLabs 账号配置决定。请参考 inference.sh 和 ElevenLabs 的官方文档,了解最新的访问权限与计费规则。
我可以在本地、完全离线运行 elevenlabs-voice-changer 吗?
仓库文档展示的是通过 infsh 调用线上 ElevenLabs 应用的用法,并 未 提供完全离线模式的说明。通常需要访问 inference.sh 和 ElevenLabs 后端的网络连接。
输入可以使用哪些音频格式?
示例中使用的是通过 HTTP 提供的 .mp3 文件("https://recording.mp3")。具体支持的格式和大小限制由 ElevenLabs 应用本身决定。为获得更稳定的结果,建议使用常见的 Web 音频格式(如 mp3),并确保 URL 稳定可访问。
我可以使用自定义声音吗?
技能描述主要围绕 ElevenLabs 提供的标准声音集合(22+ 个 premium voices),例如 george 和 aria。并未说明自定义声音训练的流程。如果你需要专属定制声音,请查阅 ElevenLabs 自身文档,了解自定义声音如何与其 speech-to-speech 应用集成。
适合做实时变声吗?
仓库展示的是通过 CLI 的 文件式 speech-to-speech 使用方式:你提供一段录制好的文件 URL,然后获得处理后的文件。文档没有描述实时或通话中的即时变声能力,因此应将其视为一种 异步、基于文件 的工具,而不是实时变声器。
在哪些情况下不建议使用 elevenlabs-voice-changer?
如果你有以下需求,可以考虑其他工具:
- 需要完整的 DAW 或非线性编辑器,用于精细的混音和母带处理。
- 需要面向直播或游戏的实时、低延迟变声效果。
- 必须在完全离线、无云服务的环境中运行所有流程。
如果是希望通过 CLI 实现脚本化、可重复的 speech-to-speech 语音转换,elevenlabs-voice-changer 会非常适用。
在哪里查看或修改配置?
在 GitHub 上打开 inferen-sh/skills 仓库中的该技能路径:
tools/audio/elevenlabs-voice-changer/
查看其中的 SKILL.md,即可了解官方快速上手命令、可用模型与声音选项,并根据你的环境调整示例命令。
