elevenlabs-voice-changer

作者 inferen-sh

ElevenLabs voice changer 技能通过 inference.sh CLI（infsh）将录制好的语音转换为另一种合成声音，同时尽可能保留原始内容与情绪表达。支持 eleven_multilingual_sts_v2（70+ 种语言）和 eleven_english_sts_v2，可用于语音转语音、多语言配音、口音变换、声音伪装等内容创作、配音与角色配音场景。

Stars0

收录时间2026年3月27日

分类语音生成

安装命令

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

音频视频

概览

elevenlabs-voice-changer 是什么？

elevenlabs-voice-changer 是一个将 ElevenLabs speech-to-speech voice changer 接入 inference.sh 命令行工具（infsh）的技能。它可以接收一段已有的音频录音，并返回同样内容与情绪、但使用另一种合成声音的音频。

在底层，这个技能通过 infsh app run elevenlabs/voice-changer 调用 ElevenLabs 的 voice-changer 应用，因此你无需自己对接 API。你只需描述输入音频和目标声音，服务就会返回转换后的音频。

核心能力

Speech-to-speech 转换 – 将任意语音音频转换为新声音，无需重新录制。
多语言支持（70+ 种语言） – 通过 eleven_multilingual_sts_v2。
英语优化模型 – 通过 eleven_english_sts_v2 获得更高质量的英文效果。
口音与风格切换 – 使用 ElevenLabs 的 premium voices 更换口音、语气或人物形象。
声音伪装与隐私保护 – 对公开内容中的真实声音进行匿名化或遮蔽。

适合哪些使用场景？

如果你符合以下情况，这个技能会比较适合：

制作 YouTube、TikTok 或其他社交媒体 内容，希望更换或升级旁白声音。
进行 播客或配音 制作，需要快速切换语言、口音或声音。
从事 营销或产品解说，希望拥有多种品牌声音，又不想反复聘请不同配音演员。
构建 AI 角色或 Demo，需要稳定、可复用的声音形象。

以下情况则 不太适合 使用本技能：

需要完全可视化的 GUI 流程和时间线编辑（本技能以 CLI 为主）。
必须在完全离线的环境运行（依赖 inference.sh 和云端的 ElevenLabs 服务）。
需要精细的音频工程能力，如 EQ、混音或多轨编辑；本技能专注于 语音转换，并非完整的 DAW 级音频制作工具。

模型与声音选项

elevenlabs-voice-changer 技能暴露的模型与仓库中描述的一致：

Multilingual STS v2 – 模型 ID：eleven_multilingual_sts_v2（默认，支持 70+ 种语言）。
English STS v2 – 模型 ID：eleven_english_sts_v2（针对英文语音优化）。

它可以使用 ElevenLabs TTS 产品中同样提供的 22+ 个 premium voices，包括文档默认示例中的：

george – 英式口音，权威风格（文档默认声音）。
aria – 美式口音，日常对话风格。

你可以在调用应用时，通过传入 voice 参数来选择这些声音。

使用指南

1. 前置条件与安装

在使用 elevenlabs-voice-changer 前，需要先安装并完成 inference.sh CLI 的登录认证。

安装 inference.sh CLI（infsh）
按照官方仓库中的说明进行安装：
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
登录 inference.sh，使用你的账号执行：
```
infsh login
```
添加技能（Agent Skills Finder / skills registry）
如果你在技能集合中使用本技能，可以通过以下命令添加：
```
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
```

完成以上步骤后，你的环境就可以通过 infsh 调用 ElevenLabs voice changer 应用了。

2. 基础语音转换示例

体验 elevenlabs-voice-changer 的最快方式，是运行技能文档中提供的示例：

infsh login

# Transform voice
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

在这个示例中：

audio 是指向输入录音的 URL（例如托管在网上的 .mp3 文件）。
voice 是目标 ElevenLabs voice 的 ID（此处为 aria）。

应用会处理这段录音，并返回一段新的音频，语音内容保持不变，但声音变为 aria 的音色。

3. 选择模型与语言

默认情况下，本技能配置为使用：

eleven_multilingual_sts_v2，用于覆盖 70+ 种语言。

如果你的场景仅涉及英文，并希望使用更适合英文的模型，可在应用输入或工作流中配置：

eleven_english_sts_v2，以获得更清晰的英文发音和韵律。

具体选择模型的字段由 ElevenLabs 应用自身配置处理，但在选择时需要使用这些在技能文档中提到的模型 ID。

4. 切换不同声音和口音

要尝试不同的口音或风格，只需在 --input 的 JSON 中更改 voice 参数。

示例（模式）：

# British, authoritative
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'

# American, conversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

你可以对同一段原始音频多次运行命令，使用不同的 voice ID，快速为项目试音、比较不同声音效果。

5. 集成到你的工作流程

由于 elevenlabs-voice-changer 完全通过 CLI 运行，非常适合集成进脚本化或自动化的流程中：

批量处理 – 对一批音频 URL 或预上传的录音进行循环调用 infsh app run。
内容本地化 – 录制一次原始旁白，然后为不同市场转换为不同口音或声音。
声音匿名化 – 在发布前对录音电话、访谈或用户投稿进行后处理，保护隐私。

如果你使用更大的 agent 框架或编排系统，可以在需要“语音转换”或“配音”的流程节点调用此技能。

6. 仓库中值得查看的文件

在 inferen-sh/skills 仓库中打开该技能时，建议先查看：

SKILL.md – 提供高层概览、功能说明，以及可直接复制修改的快速启动命令。

技能仓库中的其他常见文件（例如 AGENTS.md、metadata.json 以及在其他工具中常见的 rules/、scripts/ 等目录），展示了技能如何融入更大的 agent 工作流。对于 elevenlabs-voice-changer 而言，SKILL.md 是主要文档。

常见问题（FAQ）

elevenlabs-voice-changer 具体能做什么？

elevenlabs-voice-changer 通过 inference.sh CLI 调用 ElevenLabs 的 speech-to-speech 模型，将已有的语音录音转换为另一种 AI 合成声音。它会尽量保留原文内容和情绪表达，只改变声音的音色和风格。

如何安装 elevenlabs-voice-changer？

你无需将该技能作为独立应用安装，而是按以下步骤配置环境：

按照以下说明安装 infsh CLI：
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
运行 infsh login 完成认证。

（可选）在你的技能配置中注册本技能：

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

完成后，你就可以通过 infsh app run elevenlabs/voice-changer 调用 ElevenLabs voice changer 应用。

使用这个技能需要 ElevenLabs 账号吗？

本技能本质上是对通过 inference.sh 运行的 ElevenLabs 模型的一层封装。关于 ElevenLabs 使用中的账号、额度或配额等要求，均由你的 inference.sh 与 ElevenLabs 账号配置决定。请参考 inference.sh 和 ElevenLabs 的官方文档，了解最新的访问权限与计费规则。

我可以在本地、完全离线运行 elevenlabs-voice-changer 吗？

仓库文档展示的是通过 infsh 调用线上 ElevenLabs 应用的用法，并未提供完全离线模式的说明。通常需要访问 inference.sh 和 ElevenLabs 后端的网络连接。

输入可以使用哪些音频格式？

示例中使用的是通过 HTTP 提供的 .mp3 文件（"https://recording.mp3"）。具体支持的格式和大小限制由 ElevenLabs 应用本身决定。为获得更稳定的结果，建议使用常见的 Web 音频格式（如 mp3），并确保 URL 稳定可访问。

我可以使用自定义声音吗？

技能描述主要围绕 ElevenLabs 提供的标准声音集合（22+ 个 premium voices），例如 george 和 aria。并未说明自定义声音训练的流程。如果你需要专属定制声音，请查阅 ElevenLabs 自身文档，了解自定义声音如何与其 speech-to-speech 应用集成。

适合做实时变声吗？

仓库展示的是通过 CLI 的 文件式 speech-to-speech 使用方式：你提供一段录制好的文件 URL，然后获得处理后的文件。文档没有描述实时或通话中的即时变声能力，因此应将其视为一种 异步、基于文件 的工具，而不是实时变声器。

在哪些情况下不建议使用 elevenlabs-voice-changer？

如果你有以下需求，可以考虑其他工具：

需要完整的 DAW 或非线性编辑器，用于精细的混音和母带处理。
需要面向直播或游戏的实时、低延迟变声效果。
必须在完全离线、无云服务的环境中运行所有流程。

如果是希望通过 CLI 实现脚本化、可重复的 speech-to-speech 语音转换，elevenlabs-voice-changer 会非常适用。

在哪里查看或修改配置？

在 GitHub 上打开 inferen-sh/skills 仓库中的该技能路径：

tools/audio/elevenlabs-voice-changer/

查看其中的 SKILL.md，即可了解官方快速上手命令、可用模型与声音选项，并根据你的环境调整示例命令。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

memory-safety-patterns

作者 wshobson

通过 RAII、所有权、智能指针和资源管理，在 Rust、C++ 和 C 中实现内存安全编程。使用 memory-safety-patterns 预防内存错误，编写更安全的系统代码。

前端开发

收藏 0GitHub 0

vector-index-tuning

作者 wshobson

优化向量索引的延迟、召回率和内存表现。非常适合调优 HNSW 参数、选择量化策略，以及扩展 AI 和后端应用中的向量搜索基础设施。

后端开发

收藏 0GitHub 0

visual-design-foundations

作者 wshobson

掌握排版、色彩、间距和图标设计，打造一致且无障碍的 UI 界面。安装 visual-design-foundations，建立设计标记、样式指南，提升视觉层次感。

UI 设计

收藏 0GitHub 0

distill

作者 pbakaus

distill 技能帮助设计师和开发者通过去除不必要的复杂性、视觉噪音和冗余元素来简化用户界面。非常适合清理杂乱、聚焦 UI 设计。

UI 设计

收藏 0GitHub 0

api-design-principles

作者 wshobson

api-design-principles 帮助团队掌握 REST 和 GraphQL API 设计，提供可扩展、易维护 API 的检查清单、模板和参考资料。

API 开发

收藏 0GitHub 3.2万

test-xss

作者 roin-orca

安装并使用 test-xss 对 Web 应用进行 XSS 漏洞审计，附带实用的攻击载荷示例。

安全审计

收藏 0GitHub 0

overdrive

作者 pbakaus

利用着色器、物理模拟和高性能动画等先进前端技术，将网页界面推向传统极限之外。非常适合旨在打造非凡、电影感强且高度互动用户体验的项目。

前端开发

收藏 0GitHub 0

workflow-orchestration-patterns

作者 wshobson

学习如何使用 Temporal 设计分布式系统中具有弹性和长运行时间的工作流。涵盖工作流与活动的分离、Saga 模式、状态管理和确定性约束。非常适合后端和微服务编排。

后端开发

收藏 0GitHub 0