elevenlabs-tts
作者 inferen-sh通过 inference.sh CLI 使用 ElevenLabs 文本转语音(text-to-speech),提供 22+ 高品质声音、多语言支持以及适合生产环境的高性能语音生成模型。
概览
elevenlabs-tts 是什么?
elevenlabs-tts 技能将 ElevenLabs 文本转语音 API 接入 inference.sh (infsh) CLI,为你提供一种快速、可脚本化的方式,将文本转换为高质量语音。它把 ElevenLabs 的模型与声音选项,封装为 inferen-sh 技能生态中的一个可复用工具。
该技能重点提供高级、自然的发音效果,支持 32 种语言,并提供多种性能档位,方便你在最高音质和超低延迟之间自由取舍。
核心能力
- 从纯文本进行 文本转语音(TTS)生成
- 通过 CLI 访问 22+ 高品质声音
- 模型选择,以满足不同的速度/质量需求:
eleven_multilingual_v2– 最高质量,多语言eleven_turbo_v2_5– 速度与质量平衡eleven_flash_v2_5– 超快,低延迟
- 从 ElevenLabs 声音库中进行 声音选择
- 为使用
infsh的 CLI 与自动化流程 而设计
elevenlabs-tts 适合谁?
该技能适用于:
- 已经在用,或习惯使用 命令行界面(CLI) 的用户
- 希望 自动化 或批量生成配音和解说的用户
- 需要在多个项目中使用 一致、可复用声音 的团队
- 工作流已在 inference.sh / inferen-sh skills 生态内的用户
典型使用者包括:
- 需要为 YouTube、产品演示、说明视频制作 配音 的视频剪辑师和内容创作者
- 生成节目 片头、片尾和板块 的播客与音频制作人
- 制作 课程解说 的教学与培训团队
- 构建 IVR、智能助手或无障碍功能,需要自然语音输出的开发者
什么时候适合用 elevenlabs-tts?
在以下场景中使用 elevenlabs-tts 更合适:
- 需要 稳定、可用于生产环境的声音,而非实验性模型
- 想要 完全通过 CLI 操作,而不是依赖 Web UI
- 需要将 TTS 生成 脚本化或定时化,集成到 CI、流水线或批处理任务中
- 已在使用或愿意安装 inference.sh CLI(
infsh)
以下情况可能不太适合使用:
- 仅想要一个 点选式 Web 界面 做纯手工操作
- 需要在技能内部实现 精细音频编辑(剪辑、混音、特效);在这里你只负责生成音频,后续需在 DAW 中再次编辑(如 Audacity、Reaper、Premiere)
- 你的环境中无法使用外部 CLI 或访问外网
使用指南
使用前准备
在使用 elevenlabs-tts 前,请确认你已经:
- 安装了 inference.sh CLI(
infsh) - 已配置好可用的 infsh 登录
- 通过 inference.sh 获得对 ElevenLabs TTS app 的访问权限
CLI 的安装说明可以在仓库中由 SKILL.md 引用的 cli-install.md 文件中找到。
步骤一 – 安装 elevenlabs-tts 技能
在兼容的 Agent Skills / inferen-sh 环境中添加技能:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-tts
此命令会从 inferen-sh/skills 仓库拉取 elevenlabs-tts 技能,并进行注册,之后你的 agents 或工作流就可以调用它。
步骤二 – 使用 inference.sh CLI 登录
该技能依赖 infsh CLI 与 ElevenLabs 后端交互。
infsh login
按照提示完成认证。登录成功后,CLI 即可代表你运行 ElevenLabs 的 TTS app。
步骤三 – 运行一次基础的文本转语音
体验 elevenlabs-tts 的最快方式,是直接通过 infsh 调用 ElevenLabs TTS app:
infsh app run elevenlabs/tts --input '{"text": "Hello, welcome to our product demo.", "voice": "aria"}'
该示例会:
- 发送文本
"Hello, welcome to our product demo." - 使用
"aria"声音(来自 ElevenLabs 声音库的示例 voice ID) - 返回生成的语音音频(具体是文件还是流,取决于你的 infsh 配置)
一旦技能集成完成,你的 agents 也可以以编程方式调用同样的能力。
步骤四 – 选择合适的 ElevenLabs 模型
elevenlabs-tts 技能支持多种模型,每种都针对不同的音质与延迟平衡进行了优化:
-
eleven_multilingual_v2- 适用场景:追求 最高音质、长篇内容以及 32 种语言 支持
- 常见用途:有声书、课程解说、品牌配音
-
eleven_turbo_v2_5- 适用场景:在 音质与速度之间平衡
- 常见用途:产品演示、营销视频、内部培训内容
-
eleven_flash_v2_5- 适用场景:对 超低延迟、响应速度要求极高的应用
- 常见用途:需要快速响应的聊天机器人、助手、IVR 系统
具体如何指定模型,取决于你的 infsh app run 配置或 agent 的接线方式。请查看本地工具链文档,了解在使用该技能时如何将模型 ID 作为参数传入。
步骤五 – 集成到你的工作流
安装并测试完成后,你可以:
- 将 elevenlabs-tts 接入 agent 提示词,让文本回复自动转成语音
- 在 CLI 脚本 中使用它,按清单批量将文本文件转为配音
- 把它添加到 CI 流水线 中,在文档或脚本变更时自动生成最新解说音频
如需了解技能定义及辅助逻辑的更多细节,可查看仓库中的以下文件:
tools/audio/elevenlabs-tts/SKILL.md
该文件记录了技能元数据、描述,以及关于允许使用工具的说明(目前通过 infsh 允许使用 Bash)。
常见问题(FAQ)
elevenlabs-tts 技能具体是做什么的?
elevenlabs-tts 技能为 agents 和 CLI 工作流提供了一条预配置好的路径,通过 inference.sh CLI 调用 ElevenLabs 文本转语音服务。它专注于将纯文本生成 自然、清晰的语音音频,并提供多种模型与声音可供选择。
使用 elevenlabs-tts 一定要装 inference.sh CLI 吗?
是的。仓库的 SKILL.md 明确指出需要 infsh 和 inference.sh CLI。你必须先安装 CLI,执行 infsh login,并确保它可以访问 elevenlabs/tts app。
elevenlabs-tts 最适合用于哪些项目?
该技能尤其适合:
- 为产品演示、教程、营销视频制作 配音
- 制作 有声书和长篇解说,特别是使用
eleven_multilingual_v2 - 在线教育与培训 内容解说
- 播客与预告片(片头、片尾、脚本化片段)
- 需要清晰自然声音的 无障碍和 IVR 系统
elevenlabs-tts 能用于实时场景吗?
对于对响应速度要求更高的场景,建议使用 eleven_turbo_v2_5 或 eleven_flash_v2_5,它们相较最高音质的多语言模型在延迟方面做了优化。是否能达到真正意义上的“实时”,还取决于你的网络环境和集成方式,但这些模型是为 更快响应 而设计的。
elevenlabs-tts 支持多少种声音?
SKILL.md 中的技能描述指出,支持 22+ 高品质声音。在调用 infsh app run elevenlabs/tts 或在 agent 中接入该技能时,可以通过 voice 字段(例如 "aria")来选择具体声音。
elevenlabs-tts 是否支持多语言?
支持。eleven_multilingual_v2 模型被描述为支持 32 种语言,因此 elevenlabs-tts 非常适合做多语言解说和面向全球市场的产品语音。其他模型则更偏向延迟优化,但通过 ElevenLabs 通常也能获得较广的语言覆盖。
哪里可以看到技能的配置方式?
在 inferen-sh/skills 仓库中查看:
tools/audio/elevenlabs-tts/SKILL.md
该文件包含技能的官方说明、允许使用的工具,以及 inference.sh CLI 安装信息的引用。
我能在 elevenlabs-tts 里直接编辑音频吗?
不能。elevenlabs-tts 的重点是 音频生成,而不是编辑。一般流程是:
- 使用 elevenlabs-tts 从文本生成干净的语音音频;
- 将音频导入 DAW 或视频编辑软件(如 Audacity、Reaper、Premiere、Resolve)进行剪辑、混音和添加效果。
如果我只想用 Web UI,不想用 CLI 怎么办?
如果你更倾向于纯 Web 体验,那么 elevenlabs-tts 可能不太适合,因为它围绕 inference.sh CLI 和 agent skills 生态构建。在这种情况下,可以考虑使用 ElevenLabs 自带的 Web 控制台,或其他更偏 UI 的工具。
