elevenlabs-voice-isolator
作者 inferen-sh基于 CLI 的 ElevenLabs 语音隔离技能,通过 inference.sh 去除背景噪音并从音频中分离人声。非常适合播客修音、访谈录音、音乐人声、嘈杂环境录音以及各类音频修复流程。
概览
elevenlabs-voice-isolator 是什么?
elevenlabs-voice-isolator 技能是一个命令行音频清理工具,通过 inference.sh (infsh) CLI 调用 ElevenLabs Voice Isolator 应用。它专注于从输入音频文件中去除背景噪声并隔离说话人声或歌声。
该技能作为可复用 skill 集成在 inferen-sh/skills 仓库中,只要你已配置好 infsh CLI,就可以在兼容的 agent 环境中调用,或直接在本地终端使用。
核心能力
通过 infsh 使用 ElevenLabs voice isolator 模型,这个技能可以:
- 去除环境背景噪声(房间底噪、电流声、车流、人群噪声等)
- 从嘈杂录音中隔离说话人声或主唱
- 清理播客轨道和访谈录音
- 提升在复杂环境下语音的可懂度
- 支持常见音频格式(WAV、MP3、FLAC、OGG、AAC)
- 处理较长录音(单文件最长约 1 小时、最大 500MB,参考技能文档说明)
适用人群
在以下场景中,你可以考虑使用 elevenlabs-voice-isolator:
- 录制 播客,希望在不做复杂手动降噪的情况下获得更干净的人声轨道
- 录制 远程访谈,需要减轻嘉宾端的背景噪声
- 处理 音乐 demo 或 vocal take,希望更好地分离人声线条
- 维护 音频资料库,需要基础的、以语音为中心的修复
- 搭建需要通过 CLI 实时清理音频的 AI agent 或自动化流程
如果你已经在用 ffmpeg 或某款 DAW,但希望在终端或 agent 中加入一个更高抽象层级的人声隔离步骤,这个技能可以很好地补位。
适用与不适用的场景
适用的情况:
- 你的主要目标是 人声隔离 或 语音清理,而不是多轨混音或复杂音频制作。
- 你习惯在命令行(CLI / Bash)中操作,能处理 URL 或本地文件。
- 你可以安装并完成 inference.sh CLI (
infsh) 的认证。
不太适用的情况:
- 你需要在 GUI DAW 中做深度编辑、多轨混音或复杂效果链。
- 你的工作流必须完全离线,无法使用
infshCLI 或外部模型调用。 - 你需要对 DSP 过程进行逐帧级的精细控制,而不是通过模型驱动的隔离器。
使用指南
前置条件
在使用 elevenlabs-voice-isolator 前,请确认:
-
已安装 inference.sh CLI (
infsh)- 技能的 quick start 会引用
infsh并提供 CLI 安装说明链接。 - 按照以下链接中的最新安装文档进行操作:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
- 技能的 quick start 会引用
-
可以通过 infsh 访问 ElevenLabs Voice Isolator 应用
- 技能通过
infsh app run调用elevenlabs/voice-isolator。
- 技能通过
-
环境支持 Bash
- 技能的
allowed-tools包含Bash(infsh *),因此主要面向 Bash shell 和 CLI 工作流设计。
- 技能的
在 agent skills 环境中的基础安装
如果你使用的环境支持 npx skills 和 inferen-sh/skills 仓库,可以用以下命令添加该技能:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator
这样 elevenlabs-voice-isolator 会和该仓库中的其他工具一起可用。添加后,你的 agent 或工具就能调用技能中定义的底层 infsh 命令。
登录 inference.sh
在执行任何语音隔离操作前,先完成 CLI 登录:
infsh login
按照提示完成登录。后续的 infsh app run 命令都依赖这一登录步骤。
运行一次简单的人声隔离
通过 infsh 使用 elevenlabs-voice-isolator 的基本调用方式如下:
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'
将 https://noisy-recording.mp3 替换成你自己的嘈杂音频文件 URL。应用会处理输入并返回响应(通常是 JSON),其中包含清理后音频的引用地址。
支持的音频格式与限制
根据技能文档,ElevenLabs voice isolator 支持:
- WAV – 最大 500MB,最长 1 小时
- MP3 – 最大 500MB,最长 1 小时
- FLAC – 最大 500MB,最长 1 小时
- OGG – 最大 500MB,最长 1 小时
- AAC – 最大 500MB,最长 1 小时
为了获得更稳定的表现,准备音频时尽量控制在上述体积和时长范围内。
示例:清理一段播客录音
下面的示例基本沿用技能 quick start 中的播客清理场景:
# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'
你可以将这一调用模式用于任意以说话为主的内容,以获得更清晰的旁白或对话。将文件托管在可通过 HTTPS 访问的位置(或参考当前 infsh 对本地文件的支持方式,在你的环境中进行相应调整)。
示例:清理访谈录音
如果你想改善带有房间噪声或街道环境声的访谈录音,只需替换输入 URL:
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'
你可以把这条命令集成进脚本,在剪辑前自动清理每一条新访谈录音。
与自有工具和 agents 集成
由于 elevenlabs-voice-isolator 在 inferen-sh/skills 中被定义为一个 skill:
- Agents:任何能调用
Bash(infsh *)的 AI agent,都可以把这个技能作为流水线中的一环使用(例如:隔离 → 转写 → 总结)。 - CLI 流水线:你可以在 shell 脚本、CI 工作流或批处理工具中封装
infsh app run elevenlabs/voice-isolator。 - 音频后期:将其作为预处理步骤,在导入 DAW 或编辑器(如 Audacity、Reaper、Adobe Audition)前先获得干净的人声文件。
推荐查看的文件与配置
在 inferen-sh/skills 仓库中,可以打开:
tools/audio/elevenlabs-voice-isolator/SKILL.md
该文件描述了技能本身、说明文案以及示例命令。技能文件本身不暴露复杂的用户级配置,但 CLI 和应用可能在 inference.sh 生态中有更多可配置项和参数说明,可在相关文档中查阅。
常见问题(FAQ)
elevenlabs-voice-isolator 实际会对我的音频做什么?
elevenlabs-voice-isolator 技能通过 inference.sh CLI 将你的音频发送给 ElevenLabs Voice Isolator 模型。模型会聚焦于分离和增强人声,同时降低背景噪声。输出结果是人声或歌声更清晰、底噪更低的音频,适用于播客、访谈等内容。
使用 elevenlabs-voice-isolator 是否必须安装 inference.sh CLI?
是的。公开的 quick start 显示,该技能通过 inference.sh CLI (infsh) 使用。你必须先安装并完成 infsh 的认证,才能运行示例命令,或将技能集成进 agent。
可以处理哪些音频格式?
根据技能文档,elevenlabs-voice-isolator 支持:
- WAV、MP3、FLAC、OGG 和 AAC
- 单文件最大 500MB、最长 1 小时
如果你的文件超过这些限制,请在处理前裁剪或降采样。
是否可以处理本地文件,而不是 URL?
SKILL.md 中的示例在 audio 字段中使用的是 HTTPS URL。本地路径是否受支持取决于当前 infsh 的能力和配置。请查阅最新版 inference.sh CLI 文档,了解如何引用本地文件(例如通过上传或特定本地路径约定),并按说明调整你的 --input 参数。
elevenlabs-voice-isolator 适合音乐制作吗?
它可用于 提取人声 或清理带噪声的 demo 录音,但并不是完整的音乐制作套件。更适合作为一个 预处理 或 实用工具 步骤,之后的精细混音和母带仍建议在 DAW 中完成。
它和传统 DAW 里的降噪功能有什么不同?
传统 DAW 降噪通常需要采集 noise print、手动调参并实时监听。elevenlabs-voice-isolator 是一种 基于模型的批处理流程,通过 CLI 访问:你提供一个音频文件,模型执行隔离和降噪,返回处理后的结果。这种方式非常适合自动化或批量清理,尤其适合与 agents 或脚本搭配使用。
如果我只想要简单的降噪,而不是人声隔离呢?
elevenlabs-voice-isolator 的重点是同时进行人声隔离和背景移除。如果你只需要基础的降噪或 EQ,本地的 ffmpeg 滤镜或 DAW 插件可能更简单。当你特别想要由 ElevenLabs 模型驱动的 人声分离 和 语音清晰度增强 时,再考虑使用这个技能。
哪里可以了解更多信息或排查问题?
如需获取最新、最准确的信息,可以:
- 在
inferen-sh/skills仓库中查看tools/audio/elevenlabs-voice-isolator/SKILL.md。 - 查阅同一仓库中的
cli-install.md,了解通用的infsh安装与使用指南。 - 参考 inference.sh 和 ElevenLabs 的官方文档,了解各自关于配额限制、认证方式和错误码的说明。
如果遇到错误,建议优先检查:infsh login 是否成功、音频 URL 是否可访问、文件格式及大小/时长是否在支持范围内。
