I

elevenlabs-voice-isolator

作者 inferen-sh

基于 CLI 的 ElevenLabs 语音隔离技能,通过 inference.sh 去除背景噪音并从音频中分离人声。非常适合播客修音、访谈录音、音乐人声、嘈杂环境录音以及各类音频修复流程。

Stars232
收藏0
评论0
收录时间2026年3月27日
分类音频编辑
安装命令
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator
概览

概览

elevenlabs-voice-isolator 是什么?

elevenlabs-voice-isolator 技能是一个命令行音频清理工具,通过 inference.sh (infsh) CLI 调用 ElevenLabs Voice Isolator 应用。它专注于从输入音频文件中去除背景噪声并隔离说话人声或歌声。

该技能作为可复用 skill 集成在 inferen-sh/skills 仓库中,只要你已配置好 infsh CLI,就可以在兼容的 agent 环境中调用,或直接在本地终端使用。

核心能力

通过 infsh 使用 ElevenLabs voice isolator 模型,这个技能可以:

  • 去除环境背景噪声(房间底噪、电流声、车流、人群噪声等)
  • 从嘈杂录音中隔离说话人声或主唱
  • 清理播客轨道和访谈录音
  • 提升在复杂环境下语音的可懂度
  • 支持常见音频格式(WAV、MP3、FLAC、OGG、AAC)
  • 处理较长录音(单文件最长约 1 小时、最大 500MB,参考技能文档说明)

适用人群

在以下场景中,你可以考虑使用 elevenlabs-voice-isolator:

  • 录制 播客,希望在不做复杂手动降噪的情况下获得更干净的人声轨道
  • 录制 远程访谈,需要减轻嘉宾端的背景噪声
  • 处理 音乐 demo 或 vocal take,希望更好地分离人声线条
  • 维护 音频资料库,需要基础的、以语音为中心的修复
  • 搭建需要通过 CLI 实时清理音频的 AI agent 或自动化流程

如果你已经在用 ffmpeg 或某款 DAW,但希望在终端或 agent 中加入一个更高抽象层级的人声隔离步骤,这个技能可以很好地补位。

适用与不适用的场景

适用的情况:

  • 你的主要目标是 人声隔离语音清理,而不是多轨混音或复杂音频制作。
  • 你习惯在命令行(CLI / Bash)中操作,能处理 URL 或本地文件。
  • 你可以安装并完成 inference.sh CLI (infsh) 的认证。

不太适用的情况:

  • 你需要在 GUI DAW 中做深度编辑、多轨混音或复杂效果链。
  • 你的工作流必须完全离线,无法使用 infsh CLI 或外部模型调用。
  • 你需要对 DSP 过程进行逐帧级的精细控制,而不是通过模型驱动的隔离器。

使用指南

前置条件

在使用 elevenlabs-voice-isolator 前,请确认:

  1. 已安装 inference.sh CLI (infsh)

    • 技能的 quick start 会引用 infsh 并提供 CLI 安装说明链接。
    • 按照以下链接中的最新安装文档进行操作:
      • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
  2. 可以通过 infsh 访问 ElevenLabs Voice Isolator 应用

    • 技能通过 infsh app run 调用 elevenlabs/voice-isolator
  3. 环境支持 Bash

    • 技能的 allowed-tools 包含 Bash(infsh *),因此主要面向 Bash shell 和 CLI 工作流设计。

在 agent skills 环境中的基础安装

如果你使用的环境支持 npx skillsinferen-sh/skills 仓库,可以用以下命令添加该技能:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

这样 elevenlabs-voice-isolator 会和该仓库中的其他工具一起可用。添加后,你的 agent 或工具就能调用技能中定义的底层 infsh 命令。

登录 inference.sh

在执行任何语音隔离操作前,先完成 CLI 登录:

infsh login

按照提示完成登录。后续的 infsh app run 命令都依赖这一登录步骤。

运行一次简单的人声隔离

通过 infsh 使用 elevenlabs-voice-isolator 的基本调用方式如下:

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'

https://noisy-recording.mp3 替换成你自己的嘈杂音频文件 URL。应用会处理输入并返回响应(通常是 JSON),其中包含清理后音频的引用地址。

支持的音频格式与限制

根据技能文档,ElevenLabs voice isolator 支持:

  • WAV – 最大 500MB,最长 1 小时
  • MP3 – 最大 500MB,最长 1 小时
  • FLAC – 最大 500MB,最长 1 小时
  • OGG – 最大 500MB,最长 1 小时
  • AAC – 最大 500MB,最长 1 小时

为了获得更稳定的表现,准备音频时尽量控制在上述体积和时长范围内。

示例:清理一段播客录音

下面的示例基本沿用技能 quick start 中的播客清理场景:

# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'

你可以将这一调用模式用于任意以说话为主的内容,以获得更清晰的旁白或对话。将文件托管在可通过 HTTPS 访问的位置(或参考当前 infsh 对本地文件的支持方式,在你的环境中进行相应调整)。

示例:清理访谈录音

如果你想改善带有房间噪声或街道环境声的访谈录音,只需替换输入 URL:

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'

你可以把这条命令集成进脚本,在剪辑前自动清理每一条新访谈录音。

与自有工具和 agents 集成

由于 elevenlabs-voice-isolator 在 inferen-sh/skills 中被定义为一个 skill:

  • Agents:任何能调用 Bash(infsh *) 的 AI agent,都可以把这个技能作为流水线中的一环使用(例如:隔离 → 转写 → 总结)。
  • CLI 流水线:你可以在 shell 脚本、CI 工作流或批处理工具中封装 infsh app run elevenlabs/voice-isolator
  • 音频后期:将其作为预处理步骤,在导入 DAW 或编辑器(如 Audacity、Reaper、Adobe Audition)前先获得干净的人声文件。

推荐查看的文件与配置

inferen-sh/skills 仓库中,可以打开:

  • tools/audio/elevenlabs-voice-isolator/SKILL.md

该文件描述了技能本身、说明文案以及示例命令。技能文件本身不暴露复杂的用户级配置,但 CLI 和应用可能在 inference.sh 生态中有更多可配置项和参数说明,可在相关文档中查阅。

常见问题(FAQ)

elevenlabs-voice-isolator 实际会对我的音频做什么?

elevenlabs-voice-isolator 技能通过 inference.sh CLI 将你的音频发送给 ElevenLabs Voice Isolator 模型。模型会聚焦于分离和增强人声,同时降低背景噪声。输出结果是人声或歌声更清晰、底噪更低的音频,适用于播客、访谈等内容。

使用 elevenlabs-voice-isolator 是否必须安装 inference.sh CLI?

是的。公开的 quick start 显示,该技能通过 inference.sh CLI (infsh) 使用。你必须先安装并完成 infsh 的认证,才能运行示例命令,或将技能集成进 agent。

可以处理哪些音频格式?

根据技能文档,elevenlabs-voice-isolator 支持:

  • WAV、MP3、FLAC、OGG 和 AAC
  • 单文件最大 500MB、最长 1 小时

如果你的文件超过这些限制,请在处理前裁剪或降采样。

是否可以处理本地文件,而不是 URL?

SKILL.md 中的示例在 audio 字段中使用的是 HTTPS URL。本地路径是否受支持取决于当前 infsh 的能力和配置。请查阅最新版 inference.sh CLI 文档,了解如何引用本地文件(例如通过上传或特定本地路径约定),并按说明调整你的 --input 参数。

elevenlabs-voice-isolator 适合音乐制作吗?

它可用于 提取人声 或清理带噪声的 demo 录音,但并不是完整的音乐制作套件。更适合作为一个 预处理实用工具 步骤,之后的精细混音和母带仍建议在 DAW 中完成。

它和传统 DAW 里的降噪功能有什么不同?

传统 DAW 降噪通常需要采集 noise print、手动调参并实时监听。elevenlabs-voice-isolator 是一种 基于模型的批处理流程,通过 CLI 访问:你提供一个音频文件,模型执行隔离和降噪,返回处理后的结果。这种方式非常适合自动化或批量清理,尤其适合与 agents 或脚本搭配使用。

如果我只想要简单的降噪,而不是人声隔离呢?

elevenlabs-voice-isolator 的重点是同时进行人声隔离和背景移除。如果你只需要基础的降噪或 EQ,本地的 ffmpeg 滤镜或 DAW 插件可能更简单。当你特别想要由 ElevenLabs 模型驱动的 人声分离语音清晰度增强 时,再考虑使用这个技能。

哪里可以了解更多信息或排查问题?

如需获取最新、最准确的信息,可以:

  • inferen-sh/skills 仓库中查看 tools/audio/elevenlabs-voice-isolator/SKILL.md
  • 查阅同一仓库中的 cli-install.md,了解通用的 infsh 安装与使用指南。
  • 参考 inference.sh 和 ElevenLabs 的官方文档,了解各自关于配额限制、认证方式和错误码的说明。

如果遇到错误,建议优先检查:infsh login 是否成功、音频 URL 是否可访问、文件格式及大小/时长是否在支持范围内。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...