elevenlabs-voice-isolator

作者 inferen-sh

基于 CLI 的 ElevenLabs 语音隔离技能，通过 inference.sh 去除背景噪音并从音频中分离人声。非常适合播客修音、访谈录音、音乐人声、嘈杂环境录音以及各类音频修复流程。

Stars232

收录时间2026年3月27日

分类音频编辑

安装命令

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

音频 Cli Bash Ffmpeg

概览

elevenlabs-voice-isolator 是什么？

elevenlabs-voice-isolator 技能是一个命令行音频清理工具，通过 inference.sh (infsh) CLI 调用 ElevenLabs Voice Isolator 应用。它专注于从输入音频文件中去除背景噪声并隔离说话人声或歌声。

该技能作为可复用 skill 集成在 inferen-sh/skills 仓库中，只要你已配置好 infsh CLI，就可以在兼容的 agent 环境中调用，或直接在本地终端使用。

核心能力

通过 infsh 使用 ElevenLabs voice isolator 模型，这个技能可以：

去除环境背景噪声（房间底噪、电流声、车流、人群噪声等）
从嘈杂录音中隔离说话人声或主唱
清理播客轨道和访谈录音
提升在复杂环境下语音的可懂度
支持常见音频格式（WAV、MP3、FLAC、OGG、AAC）
处理较长录音（单文件最长约 1 小时、最大 500MB，参考技能文档说明）

适用人群

在以下场景中，你可以考虑使用 elevenlabs-voice-isolator：

录制播客，希望在不做复杂手动降噪的情况下获得更干净的人声轨道
录制 远程访谈，需要减轻嘉宾端的背景噪声
处理 音乐 demo 或 vocal take，希望更好地分离人声线条
维护 音频资料库，需要基础的、以语音为中心的修复
搭建需要通过 CLI 实时清理音频的 AI agent 或自动化流程

如果你已经在用 ffmpeg 或某款 DAW，但希望在终端或 agent 中加入一个更高抽象层级的人声隔离步骤，这个技能可以很好地补位。

适用与不适用的场景

适用的情况：

你的主要目标是 人声隔离 或 语音清理，而不是多轨混音或复杂音频制作。
你习惯在命令行（CLI / Bash）中操作，能处理 URL 或本地文件。
你可以安装并完成 inference.sh CLI (infsh) 的认证。

不太适用的情况：

你需要在 GUI DAW 中做深度编辑、多轨混音或复杂效果链。
你的工作流必须完全离线，无法使用 infsh CLI 或外部模型调用。
你需要对 DSP 过程进行逐帧级的精细控制，而不是通过模型驱动的隔离器。

使用指南

前置条件

在使用 elevenlabs-voice-isolator 前，请确认：

已安装 inference.sh CLI (infsh)
- 技能的 quick start 会引用 infsh 并提供 CLI 安装说明链接。
- 按照以下链接中的最新安装文档进行操作：
  - https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
可以通过 infsh 访问 ElevenLabs Voice Isolator 应用
- 技能通过 infsh app run 调用 elevenlabs/voice-isolator。
环境支持 Bash
- 技能的 allowed-tools 包含 Bash(infsh *)，因此主要面向 Bash shell 和 CLI 工作流设计。

在 agent skills 环境中的基础安装

如果你使用的环境支持 npx skills 和 inferen-sh/skills 仓库，可以用以下命令添加该技能：

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

这样 elevenlabs-voice-isolator 会和该仓库中的其他工具一起可用。添加后，你的 agent 或工具就能调用技能中定义的底层 infsh 命令。

登录 inference.sh

在执行任何语音隔离操作前，先完成 CLI 登录：

infsh login

按照提示完成登录。后续的 infsh app run 命令都依赖这一登录步骤。

运行一次简单的人声隔离

通过 infsh 使用 elevenlabs-voice-isolator 的基本调用方式如下：

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'

将 https://noisy-recording.mp3 替换成你自己的嘈杂音频文件 URL。应用会处理输入并返回响应（通常是 JSON），其中包含清理后音频的引用地址。

支持的音频格式与限制

根据技能文档，ElevenLabs voice isolator 支持：

WAV – 最大 500MB，最长 1 小时
MP3 – 最大 500MB，最长 1 小时
FLAC – 最大 500MB，最长 1 小时
OGG – 最大 500MB，最长 1 小时
AAC – 最大 500MB，最长 1 小时

为了获得更稳定的表现，准备音频时尽量控制在上述体积和时长范围内。

示例：清理一段播客录音

下面的示例基本沿用技能 quick start 中的播客清理场景：

# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'

你可以将这一调用模式用于任意以说话为主的内容，以获得更清晰的旁白或对话。将文件托管在可通过 HTTPS 访问的位置（或参考当前 infsh 对本地文件的支持方式，在你的环境中进行相应调整）。

示例：清理访谈录音

如果你想改善带有房间噪声或街道环境声的访谈录音，只需替换输入 URL：

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'

你可以把这条命令集成进脚本，在剪辑前自动清理每一条新访谈录音。

与自有工具和 agents 集成

由于 elevenlabs-voice-isolator 在 inferen-sh/skills 中被定义为一个 skill：

Agents：任何能调用 Bash(infsh *) 的 AI agent，都可以把这个技能作为流水线中的一环使用（例如：隔离 → 转写 → 总结）。
CLI 流水线：你可以在 shell 脚本、CI 工作流或批处理工具中封装 infsh app run elevenlabs/voice-isolator。
音频后期：将其作为预处理步骤，在导入 DAW 或编辑器（如 Audacity、Reaper、Adobe Audition）前先获得干净的人声文件。

常见问题（FAQ）

elevenlabs-voice-isolator 实际会对我的音频做什么？

elevenlabs-voice-isolator 技能通过 inference.sh CLI 将你的音频发送给 ElevenLabs Voice Isolator 模型。模型会聚焦于分离和增强人声，同时降低背景噪声。输出结果是人声或歌声更清晰、底噪更低的音频，适用于播客、访谈等内容。

使用 elevenlabs-voice-isolator 是否必须安装 inference.sh CLI？

是的。公开的 quick start 显示，该技能通过 inference.sh CLI (infsh) 使用。你必须先安装并完成 infsh 的认证，才能运行示例命令，或将技能集成进 agent。

可以处理哪些音频格式？

根据技能文档，elevenlabs-voice-isolator 支持：

WAV、MP3、FLAC、OGG 和 AAC
单文件最大 500MB、最长 1 小时

如果你的文件超过这些限制，请在处理前裁剪或降采样。

是否可以处理本地文件，而不是 URL？

SKILL.md 中的示例在 audio 字段中使用的是 HTTPS URL。本地路径是否受支持取决于当前 infsh 的能力和配置。请查阅最新版 inference.sh CLI 文档，了解如何引用本地文件（例如通过上传或特定本地路径约定），并按说明调整你的 --input 参数。

elevenlabs-voice-isolator 适合音乐制作吗？

它可用于 提取人声 或清理带噪声的 demo 录音，但并不是完整的音乐制作套件。更适合作为一个 预处理 或 实用工具 步骤，之后的精细混音和母带仍建议在 DAW 中完成。

它和传统 DAW 里的降噪功能有什么不同？

传统 DAW 降噪通常需要采集 noise print、手动调参并实时监听。elevenlabs-voice-isolator 是一种 基于模型的批处理流程，通过 CLI 访问：你提供一个音频文件，模型执行隔离和降噪，返回处理后的结果。这种方式非常适合自动化或批量清理，尤其适合与 agents 或脚本搭配使用。

如果我只想要简单的降噪，而不是人声隔离呢？

elevenlabs-voice-isolator 的重点是同时进行人声隔离和背景移除。如果你只需要基础的降噪或 EQ，本地的 ffmpeg 滤镜或 DAW 插件可能更简单。当你特别想要由 ElevenLabs 模型驱动的 人声分离 和 语音清晰度增强 时，再考虑使用这个技能。

哪里可以了解更多信息或排查问题？

如需获取最新、最准确的信息，可以：

在 inferen-sh/skills 仓库中查看 tools/audio/elevenlabs-voice-isolator/SKILL.md。
查阅同一仓库中的 cli-install.md，了解通用的 infsh 安装与使用指南。
参考 inference.sh 和 ElevenLabs 的官方文档，了解各自关于配额限制、认证方式和错误码的说明。

如果遇到错误，建议优先检查：infsh login 是否成功、音频 URL 是否可访问、文件格式及大小/时长是否在支持范围内。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

elevenlabs-dialogue

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，生成精致的多说话人对话音频。将结构化脚本转换为自然流畅的多角色对话，并输出到同一个音频文件，适用于播客、有声书、讲解视频、教程、角色对白和视频脚本等场景。

语音生成

收藏 0GitHub 0

elevenlabs-music

作者 inferen-sh

通过 inference.sh CLI 和 ElevenLabs，根据文本提示生成原创 AI 音乐。你可以在终端中直接控制时长、风格和情绪，创作免版税的背景音乐、配乐、jingle、播客底音乐和游戏音频。

音频编辑

收藏 0GitHub 0

elevenlabs-voice-changer

作者 inferen-sh

ElevenLabs voice changer 技能通过 inference.sh CLI（infsh）将录制好的语音转换为另一种合成声音，同时尽可能保留原始内容与情绪表达。支持 eleven_multilingual_sts_v2（70+ 种语言）和 eleven_english_sts_v2，可用于语音转语音、多语言配音、口音变换、声音伪装等内容创作、配音与角色配音场景。

语音生成

收藏 0GitHub 0

elevenlabs-sound-effects

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，根据文本提示生成 AI 音效。非常适合需要快速、免版税声音设计的视频剪辑师、游戏开发者、播客作者、电影创作者和内容创作者。支持文本转音效、可调节时长，以及可控的提示词影响力，可用于电影级、氛围化和游戏就绪的 SFX。

音频编辑

收藏 0GitHub 0

ai-content-pipeline

作者 inferen-sh

使用 inference.sh CLI 设计并运行多步骤 AI 内容生产流水线，把图片、视频、音频和文本工具串联起来。通过 ai-content-pipeline，你可以自动化内容工作流，例如：生成图片、将图片动画化成视频、添加音效或配音，并为 YouTube、社交媒体和营销活动批量准备素材。

工作流自动化

收藏 0GitHub 0

dialogue-audio

作者 inferen-sh

通过 inference.sh CLI，结合 Dia TTS 和 ElevenLabs，生成逼真的多说话人对话音频。dialogue-audio 技能可精细控制说话人、情绪、节奏和对话流，用于播客、有声书、讲解类内容、角色场景以及其他对话型音频内容。

语音生成

收藏 0GitHub 0

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言，同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

视频编辑

收藏 0GitHub 0

elevenlabs-tts

作者 inferen-sh

通过 inference.sh CLI 使用 ElevenLabs 文本转语音（text-to-speech），提供 22+ 高品质声音、多语言支持以及适合生产环境的高性能语音生成模型。

语音生成

收藏 0GitHub 0

elevenlabs-voice-isolator

概览

elevenlabs-voice-isolator 是什么？

核心能力

适用人群

适用与不适用的场景

使用指南

前置条件

在 agent skills 环境中的基础安装

登录 inference.sh

运行一次简单的人声隔离

支持的音频格式与限制

示例：清理一段播客录音

示例：清理访谈录音

与自有工具和 agents 集成

推荐查看的文件与配置

常见问题（FAQ）

elevenlabs-voice-isolator 实际会对我的音频做什么？

使用 elevenlabs-voice-isolator 是否必须安装 inference.sh CLI？

可以处理哪些音频格式？

是否可以处理本地文件，而不是 URL？

elevenlabs-voice-isolator 适合音乐制作吗？

它和传统 DAW 里的降噪功能有什么不同？

如果我只想要简单的降噪，而不是人声隔离呢？

哪里可以了解更多信息或排查问题？

评分与评论