elevenlabs-voice-isolator
作成者 inferen-shinference.sh 経由で動作する CLI ベースの ElevenLabs voice isolator スキルです。バックグラウンドノイズを除去し、音声やボーカルを分離します。ポッドキャストの整音、インタビュー、音楽ボーカル、騒がしい録音、オーディオ修復ワークフローに最適です。
概要
elevenlabs-voice-isolator とは?
elevenlabs-voice-isolator スキルは、inference.sh (infsh) CLI 経由で ElevenLabs Voice Isolator アプリを利用する、コマンドライン向けのオーディオクリーンアップツールです。入力された音声ファイルからバックグラウンドノイズを取り除き、会話音声やボーカルを分離することに特化しています。
このスキルは inferen-sh/skills リポジトリ内の再利用可能なスキルとして実装されており、infsh CLI をセットアップしていれば、対応するエージェント環境からも、自分のターミナルからも呼び出すことができます。
主な機能
infsh 経由で ElevenLabs の voice isolator モデルを利用することで、このスキルは次のことが可能です。
- 部屋鳴り、ハムノイズ、交通音、人混みなどの環境ノイズを除去
- 騒がしい録音から声やボーカルを分離
- ポッドキャストやインタビューの音声トラックをクリーンアップ
- 難しい環境で録音されたスピーチの聞き取りやすさを改善
- 一般的な音声フォーマット(WAV, MP3, FLAC, OGG, AAC)をサポート
- 長時間録音に対応(スキルのドキュメント上は 1 時間・ファイルあたり 500MB まで)
このスキルが向いているユーザー
次のような場合に elevenlabs-voice-isolator の利用を検討してください。
- ポッドキャスト を録音していて、手作業でのノイズ除去なしにきれいな声のトラックを得たい
- リモートインタビュー を収録しており、ゲスト側のバックグラウンドノイズを減らしたい
- 音楽デモやボーカルトラック を扱っていて、ボーカルラインをもっとはっきり分離したい
- 音声アーカイブ を管理していて、スピーチ中心の簡易的な修復を行いたい
- AI エージェントや自動処理 のパイプラインの中で、CLI ツール経由でオンザフライに音声をクリーンアップしたい
すでに ffmpeg や DAW を使っているものの、ターミナルやエージェントから呼び出せる、より高レベルなボイスアイソレーション処理が欲しい場合、このスキルがちょうどその隙間を埋えてくれます。
向いているケース / 向いていないケース
向いているケース:
- 目的が ボイスアイソレーション や スピーチのクリーンアップ であり、本格的なマルチトラックミックスが主目的ではない
- CLI コマンド(Bash)や URL・ローカルファイルの取り扱いに慣れている
- inference.sh CLI (
infsh) をインストールして認証できる
あまり向いていないケース:
- GUI の DAW での詳細編集やマルチトラックミックス、複雑なエフェクトチェーンを求めている
- 完全オフラインなワークフローで、
infshCLI や外部モデル呼び出しを使えない - モデルベースのアイソレーターではなく、フレームレベルのきめ細かな DSP 制御が必要
使い方
事前準備
elevenlabs-voice-isolator を使う前に、以下を準備してください。
-
inference.sh CLI (
infsh) のインストール- スキルのクイックスタートでは
infshを利用しており、CLI のインストール手順にリンクされています。 - 最新のインストール手順は次を参照してください。
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
- スキルのクイックスタートでは
-
infsh 経由で ElevenLabs Voice Isolator アプリにアクセスできること
- スキルは
infsh app runを通じてelevenlabs/voice-isolatorを呼び出します。
- スキルは
-
Bash が利用できる環境
- スキルの
allowed-toolsにはBash(infsh *)が含まれており、Bash シェルと CLI ワークフロー向けに設計されています。
- スキルの
エージェントスキル環境への基本的な導入
npx skills と inferen-sh/skills リポジトリに対応した環境を使っている場合、次のコマンドでスキルを追加できます。
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator
これで、同じリポジトリ内の他のツールと並んで elevenlabs-voice-isolator スキルが利用可能になります。追加後は、エージェントやツールからスキル定義に基づいた infsh コマンドを呼び出すことができます。
inference.sh へのログイン
音声の分離処理を行う前に、CLI の認証を済ませます。
infsh login
プロンプトに従ってログインを完了してください。このステップを済ませておかないと、後続の infsh app run コマンドは動作しません。
シンプルなボイスアイソレーションコマンドの実行
infsh 経由で elevenlabs-voice-isolator を使う基本的なパターンは次のとおりです。
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'
https://noisy-recording.mp3 の部分を、自分のノイズが多い音声ファイルの URL に置き換えてください。アプリが入力を処理し、クリーンアップされた音声への参照(通常は JSON 形式)を含むレスポンスを返します。
対応オーディオフォーマットと制限
スキルのドキュメントによると、ElevenLabs の voice isolator は以下をサポートしています。
- WAV – 最大 500MB、最長 1 時間
- MP3 – 最大 500MB、最長 1 時間
- FLAC – 最大 500MB、最長 1 時間
- OGG – 最大 500MB、最長 1 時間
- AAC – 最大 500MB、最長 1 時間
安定した動作のため、elevenlabs-voice-isolator 用の音声ファイルを準備する際は、このサイズと長さの範囲に収めることをおすすめします。
例: ポッドキャスト録音をクリーンアップする
以下は、ポッドキャスト整音向けのスキルのクイックスタート例と同じパターンです。
# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'
ナレーションや対話など、音声をよりクリアにしたいあらゆるスピーチ系コンテンツにこのパターンを使えます。ファイルは HTTPS 経由でアクセス可能な場所にホスティングしてください(あるいは、環境が対応している場合はローカルファイルの扱いについて、最新の infsh の案内に従ってください)。
例: インタビュー録音をクリーンアップする
部屋の雑音や屋外の環境音が入っているインタビューを改善したい場合は、入力 URL を変更するだけです。
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'
このコマンドをスクリプトに組み込むことで、新しいインタビュー音声を編集前に自動でクリーンアップするバッチ処理にも利用できます。
自作ツールやエージェントとの統合
elevenlabs-voice-isolator は inferen-sh/skills 内のスキルとして定義されているため、次のように統合できます。
- エージェント:
Bash(infsh *)を呼び出せる AI エージェントであれば、このスキルをパイプラインの一部として使用し、(例: 分離 → 文字起こし → 要約)といった処理を行えます。 - CLI パイプライン:
infsh app run elevenlabs/voice-isolatorをシェルスクリプト、CI ワークフロー、バッチ処理ツールに組み込み可能です。 - オーディオポストプロダクション: DAW や Audacity、Reaper、Adobe Audition などのエディタにインポートする前のプリプロセスとして利用できます。
確認しておきたいファイルと設定
inferen-sh/skills リポジトリ内では、次のファイルを開いてください。
tools/audio/elevenlabs-voice-isolator/SKILL.md
このファイルで、スキルの概要や説明、利用例のコマンドが確認できます。スキルファイル自体にはユーザーごとの複雑な設定は含まれていませんが、CLI やアプリ側で追加オプションが提供されている場合は、inference.sh エコシステム内の別ドキュメントに記載されています。
FAQ
elevenlabs-voice-isolator は実際に音声に何をしているのですか?
elevenlabs-voice-isolator スキルは、inference.sh CLI を介してあなたの音声を ElevenLabs Voice Isolator モデルに送信します。モデルは音声(声)を分離・強調しつつ、バックグラウンドノイズを低減することにフォーカスしています。その結果、ポッドキャストやインタビューなどに適した、スピーチやボーカルがよりクリアでノイズの少ない音声が得られます。
elevenlabs-voice-isolator を使うには inference.sh CLI が必須ですか?
はい。公開されているクイックスタートでは inference.sh CLI (infsh) を通しての利用が前提になっています。サンプルコマンドの実行や、エージェントへの組み込みを行う前に、infsh をインストールして認証を済ませる必要があります。
どのオーディオフォーマットを処理できますか?
スキルのドキュメントに基づくと、elevenlabs-voice-isolator は次の条件をサポートしています。
- WAV, MP3, FLAC, OGG, AAC
- ファイルサイズは 500MB まで、長さは 1 ファイルあたり 1 時間 まで
これらの制限を超える場合は、処理前にトリミングやダウンサンプリングを行ってください。
URL ではなくローカルファイルを elevenlabs-voice-isolator で処理できますか?
SKILL.md の例では、audio フィールドに HTTPS URL を指定しています。ローカルパスがサポートされるかどうかは、現在の infsh の機能と設定によって異なります。ローカルファイルをどのように指定できるか(アップロード方式やローカルパスの扱いなど)については、最新の inference.sh CLI ドキュメントを確認し、それに合わせて --input 引数を調整してください。
elevenlabs-voice-isolator は音楽制作にも向いていますか?
ボーカルの分離 やノイズの多いデモ録音のクリーンアップには役立ちますが、フル機能の音楽制作スイートではありません。プリプロセス や ユーティリティ 的なステップとして利用し、細かなミックスやマスタリングは DAW 側で行うのが適しています。
DAW の従来型ノイズリダクションと何が違いますか?
従来の DAW によるノイズリダクションは、ノイズプリントの取得やパラメータ調整、リアルタイムモニタリングを伴うことが多いです。elevenlabs-voice-isolator は、CLI 経由で利用する モデルベースのバッチ処理 であり、ファイルを渡せばモデルが分離とノイズ除去を実行し、処理済みの音声を返してくれます。エージェントやスクリプトと組み合わせた自動処理や、大量の録音の一括クリーンアップに便利です。
単純なノイズ除去だけで、ボイスアイソレーションは不要な場合は?
elevenlabs-voice-isolator は、ボイスアイソレーションとバックグラウンド除去をセットで行うことに焦点を当てています。もし単純なノイズ低減や EQ だけで十分な場合は、ローカルの ffmpeg フィルタや DAW のプラグインの方が手軽な場合もあります。ElevenLabs モデルによる 音声の分離 と スピーチの明瞭化 を特に求める場合に、このスキルを選ぶとよいでしょう。
さらに詳しく知りたい、またはトラブルシュートしたい場合は?
最新かつ正確な情報については、次を確認してください。
inferen-sh/skillsリポジトリ内のtools/audio/elevenlabs-voice-isolator/SKILL.md- 同リポジトリにある
cli-install.mdのinfshインストールおよび使用ガイド - inference.sh と ElevenLabs のドキュメント(サービス固有の制限、認証方法、エラーコードなど)
問題が発生した場合は、まず infsh login が成功しているか、指定した音声 URL にアクセスできるか、ファイル形式とサイズ・長さがサポート範囲内かを確認することから始めてください。
