elevenlabs-voice-isolator

作成者 inferen-sh

inference.sh 経由で動作する CLI ベースの ElevenLabs voice isolator スキルです。バックグラウンドノイズを除去し、音声やボーカルを分離します。ポッドキャストの整音、インタビュー、音楽ボーカル、騒がしい録音、オーディオ修復ワークフローに最適です。

スター232

お気に入り0

カテゴリーAudio Editing

インストールコマンド

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

Audio Cli Bash Ffmpeg

概要

elevenlabs-voice-isolator とは？

elevenlabs-voice-isolator スキルは、inference.sh (infsh) CLI 経由で ElevenLabs Voice Isolator アプリを利用する、コマンドライン向けのオーディオクリーンアップツールです。入力された音声ファイルからバックグラウンドノイズを取り除き、会話音声やボーカルを分離することに特化しています。

このスキルは inferen-sh/skills リポジトリ内の再利用可能なスキルとして実装されており、infsh CLI をセットアップしていれば、対応するエージェント環境からも、自分のターミナルからも呼び出すことができます。

主な機能

infsh 経由で ElevenLabs の voice isolator モデルを利用することで、このスキルは次のことが可能です。

部屋鳴り、ハムノイズ、交通音、人混みなどの環境ノイズを除去
騒がしい録音から声やボーカルを分離
ポッドキャストやインタビューの音声トラックをクリーンアップ
難しい環境で録音されたスピーチの聞き取りやすさを改善
一般的な音声フォーマット（WAV, MP3, FLAC, OGG, AAC）をサポート
長時間録音に対応（スキルのドキュメント上は 1 時間・ファイルあたり 500MB まで）

このスキルが向いているユーザー

次のような場合に elevenlabs-voice-isolator の利用を検討してください。

ポッドキャスト を録音していて、手作業でのノイズ除去なしにきれいな声のトラックを得たい
リモートインタビュー を収録しており、ゲスト側のバックグラウンドノイズを減らしたい
音楽デモやボーカルトラック を扱っていて、ボーカルラインをもっとはっきり分離したい
音声アーカイブ を管理していて、スピーチ中心の簡易的な修復を行いたい
AI エージェントや自動処理 のパイプラインの中で、CLI ツール経由でオンザフライに音声をクリーンアップしたい

すでに ffmpeg や DAW を使っているものの、ターミナルやエージェントから呼び出せる、より高レベルなボイスアイソレーション処理が欲しい場合、このスキルがちょうどその隙間を埋えてくれます。

向いているケース / 向いていないケース

向いているケース:

目的が ボイスアイソレーション や スピーチのクリーンアップ であり、本格的なマルチトラックミックスが主目的ではない
CLI コマンド（Bash）や URL・ローカルファイルの取り扱いに慣れている
inference.sh CLI (infsh) をインストールして認証できる

あまり向いていないケース:

GUI の DAW での詳細編集やマルチトラックミックス、複雑なエフェクトチェーンを求めている
完全オフラインなワークフローで、infsh CLI や外部モデル呼び出しを使えない
モデルベースのアイソレーターではなく、フレームレベルのきめ細かな DSP 制御が必要

使い方

事前準備

elevenlabs-voice-isolator を使う前に、以下を準備してください。

inference.sh CLI (infsh) のインストール
- スキルのクイックスタートでは infsh を利用しており、CLI のインストール手順にリンクされています。
- 最新のインストール手順は次を参照してください。
  - https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
infsh 経由で ElevenLabs Voice Isolator アプリにアクセスできること
- スキルは infsh app run を通じて elevenlabs/voice-isolator を呼び出します。
Bash が利用できる環境
- スキルの allowed-tools には Bash(infsh *) が含まれており、Bash シェルと CLI ワークフロー向けに設計されています。

エージェントスキル環境への基本的な導入

npx skills と inferen-sh/skills リポジトリに対応した環境を使っている場合、次のコマンドでスキルを追加できます。

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

これで、同じリポジトリ内の他のツールと並んで elevenlabs-voice-isolator スキルが利用可能になります。追加後は、エージェントやツールからスキル定義に基づいた infsh コマンドを呼び出すことができます。

inference.sh へのログイン

音声の分離処理を行う前に、CLI の認証を済ませます。

infsh login

プロンプトに従ってログインを完了してください。このステップを済ませておかないと、後続の infsh app run コマンドは動作しません。

シンプルなボイスアイソレーションコマンドの実行

infsh 経由で elevenlabs-voice-isolator を使う基本的なパターンは次のとおりです。

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'

https://noisy-recording.mp3 の部分を、自分のノイズが多い音声ファイルの URL に置き換えてください。アプリが入力を処理し、クリーンアップされた音声への参照（通常は JSON 形式）を含むレスポンスを返します。

対応オーディオフォーマットと制限

スキルのドキュメントによると、ElevenLabs の voice isolator は以下をサポートしています。

WAV – 最大 500MB、最長 1 時間
MP3 – 最大 500MB、最長 1 時間
FLAC – 最大 500MB、最長 1 時間
OGG – 最大 500MB、最長 1 時間
AAC – 最大 500MB、最長 1 時間

安定した動作のため、elevenlabs-voice-isolator 用の音声ファイルを準備する際は、このサイズと長さの範囲に収めることをおすすめします。

例: ポッドキャスト録音をクリーンアップする

以下は、ポッドキャスト整音向けのスキルのクイックスタート例と同じパターンです。

# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'

ナレーションや対話など、音声をよりクリアにしたいあらゆるスピーチ系コンテンツにこのパターンを使えます。ファイルは HTTPS 経由でアクセス可能な場所にホスティングしてください（あるいは、環境が対応している場合はローカルファイルの扱いについて、最新の infsh の案内に従ってください）。

例: インタビュー録音をクリーンアップする

部屋の雑音や屋外の環境音が入っているインタビューを改善したい場合は、入力 URL を変更するだけです。

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'

このコマンドをスクリプトに組み込むことで、新しいインタビュー音声を編集前に自動でクリーンアップするバッチ処理にも利用できます。

自作ツールやエージェントとの統合

elevenlabs-voice-isolator は inferen-sh/skills 内のスキルとして定義されているため、次のように統合できます。

エージェント: Bash(infsh *) を呼び出せる AI エージェントであれば、このスキルをパイプラインの一部として使用し、（例: 分離 → 文字起こし → 要約）といった処理を行えます。
CLI パイプライン: infsh app run elevenlabs/voice-isolator をシェルスクリプト、CI ワークフロー、バッチ処理ツールに組み込み可能です。
オーディオポストプロダクション: DAW や Audacity、Reaper、Adobe Audition などのエディタにインポートする前のプリプロセスとして利用できます。

確認しておきたいファイルと設定

inferen-sh/skills リポジトリ内では、次のファイルを開いてください。

tools/audio/elevenlabs-voice-isolator/SKILL.md

このファイルで、スキルの概要や説明、利用例のコマンドが確認できます。スキルファイル自体にはユーザーごとの複雑な設定は含まれていませんが、CLI やアプリ側で追加オプションが提供されている場合は、inference.sh エコシステム内の別ドキュメントに記載されています。

FAQ

elevenlabs-voice-isolator は実際に音声に何をしているのですか？

elevenlabs-voice-isolator スキルは、inference.sh CLI を介してあなたの音声を ElevenLabs Voice Isolator モデルに送信します。モデルは音声（声）を分離・強調しつつ、バックグラウンドノイズを低減することにフォーカスしています。その結果、ポッドキャストやインタビューなどに適した、スピーチやボーカルがよりクリアでノイズの少ない音声が得られます。

elevenlabs-voice-isolator を使うには inference.sh CLI が必須ですか？

はい。公開されているクイックスタートでは inference.sh CLI (infsh) を通しての利用が前提になっています。サンプルコマンドの実行や、エージェントへの組み込みを行う前に、infsh をインストールして認証を済ませる必要があります。

どのオーディオフォーマットを処理できますか？

スキルのドキュメントに基づくと、elevenlabs-voice-isolator は次の条件をサポートしています。

WAV, MP3, FLAC, OGG, AAC
ファイルサイズは 500MB まで、長さは 1 ファイルあたり 1 時間 まで

これらの制限を超える場合は、処理前にトリミングやダウンサンプリングを行ってください。

URL ではなくローカルファイルを elevenlabs-voice-isolator で処理できますか？

SKILL.md の例では、audio フィールドに HTTPS URL を指定しています。ローカルパスがサポートされるかどうかは、現在の infsh の機能と設定によって異なります。ローカルファイルをどのように指定できるか（アップロード方式やローカルパスの扱いなど）については、最新の inference.sh CLI ドキュメントを確認し、それに合わせて --input 引数を調整してください。

elevenlabs-voice-isolator は音楽制作にも向いていますか？

ボーカルの分離 やノイズの多いデモ録音のクリーンアップには役立ちますが、フル機能の音楽制作スイートではありません。プリプロセス や ユーティリティ 的なステップとして利用し、細かなミックスやマスタリングは DAW 側で行うのが適しています。

DAW の従来型ノイズリダクションと何が違いますか？

従来の DAW によるノイズリダクションは、ノイズプリントの取得やパラメータ調整、リアルタイムモニタリングを伴うことが多いです。elevenlabs-voice-isolator は、CLI 経由で利用する モデルベースのバッチ処理 であり、ファイルを渡せばモデルが分離とノイズ除去を実行し、処理済みの音声を返してくれます。エージェントやスクリプトと組み合わせた自動処理や、大量の録音の一括クリーンアップに便利です。

単純なノイズ除去だけで、ボイスアイソレーションは不要な場合は？

elevenlabs-voice-isolator は、ボイスアイソレーションとバックグラウンド除去をセットで行うことに焦点を当てています。もし単純なノイズ低減や EQ だけで十分な場合は、ローカルの ffmpeg フィルタや DAW のプラグインの方が手軽な場合もあります。ElevenLabs モデルによる 音声の分離 と スピーチの明瞭化 を特に求める場合に、このスキルを選ぶとよいでしょう。

さらに詳しく知りたい、またはトラブルシュートしたい場合は？

最新かつ正確な情報については、次を確認してください。

inferen-sh/skills リポジトリ内の tools/audio/elevenlabs-voice-isolator/SKILL.md
同リポジトリにある cli-install.md の infsh インストールおよび使用ガイド
inference.sh と ElevenLabs のドキュメント（サービス固有の制限、認証方法、エラーコードなど）

問題が発生した場合は、まず infsh login が成功しているか、指定した音声 URL にアクセスできるか、ファイル形式とサイズ・長さがサポート範囲内かを確認することから始めてください。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

ai-podcast-creation

by inferen-sh

Kokoro TTS、DIA TTS と inference.sh CLI を使って、テキストから AI 音声ポッドキャストやボイスコンテンツを作成できます。複数ボイスのミックス、BGM の追加、フルエピソードの組み立てまで、ポッドキャスト、オーディオブック、音声ニュースレター向けの制作を自動化します。

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

ElevenLabs の音声変換機能を inference.sh CLI（infsh）から利用し、録音済みの音声を内容と感情を保ったまま別の合成音声へ変換するスキルです。`eleven_multilingual_sts_v2`（70言語以上対応）と `eleven_english_sts_v2` に対応しており、スピーチ変換、アクセント変更、声の偽装などを用いたコンテンツ制作、吹き替え、キャラクターボイスに利用できます。

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

ElevenLabs のテキスト読み上げ（text-to-speech）を inference.sh CLI 経由で利用できるスキルです。22種類以上のプレミアム音声、マルチリンガル対応、高速モデルを備え、本番運用向けの音声生成ワークフローに適しています。

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning は、CLI から利用できる AI 音声生成・テキスト読み上げ・ボイスクローン用の inference.sh ベースのスキルです。ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice などのモデルをまとめてラップし、自然な音声、多声ナレーション、音声変換を音声・動画制作プロジェクト向けに提供します。

Voice Generation

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

inference.sh CLI を通じて ElevenLabs を利用し、テキストプロンプトから AI サウンドエフェクトを生成します。動画編集者、ゲーム開発者、ポッドキャスター、映像制作者、コンテンツクリエイターが、素早くロイヤリティフリーのサウンドデザインを行いたいときに最適です。テキストからの効果音生成、長さの調整、シネマティック／アンビエント／ゲーム向け SFX のためのプロンプトコントロールに対応しています。

Audio Editing

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

inference.sh CLI を通じて ElevenLabs の Scribe v1/v2 モデルを利用する、高精度な音声認識（speech-to-text）スキルです。文字起こし、話者分離（スピーカー diarization）、音声イベントタグ付け、単語レベルのタイムスタンプ、フォースドアラインメント、字幕生成に対応しており、会議・ポッドキャストなどの音声ワークフローに適しています。

Audio Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Dia TTS と ElevenLabs を inference.sh CLI 経由で利用し、複数話者のリアルな会話音声を生成します。dialogue-audio スキルを使うと、ポッドキャスト、オーディオブック、解説コンテンツ、キャラクターシーンなどの会話コンテンツ向けに、話者・感情・テンポ・会話の流れを細かくコントロールできます。

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

inference.sh CLI を通じて ElevenLabs Music、Diffrythm、Tencent Song Generation を利用し、テキストプロンプトから AI 音楽やフル楽曲を生成します。BGM、サウンドトラック、SNS クリップ、ポッドキャスト、ロイヤリティフリー音源に最適です。高速な楽曲生成、インストゥルメンタル、ボーカル入りフル楽曲に対応しています。

Voice Generation

Favorites 0GitHub 0