elevenlabs-voice-changer
作成者 inferen-shElevenLabs の音声変換機能を inference.sh CLI(infsh)から利用し、録音済みの音声を内容と感情を保ったまま別の合成音声へ変換するスキルです。`eleven_multilingual_sts_v2`(70言語以上対応)と `eleven_english_sts_v2` に対応しており、スピーチ変換、アクセント変更、声の偽装などを用いたコンテンツ制作、吹き替え、キャラクターボイスに利用できます。
概要
elevenlabs-voice-changer とは?
elevenlabs-voice-changer は、ElevenLabs の speech-to-speech 形式の voice changer を inference.sh のコマンドラインインターフェイス(infsh)につなぐスキルです。既存の音声ファイルを送信すると、話している内容や感情を保ったまま、別の合成音声で再生成された音声を受け取れます。
内部的には、infsh app run elevenlabs/voice-changer 経由で ElevenLabs の voice-changer アプリを呼び出すため、API を自分で組み込む必要はありません。入力音声とターゲットの声を指定すると、変換後の音声が返ってきます。
主な機能
- Speech-to-speech 変換 – 既存の話し声を録り直しなしで別の声に変換。
- 多言語対応(70言語以上) – モデル ID
eleven_multilingual_sts_v2による多言語サポート。 - 英語特化モデル – モデル ID
eleven_english_sts_v2により英語の品質を向上。 - アクセント・話し方の変更 – ElevenLabs のプレミアムボイスを使って、アクセントやトーン、人格を切り替え。
- 声の偽装とプライバシー保護 – 公開コンテンツ向けに実際の声を匿名化・マスキング。
このスキルに向いているユーザー
このスキルは次のような方に適しています。
- YouTube・TikTok・SNS 用の動画で、ナレーションの声を変えたい・より高品質にしたいクリエイター。
- ポッドキャストやボイスオーバー で、言語・アクセント・声質を素早く差し替えたい制作者。
- マーケティング動画やプロダクト解説 で、複数のブランドボイスを使いたいが、声優を何人も起用したくないチーム。
- AI キャラクターやデモ を作成し、一貫して再利用可能な声が必要な開発者・制作者。
一方、次のような用途には あまり向きません。
- タイムライン編集などを備えた、GUI だけで完結するワークフローが必要な場合(本スキルは CLI 中心です)。
- 完全オフライン環境で処理したい場合(inference.sh と ElevenLabs のクラウドに依存します)。
- EQ やミックス、マルチトラック編集といった細かな音声編集をしたい場合(本スキルは 声の変換 に特化しており、フル機能の DAW を置き換えるものではありません)。
モデルと音声オプション
elevenlabs-voice-changer スキルでは、リポジトリで説明されている以下のモデルを利用できます。
- Multilingual STS v2 – モデル ID:
eleven_multilingual_sts_v2(デフォルト。70言語以上に対応)。 - English STS v2 – モデル ID:
eleven_english_sts_v2(英語音声に最適化)。
さらに、ElevenLabs の TTS 製品でも使われている 22 以上のプレミアムボイス も使用可能で、デフォルトとして次のような声が用意されています。
george– イギリス英語、権威的なトーン(ドキュメントでのデフォルトボイス)。aria– アメリカ英語、カジュアルで会話的なトーン。
これらのボイスは、アプリを呼び出す際に voice パラメータとして指定します。
使い方
1. 前提条件とインストール
elevenlabs-voice-changer を使う前に、inference.sh CLI をインストールし、認証を済ませておく必要があります。
-
inference.sh CLI(
infsh)をインストール
リポジトリの公式手順に従ってセットアップします。
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
inference.sh にログイン
アカウントでログインします。infsh login -
スキルを追加(Agent Skills Finder / skills registry)
skills コレクション内のスキルとして利用する場合は、次のコマンドで追加します。npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
以上で、infsh 経由で ElevenLabs の voice changer アプリを呼び出す準備が整います。
2. 基本的な音声変換
elevenlabs-voice-changer を試す最も簡単な方法は、スキルのドキュメントに記載されているサンプルを実行することです。
infsh login
# Transform voice
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
この例では次のように指定しています。
audio– 入力となる録音音声への URL(例: オンラインにホストした.mp3ファイル)。voice– 変換先の ElevenLabs ボイス ID(ここではaria)。
アプリはこの録音を処理し、話している内容は同じまま、aria の声質に変わった新しい音声ファイルを返します。
3. モデルと言語の選択
デフォルトでは、このスキルは次のモデルを使うように設定されています。
- 幅広い言語に対応する
eleven_multilingual_sts_v2(70言語以上)。
英語のみの利用で、英語向けに最適化されたモデルを使いたい場合は、アプリの入力やワークフロー側で次のモデル ID を利用するよう設定してください。
- 英語の明瞭さやイントネーションを重視する
eleven_english_sts_v2。
どのフィールドでモデルを指定するかは ElevenLabs アプリの設定側で処理されていますが、モデルを選択する際は、スキルのドキュメントで言及されているこれらの ID を使用してください。
4. 異なる声やアクセントを試す
アクセントやスタイルを変えたい場合は、--input に渡す JSON の voice パラメータを変更します。
パターン例:
# British, authoritative
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'
# American, conversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
同じ元音声に対して voice ID を変えながら複数回実行することで、プロジェクトに合う声を素早く試せます。
5. ワークフローへの組み込み
elevenlabs-voice-changer は CLI ベースで動作するため、スクリプトや自動化されたパイプラインとの相性が良好です。
- バッチ処理 – 音声ファイルの URL や事前にアップロード済みの録音一覧をループしながら、
infsh app runを繰り返し実行。 - コンテンツのローカライズ – 1 回録音したナレーションを、ターゲット市場ごとに異なるアクセントや声に変換。
- 声の匿名化 – 公開前に、録音済みの通話・インタビュー・ユーザー投稿などの声を変換し、プライバシーを保護。
より大きなエージェントフレームワークやオーケストレーションレイヤーを利用している場合は、「voice conversion」や「dubbing」が必要なステップで、このスキルを 1 つの処理として組み込むことができます。
6. リポジトリで確認すべきファイル
inferen-sh/skills リポジトリ内でこのスキルを開いたら、まずは次のファイルから確認するとよいでしょう。
SKILL.md– スキルの概要説明、機能、コピペしてすぐ使えるクイックスタート用コマンド。
skills リポジトリ内の他のツールに含まれる AGENTS.md、metadata.json、rules/ や scripts/ フォルダなどは、スキルがより大きなエージェントワークフローの中にどう組み込まれるかを示すものです。elevenlabs-voice-changer に関しては、主なドキュメントは SKILL.md にまとめられています。
FAQ
elevenlabs-voice-changer は具体的に何をしてくれますか?
elevenlabs-voice-changer は、inference.sh CLI 経由で ElevenLabs の speech-to-speech モデルを呼び出し、既存の音声録音を別の AI 生成ボイスに変換します。元の言葉の内容や感情は保ったまま、声質だけを差し替えるイメージです。
elevenlabs-voice-changer のインストール方法を教えてください。
このスキルは単体アプリとしてインストールするものではありません。代わりに、次の手順で利用を開始します。
-
次の手順に従って
infshCLI をインストールします。
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
infsh loginを実行して認証します。 -
必要に応じて、次のコマンドでスキルをセットアップに登録します。
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
その後は、infsh app run elevenlabs/voice-changer を使って ElevenLabs の voice changer アプリを呼び出せます。
利用には ElevenLabs のアカウントが必要ですか?
このスキルは、inference.sh 経由で ElevenLabs のモデルをラップしているだけです。アカウントやクレジット、利用枠など、ElevenLabs 利用に関する前提条件は、inference.sh および ElevenLabs 側のセットアップに依存します。最新のアクセス条件や課金体系については、inference.sh と ElevenLabs の公式ドキュメントを確認してください。
クラウドを使わず、ローカルだけで elevenlabs-voice-changer を動かせますか?
リポジトリのドキュメントでは、infsh を通じてオンライン上の ElevenLabs アプリに接続する前提でスキルが説明されています。完全オフラインでの利用については記載がなく、サポートされていないと考えた方がよいでしょう。inference.sh と ElevenLabs のバックエンドへ接続できるネットワーク環境が必要です。
入力として使える音声フォーマットは何ですか?
サンプルでは、HTTP で配信される .mp3 ファイル("https://recording.mp3")を使用しています。利用可能なフォーマットやサイズ上限は ElevenLabs アプリ側の仕様に依存しますが、一般的には mp3 などの Web 向け音声フォーマットを、安定した URL から配信する形がおすすめです。
自分のカスタムボイスは使えますか?
スキルの説明は、george や aria などを含む ElevenLabs の標準ボイスセット(22 以上のプレミアムボイス)にフォーカスしています。カスタムボイスの学習フローについては触れられていません。独自のボイスが必要な場合は、ElevenLabs の公式ドキュメントで、カスタムボイスが speech-to-speech アプリとどう連携するかを確認してください。
リアルタイムのボイスチェンジにも使えますか?
リポジトリでは、録音済みファイルの URL を渡して処理結果のファイルを受け取る ファイルベースの speech-to-speech 利用方法のみが説明されています。リアルタイム通話やライブ配信での変換については記載がないため、このスキルは 非同期・ファイルベースのツール として考え、ライブ用のボイスチェンジャーとしては想定しない方がよいでしょう。
どんな場合に elevenlabs-voice-changer を使うべきではありませんか?
次のような要件がある場合は、他のツールを検討してください。
- 詳細なミキシングやマスタリングができる、フル機能の DAW やノンリニア編集環境が必要な場合。
- 配信やゲーム用途などで、リアルタイムかつ低遅延なボイスエフェクトが必要な場合。
- クラウドサービスを使わず、すべてをオフラインで完結させる必要がある場合。
スクリプトから繰り返し実行する CLI ベースの speech-to-speech 音声変換が必要であれば、elevenlabs-voice-changer は非常に有用な選択肢です。
設定内容はどこで確認・変更できますか?
設定を確認・調整したい場合は、GitHub 上の inferen-sh/skills リポジトリで次のパスを開きます。
tools/audio/elevenlabs-voice-changer/
この中の SKILL.md に、公式のクイックスタート、対応モデル、利用可能なボイスオプションなどがまとまっています。そこに記載されたサンプルコマンドをベースに、自分の環境に合わせてカスタマイズしてください。
