ai-voice-cloning
作成者 inferen-shai-voice-cloning は、CLI から利用できる AI 音声生成・テキスト読み上げ・ボイスクローン用の inference.sh ベースのスキルです。ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice などのモデルをまとめてラップし、自然な音声、多声ナレーション、音声変換を音声・動画制作プロジェクト向けに提供します。
概要
ai-voice-cloning とは?
ai-voice-cloning は、inference.sh プラットフォーム上に構築された、CLI 特化の AI 音声生成・ボイスクローン用スキルです。ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice などのテキスト読み上げ・音声変換モデルをコマンドラインから呼び出せます。
このスキルは inferen-sh/skills リポジトリで定義されており、infsh(inference.sh CLI)経由で Bash を呼び出せるエージェントのワークフローに組み込むことを想定しています。モデル学習やデータセット管理ではなく、「自然な音声の生成」と「既存の音声の変換」にフォーカスした設計です。
主な機能
infsh app run ...を使った CLI からのテキスト読み上げ (TTS)elevenlabs/ttsやinfsh/kokoro-ttsなど、複数の AI 音声モデルを一括で利用- ElevenLabs Voice Changer による 既存音声のボイスクローン / 声質変換
- (ElevenLabs モデル仕様に準拠した)多言語・多声サポート
- ボイスオーバー、オーディオブック、ポッドキャスト向けの 長尺ナレーション生成
- 自然な会話感や抑揚を重視した 会話スタイル・表現力のある読み上げ
ai-voice-cloning は単体アプリではなく「スキル定義」のため、inference.sh CLI と、Bash コマンド実行が許可されているエージェントやツール経由で操作します。
ai-voice-cloning が向いている人
このスキルは次のような用途に適しています。
- 音声・動画制作で、スクリプトから素早く音声を生成したい
- AI エージェントや CLI、オートメーションに「しゃべる/ナレーションする」機能を組み込みたい
- ボイスオーバー、解説動画、チュートリアル、研修動画を制作している
- 単一の CLI から ElevenLabs 品質の音声や、その他の特化 TTS モデルをまとめて使いたい
- Web GUI よりも コマンドライン中心のワークフローを好む
逆に、次のような場合には適さないかもしれません。
- CLI を使わない、完全にグラフィカルなインターフェースだけで完結したい
- 生の音声データセットから独自モデルを学習したい(このスキルの範囲外)
- inference.sh サービスに接続せず、ブラウザ内やローカルデバイスだけで完結させたい
典型的なユースケース
- YouTube やマーケティング動画向けの ナレーショントラック生成
- テキスト原稿から オーディオブックやポッドキャスト音声を生成
- 会話・セリフ用に複数の キャラクターボイスを作り分け
- ElevenLabs Voice Changer を使った 既存録音の声質変換
- エージェントやボット、インタラクティブツールへの 音声プロンプトやシステムボイスの追加
使い方
1. 前提条件とインストール方法
ai-voice-cloning を利用するには、次が必要です。
- inference.sh CLI(
infsh)へのアクセス - inference.sh API へ接続できるネットワーク環境
- Bash コマンドが実行可能なシェル環境
エージェント環境にスキルを組み込むには、次のコマンドを実行します。
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
これにより inferen-sh/skills からスキル定義が取得され、エージェントが関連ツール(主に infsh を呼ぶ Bash)を利用できるように登録されます。
エージェントを介さず CLI から直接使う場合は、inference.sh CLI 自体をインストールします。スキルの SKILL.md には、次の CLI インストールドキュメントへのリンクがあります。
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
このドキュメントの手順に従って、infsh をシステムにインストールしてください。
2. inference.sh にログインする
infsh をインストールしたら、次のコマンドで認証を行います。
infsh login
プロンプトに従ってログインし、CLI インストールガイドの説明どおりに認証情報を設定してください。
3. クイックスタート:Kokoro TTS で音声を生成
SKILL.md では、Kokoro TTS を使ったシンプルな例が紹介されています。ログイン後、次のコマンドで音声を生成できます。
infsh app run infsh/kokoro-tts --input '{
"prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
"voice": "af_sarah"
}'
このコマンドの動作は次のとおりです。
infsh/kokoro-ttsアプリを呼び出す- 読み上げるテキストを
promptに、利用する声をvoiceに指定した JSON を送信する - 合成音声を出力として生成する(出力パスやストリーミング挙動は CLI ドキュメントを参照)
このパターンをベースに、テキストや対応する voice を変えて利用できます。
4. 異なるモデルの利用(ElevenLabs、DIA など)
SKILL.md には、Available Models テーブルとして利用可能なモデルが一覧されています。抜粋から想定されるエントリは次のようなものです。
- ElevenLabs TTS – App ID:
elevenlabs/tts - ElevenLabs Voice Changer – App ID:
elevenlabs/voice-changer - Kokoro TTS – App ID:
infsh/kokoro-tts - DIA – App ID は
infsh/dia-...で始まる形式 - その他、説明中に言及されている Chatterbox、Higgs、VibeVoice などのモデル
別のアプリを呼び出す場合は、CLI コマンド内の App ID を変更します。例えば、ElevenLabs で TTS を行う典型的なパターンは次のようになります。
infsh app run elevenlabs/tts --input '{
"text": "This audio was generated using the ai-voice-cloning skill.",
"voice": "some_voice_id"
}'
具体的な入力スキーマ(prompt、text、voice_id などフィールド名の違い)は、リポジトリのドキュメントやモデルごとの README を確認してください。モデルごとに必要なパラメータが異なる場合があります。
5. ElevenLabs Voice Changer による声質変換 / ボイスクローン
このスキルの説明には、既存音声の変換に使う ElevenLabs Voice Changer(App ID elevenlabs/voice-changer)が明示的に含まれています。典型的な CLI 呼び出しでは、次のようなステップになります。
- 入力とする音声ファイル(元の録音)を指定
- 変換先の声や設定を指定
- 変換後の音声ファイルを出力
一般的なパターンは次のようになります。
infsh app run elevenlabs/voice-changer --input '{
"audio_url": "https://.../your-input-audio.wav",
"voice": "target_voice_id"
}'
利用可能なフィールド名や対応フォーマットは、inference.sh 上のアプリドキュメントで確認してください。
6. ai-voice-cloning をエージェントに統合する
npx skills add で ai-voice-cloning をスキルとして追加すると、inferen-sh/skills 形式を理解するエージェントプラットフォームは次のことが可能になります。
- Bash(infsh *) が利用可能なツールであることを認識
SKILL.mdの例や説明を手がかりに推論- 音声生成・変換のために、適切な
infsh app run ...コマンドを自動生成
エージェントでの挙動を調整したい場合は、以下の手順を行います。
tools/audio/ai-voice-cloningディレクトリ内のSKILL.mdを開く。- 掲載されているサンプル、利用可能なモデル一覧、ユースケースに関する注記を確認する。
- 自分のユースケースに合わせたプロンプトパターンや声の選択、後処理ステップを、エージェントの設定やオーケストレーションレイヤー側で定義する。
7. リポジトリ内で確認しておきたいファイル
スキルの定義や実際の使い方をより深く理解するには、次のファイルをチェックしておくとよいでしょう。
tools/audio/ai-voice-cloning/SKILL.md– スキルの基本説明、クイックスタート、モデル一覧- ルートディレクトリの
README.mdやcli-install.md– inference.sh 全体や CLI セットアップに関するガイド
そのほか、tools フォルダ内に関連ツール向けの補足ドキュメントが用意されている場合もあります。
FAQ
ai-voice-cloning は単体アプリですか? それともスキル定義ですか?
ai-voice-cloning は、inferen-sh/skills リポジトリ内の スキル定義 です。エージェントが inference.sh CLI(infsh)を使って AI 音声生成やボイスクローンを行う方法を記述しています。GUI アプリが提供されるわけではなく、コマンドラインや Bash を実行できるエージェントワークフローから、TTS や Voice Changer モデルを明確な形で呼び出せるようになるスキルです。
ai-voice-cloning を使うには何をインストールすればいいですか?
必要なものは次のとおりです。
- シェルから実行可能な inference.sh CLI(
infsh) - inference.sh 用の有効な認証情報(
infsh loginで設定) - Bash コマンドが実行できる環境(例:ローカルターミナルや、Bash を公開しているエージェント実行環境)
また、skills フォーマットに対応したエージェントプラットフォームへ統合する場合は、次のコマンドでスキルを追加します。
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
どの AI 音声モデルがサポートされていますか?
スキルの説明と SKILL.md によると、ai-voice-cloning は inference.sh 上で利用可能な複数モデルに対応するよう設計されています。具体的には次のようなモデルが含まれます。
- ElevenLabs TTS –
elevenlabs/tts - ElevenLabs Voice Changer –
elevenlabs/voice-changer - Kokoro TTS –
infsh/kokoro-tts - DIA 系 TTS アプリ(App ID は
infsh/dia-...形式) - 説明文に記載の Chatterbox、Higgs、VibeVoice など追加モデル
最新の対応モデルやパラメータは、SKILL.md 内の Available Models テーブルおよび inference.sh のドキュメントを参照してください。
ai-voice-cloning で長尺ナレーションは扱えますか?
はい。オーディオブックやポッドキャスト、動画ナレーションなどの 長尺ナレーション用途 に対応可能であると明記されています。ただし、テキストの分割方法、最大文字数、結合方法といった詳細は、各モデルの制約や inference.sh のランタイム仕様に依存します。非常に長い原稿を扱う場合は、まず短めのセクションで試し、モデルのドキュメントも確認してください。
ElevenLabs などのプロバイダを直接使う場合と何が違いますか?
ai-voice-cloning は次のような特徴があります。
- 共通インターフェースとして inference.sh CLI を利用
- 複数の TTS / Voice Changer モデル を、ほぼ同じ
infsh app run ...パターンで切り替え可能 - エージェントスキル や Bash スクリプト、自動化ワークフローとの統合がしやすい
すでに各プロバイダのネイティブ API を直接利用している場合でも、次のようなニーズがあれば ai-voice-cloning は有用です。
- 複数プロバイダ・複数モデルを抽象化した 一つの CLI を使いたい
skillsフォーマットに対応した エージェントフレームワークとの連携 を簡単にしたい
ai-voice-cloning はリアルタイムのストリーミング音声に対応していますか?
SKILL.md の抜粋では、infsh app run ... によるバッチ処理スタイルのコマンドが中心で、リアルタイムストリーミングについての明示的な説明はありません。ストリーミングや低レイテンシーの有無はスキルそのものではなく、inference.sh 上の各アプリ側の仕様に依存します。リアルタイム性が重要な場合は、利用予定のモデルに関する inference.sh のドキュメントを確認してください。
ai-voice-cloning で出力される音声のフォーマットは何ですか?
出力フォーマット(例:wav、mp3)や、ローカルファイル・URL といった配布方法は、infsh/kokoro-tts や elevenlabs/tts など、inference.sh 上の各アプリ側で決まります。スキル自体は特定の音声フォーマットを強制せず、「エージェントがこれらのモデルをどう呼ぶか」を定義しているだけです。具体的な仕様は、各アプリのドキュメントを確認するか、テストコマンドを実行してデフォルトの挙動を確認してください。
ai-voice-cloning が向かないケースは?
次のような要件がある場合は、別のソリューションを検討したほうがよいでしょう。
- CLI を一切使わない、完全ブラウザベースのワークフローが必要
- 外部 API を使わず、完全オフライン・オンデバイスの TTS が必須
- 大規模データセットからの 独自音声モデル学習 を最優先にしたい
そのような場合は、TTS プラグインを備えたデスクトップ DAW や、オンデバイスの TTS ライブラリなどを検討してください。一方で、スクリプト駆動・自動化された AI 音声生成を CLI やエージェント経由で行いたい場合には、ai-voice-cloning は有力な選択肢になります。
設定や高度なオプションについて、さらに詳しく知るには?
まずは次のリソースから確認するとよいでしょう。
inferen-sh/skillsリポジトリ内のtools/audio/ai-voice-cloning/SKILL.mdSKILL.mdから参照されている CLI インストールドキュメントcli-install.mdinfsh/kokoro-ttsやelevenlabs/ttsなど、inference.sh 上の各アプリに紐づくモデル別ドキュメント
これらを読むことで、ここで紹介したクイックスタートを超えた、最新のサンプルコマンドやパラメータ一覧、運用上の注意点などを把握できます。
