I

ai-voice-cloning

作成者 inferen-sh

ai-voice-cloning は、CLI から利用できる AI 音声生成・テキスト読み上げ・ボイスクローン用の inference.sh ベースのスキルです。ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice などのモデルをまとめてラップし、自然な音声、多声ナレーション、音声変換を音声・動画制作プロジェクト向けに提供します。

スター0
お気に入り0
コメント0
追加日2026年3月27日
カテゴリーVoice Generation
インストールコマンド
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
概要

概要

ai-voice-cloning とは?

ai-voice-cloning は、inference.sh プラットフォーム上に構築された、CLI 特化の AI 音声生成・ボイスクローン用スキルです。ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice などのテキスト読み上げ・音声変換モデルをコマンドラインから呼び出せます。

このスキルは inferen-sh/skills リポジトリで定義されており、infshinference.sh CLI)経由で Bash を呼び出せるエージェントのワークフローに組み込むことを想定しています。モデル学習やデータセット管理ではなく、「自然な音声の生成」と「既存の音声の変換」にフォーカスした設計です。

主な機能

  • infsh app run ... を使った CLI からのテキスト読み上げ (TTS)
  • elevenlabs/ttsinfsh/kokoro-tts など、複数の AI 音声モデルを一括で利用
  • ElevenLabs Voice Changer による 既存音声のボイスクローン / 声質変換
  • (ElevenLabs モデル仕様に準拠した)多言語・多声サポート
  • ボイスオーバー、オーディオブック、ポッドキャスト向けの 長尺ナレーション生成
  • 自然な会話感や抑揚を重視した 会話スタイル・表現力のある読み上げ

ai-voice-cloning は単体アプリではなく「スキル定義」のため、inference.sh CLI と、Bash コマンド実行が許可されているエージェントやツール経由で操作します。

ai-voice-cloning が向いている人

このスキルは次のような用途に適しています。

  • 音声・動画制作で、スクリプトから素早く音声を生成したい
  • AI エージェントや CLI、オートメーションに「しゃべる/ナレーションする」機能を組み込みたい
  • ボイスオーバー、解説動画、チュートリアル、研修動画を制作している
  • 単一の CLI から ElevenLabs 品質の音声や、その他の特化 TTS モデルをまとめて使いたい
  • Web GUI よりも コマンドライン中心のワークフローを好む

逆に、次のような場合には適さないかもしれません。

  • CLI を使わない、完全にグラフィカルなインターフェースだけで完結したい
  • 生の音声データセットから独自モデルを学習したい(このスキルの範囲外)
  • inference.sh サービスに接続せず、ブラウザ内やローカルデバイスだけで完結させたい

典型的なユースケース

  • YouTube やマーケティング動画向けの ナレーショントラック生成
  • テキスト原稿から オーディオブックやポッドキャスト音声を生成
  • 会話・セリフ用に複数の キャラクターボイスを作り分け
  • ElevenLabs Voice Changer を使った 既存録音の声質変換
  • エージェントやボット、インタラクティブツールへの 音声プロンプトやシステムボイスの追加

使い方

1. 前提条件とインストール方法

ai-voice-cloning を利用するには、次が必要です。

  • inference.sh CLIinfsh)へのアクセス
  • inference.sh API へ接続できるネットワーク環境
  • Bash コマンドが実行可能なシェル環境

エージェント環境にスキルを組み込むには、次のコマンドを実行します。

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

これにより inferen-sh/skills からスキル定義が取得され、エージェントが関連ツール(主に infsh を呼ぶ Bash)を利用できるように登録されます。

エージェントを介さず CLI から直接使う場合は、inference.sh CLI 自体をインストールします。スキルの SKILL.md には、次の CLI インストールドキュメントへのリンクがあります。

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

このドキュメントの手順に従って、infsh をシステムにインストールしてください。

2. inference.sh にログインする

infsh をインストールしたら、次のコマンドで認証を行います。

infsh login

プロンプトに従ってログインし、CLI インストールガイドの説明どおりに認証情報を設定してください。

3. クイックスタート:Kokoro TTS で音声を生成

SKILL.md では、Kokoro TTS を使ったシンプルな例が紹介されています。ログイン後、次のコマンドで音声を生成できます。

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

このコマンドの動作は次のとおりです。

  • infsh/kokoro-tts アプリを呼び出す
  • 読み上げるテキストを prompt に、利用する声を voice に指定した JSON を送信する
  • 合成音声を出力として生成する(出力パスやストリーミング挙動は CLI ドキュメントを参照)

このパターンをベースに、テキストや対応する voice を変えて利用できます。

4. 異なるモデルの利用(ElevenLabs、DIA など)

SKILL.md には、Available Models テーブルとして利用可能なモデルが一覧されています。抜粋から想定されるエントリは次のようなものです。

  • ElevenLabs TTS – App ID: elevenlabs/tts
  • ElevenLabs Voice Changer – App ID: elevenlabs/voice-changer
  • Kokoro TTS – App ID: infsh/kokoro-tts
  • DIA – App ID は infsh/dia-... で始まる形式
  • その他、説明中に言及されている ChatterboxHiggsVibeVoice などのモデル

別のアプリを呼び出す場合は、CLI コマンド内の App ID を変更します。例えば、ElevenLabs で TTS を行う典型的なパターンは次のようになります。

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

具体的な入力スキーマ(prompttextvoice_id などフィールド名の違い)は、リポジトリのドキュメントやモデルごとの README を確認してください。モデルごとに必要なパラメータが異なる場合があります。

5. ElevenLabs Voice Changer による声質変換 / ボイスクローン

このスキルの説明には、既存音声の変換に使う ElevenLabs Voice Changer(App ID elevenlabs/voice-changer)が明示的に含まれています。典型的な CLI 呼び出しでは、次のようなステップになります。

  1. 入力とする音声ファイル(元の録音)を指定
  2. 変換先の声や設定を指定
  3. 変換後の音声ファイルを出力

一般的なパターンは次のようになります。

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

利用可能なフィールド名や対応フォーマットは、inference.sh 上のアプリドキュメントで確認してください。

6. ai-voice-cloning をエージェントに統合する

npx skills add で ai-voice-cloning をスキルとして追加すると、inferen-sh/skills 形式を理解するエージェントプラットフォームは次のことが可能になります。

  • Bash(infsh *) が利用可能なツールであることを認識
  • SKILL.md の例や説明を手がかりに推論
  • 音声生成・変換のために、適切な infsh app run ... コマンドを自動生成

エージェントでの挙動を調整したい場合は、以下の手順を行います。

  1. tools/audio/ai-voice-cloning ディレクトリ内の SKILL.md を開く。
  2. 掲載されているサンプル、利用可能なモデル一覧、ユースケースに関する注記を確認する。
  3. 自分のユースケースに合わせたプロンプトパターンや声の選択、後処理ステップを、エージェントの設定やオーケストレーションレイヤー側で定義する。

7. リポジトリ内で確認しておきたいファイル

スキルの定義や実際の使い方をより深く理解するには、次のファイルをチェックしておくとよいでしょう。

  • tools/audio/ai-voice-cloning/SKILL.md – スキルの基本説明、クイックスタート、モデル一覧
  • ルートディレクトリの README.mdcli-install.mdinference.sh 全体や CLI セットアップに関するガイド

そのほか、tools フォルダ内に関連ツール向けの補足ドキュメントが用意されている場合もあります。


FAQ

ai-voice-cloning は単体アプリですか? それともスキル定義ですか?

ai-voice-cloning は、inferen-sh/skills リポジトリ内の スキル定義 です。エージェントが inference.sh CLI(infsh)を使って AI 音声生成やボイスクローンを行う方法を記述しています。GUI アプリが提供されるわけではなく、コマンドラインや Bash を実行できるエージェントワークフローから、TTS や Voice Changer モデルを明確な形で呼び出せるようになるスキルです。

ai-voice-cloning を使うには何をインストールすればいいですか?

必要なものは次のとおりです。

  • シェルから実行可能な inference.sh CLIinfsh
  • inference.sh 用の有効な認証情報(infsh login で設定)
  • Bash コマンドが実行できる環境(例:ローカルターミナルや、Bash を公開しているエージェント実行環境)

また、skills フォーマットに対応したエージェントプラットフォームへ統合する場合は、次のコマンドでスキルを追加します。

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

どの AI 音声モデルがサポートされていますか?

スキルの説明と SKILL.md によると、ai-voice-cloning は inference.sh 上で利用可能な複数モデルに対応するよう設計されています。具体的には次のようなモデルが含まれます。

  • ElevenLabs TTSelevenlabs/tts
  • ElevenLabs Voice Changerelevenlabs/voice-changer
  • Kokoro TTSinfsh/kokoro-tts
  • DIA 系 TTS アプリ(App ID は infsh/dia-... 形式)
  • 説明文に記載の ChatterboxHiggsVibeVoice など追加モデル

最新の対応モデルやパラメータは、SKILL.md 内の Available Models テーブルおよび inference.sh のドキュメントを参照してください。

ai-voice-cloning で長尺ナレーションは扱えますか?

はい。オーディオブックやポッドキャスト、動画ナレーションなどの 長尺ナレーション用途 に対応可能であると明記されています。ただし、テキストの分割方法、最大文字数、結合方法といった詳細は、各モデルの制約や inference.sh のランタイム仕様に依存します。非常に長い原稿を扱う場合は、まず短めのセクションで試し、モデルのドキュメントも確認してください。

ElevenLabs などのプロバイダを直接使う場合と何が違いますか?

ai-voice-cloning は次のような特徴があります。

  • 共通インターフェースとして inference.sh CLI を利用
  • 複数の TTS / Voice Changer モデル を、ほぼ同じ infsh app run ... パターンで切り替え可能
  • エージェントスキル や Bash スクリプト、自動化ワークフローとの統合がしやすい

すでに各プロバイダのネイティブ API を直接利用している場合でも、次のようなニーズがあれば ai-voice-cloning は有用です。

  • 複数プロバイダ・複数モデルを抽象化した 一つの CLI を使いたい
  • skills フォーマットに対応した エージェントフレームワークとの連携 を簡単にしたい

ai-voice-cloning はリアルタイムのストリーミング音声に対応していますか?

SKILL.md の抜粋では、infsh app run ... によるバッチ処理スタイルのコマンドが中心で、リアルタイムストリーミングについての明示的な説明はありません。ストリーミングや低レイテンシーの有無はスキルそのものではなく、inference.sh 上の各アプリ側の仕様に依存します。リアルタイム性が重要な場合は、利用予定のモデルに関する inference.sh のドキュメントを確認してください。

ai-voice-cloning で出力される音声のフォーマットは何ですか?

出力フォーマット(例:wavmp3)や、ローカルファイル・URL といった配布方法は、infsh/kokoro-ttselevenlabs/tts など、inference.sh 上の各アプリ側で決まります。スキル自体は特定の音声フォーマットを強制せず、「エージェントがこれらのモデルをどう呼ぶか」を定義しているだけです。具体的な仕様は、各アプリのドキュメントを確認するか、テストコマンドを実行してデフォルトの挙動を確認してください。

ai-voice-cloning が向かないケースは?

次のような要件がある場合は、別のソリューションを検討したほうがよいでしょう。

  • CLI を一切使わない、完全ブラウザベースのワークフローが必要
  • 外部 API を使わず、完全オフライン・オンデバイスの TTS が必須
  • 大規模データセットからの 独自音声モデル学習 を最優先にしたい

そのような場合は、TTS プラグインを備えたデスクトップ DAW や、オンデバイスの TTS ライブラリなどを検討してください。一方で、スクリプト駆動・自動化された AI 音声生成を CLI やエージェント経由で行いたい場合には、ai-voice-cloning は有力な選択肢になります。

設定や高度なオプションについて、さらに詳しく知るには?

まずは次のリソースから確認するとよいでしょう。

  • inferen-sh/skills リポジトリ内の tools/audio/ai-voice-cloning/SKILL.md
  • SKILL.md から参照されている CLI インストールドキュメント cli-install.md
  • infsh/kokoro-ttselevenlabs/tts など、inference.sh 上の各アプリに紐づくモデル別ドキュメント

これらを読むことで、ここで紹介したクイックスタートを超えた、最新のサンプルコマンドやパラメータ一覧、運用上の注意点などを把握できます。

評価とレビュー

まだ評価がありません
レビューを投稿
このスキルの評価やコメントを投稿するにはサインインしてください。
G
0/10000
新着レビュー
保存中...