ai-podcast-creation
作成者 inferen-shKokoro TTS、DIA TTS と inference.sh CLI を使って、テキストから AI 音声ポッドキャストやボイスコンテンツを作成できます。複数ボイスのミックス、BGM の追加、フルエピソードの組み立てまで、ポッドキャスト、オーディオブック、音声ニュースレター向けの制作を自動化します。
概要
ai-podcast-creation とは?
ai-podcast-creation スキルは、inference.sh CLI を使って AI ベースのポッドキャストやボイスコンテンツを生成するためのワークフローです。Kokoro TTS や DIA TTS でテキストプロンプトを自然な音声に変換し、その後、音楽追加やメディア結合用のツールを組み合わせて、ポッドキャスト風のセグメントを丸ごと組み立てられるよう設計されています。
手作業での音声収録や編集ではなく、スクリプトから音声までを自動でつなぐパイプラインが欲しいクリエイター向けに最適化されたスキルです。
主な機能
ai-podcast-creation を使うと、次のことができます:
infsh app run infsh/kokoro-ttsを通じて Kokoro TTS で 高品質なテキスト読み上げ音声 を生成。af_sarah、af_nicole、am_michaelなどの あらかじめ用意された voice ID を使い、ホスト、ゲスト、ナレーターなど役割に応じた声を選択。- 台本から直接 ポッドキャストのセグメントやナレーション を作成。
- 異なる voice ID で TTS アプリを複数回呼び出すことで、複数話者の会話 やキャラクターボイスを構成。
- スキル内で説明されているように、DIA TTS、Chatterbox、AI music generation、media merger などの inference.sh アプリと連携して、BGM の追加やマルチトラックの組み立てを実現。
このスキルが向いている人
ai-podcast-creation は次のような方に向いています:
- エピソードのプロトタイピングや自動生成をしたい ポッドキャスト制作者・制作チーム。
- 記事やニュースレターを音声化したい コンテンツマーケター。
- CLI ベースのメディアワークフローを構築する インディー開発者 や 自動化エンジニア。
- 講義音声や解説コンテンツを作りたい 研究者・教育者。
一方、次のような用途にはあまり向きません:
- ブラウザ上でのリアルタイム双方向のボイスチャット(このスキルは CLI 中心です)。
- スキル内で完結する DAW 風の手動編集(音声を書き出し、別ツールで編集する前提です)。
ai-podcast-creation が特に有効な場面
このスキルの利用が適しているのは、次のようなケースです:
- すでに 台本、ショーノート、長文コンテンツ を書いており、それを音声に変換したいとき。
- GUI ツールよりも、ターミナルベースの自動化 や再現性の高いパイプラインを重視するとき。
- 本格的な制作環境を整える前に、さまざまな声を手軽に試してみたい とき。
次のような場合は、他の選択肢も検討してください:
- DAW 内でのみ完結させる高度なポストプロセシングが必須な場合。
- このスキルで必須となる inference.sh CLI (
infsh) をインストール・利用できない場合。
使い方
前提条件
ai-podcast-creation を実行するには、以下が必要です:
- macOS、Linux、または WSL/互換環境でのターミナルアクセス。
- inference.sh CLI (
infsh) がインストールされていること。 infsh loginを実行するための有効な inference.sh アカウントと認証情報。
このスキルの SKILL.md には、次のように明記されています:
Requires inference.sh CLI (
infsh). Install instructions
このリンク先の公式手順に従って CLI をインストールしてから、スキルの利用を始めてください。
1. ai-podcast-creation スキルをインストールする
Agent Skills CLI を使い、inferen-sh/skills リポジトリからスキルを追加します:
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
このコマンドにより ai-podcast-creation のガイドとメタデータが取得され、エージェントやツールチェーンから参照できるようになります。
2. inference.sh CLI をセットアップする
CLI をインストールしたら、次のコマンドで認証します:
infsh login
プロンプトに従って操作し、inference.sh アカウントでログインを完了してください。
ログイン後は、infsh/kokoro-tts などのアプリをターミナルやスクリプトから直接呼び出せます。
3. 最初のポッドキャストセグメントを生成する
ai-podcast-creation をすぐ試すには、SKILL.md に記載されている Kokoro TTS のサンプルを実行するのが簡単です:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
"voice": "am_michael"
}'
このコマンドでは:
promptに指定したテキストをinfsh/kokoro-ttsアプリへ送信します。am_michaelボイス(アメリカ英語男性・ドキュメンタリーやテック系に向いた落ち着いた声)を使用します。- 生成された音声データが返されます。CLI の設定に応じてファイルとして保存したり、そのまま後段の処理にパイプしたりできます。
4. ボイスを選ぶ
スキルのドキュメントには、Available Voices → Kokoro TTS のセクションにボイステーブルがあります。例として:
af_sarah– アメリカ英語女性・温かみのある声。ホストやナレーター向き。af_nicole– アメリカ英語女性・プロフェッショナルな声。ニュースやビジネス系番組向き。am_michael– アメリカ英語男性・信頼感のある声。テック系やドキュメンタリーポッドキャスト向き。
コマンド内の voice を差し替えるだけで、簡単に声を変えられます:
infsh app run infsh/kokoro-tts --input '{
"prompt": "In today\'s episode, we break down three key trends in machine learning.",
"voice": "af_nicole"
}'
異なる voice と prompt でコマンドを複数回実行すれば、複数話者のセグメントを作成できます。生成した音声は、スキルで紹介されている他のアプリ(例: media merger)を使って、音楽や効果音と一緒に後から合成できます。
5. 再利用しやすいワークフローを構築する
単発のセリフ生成に慣れてきたら、プロセスをスクリプト化してワークフローとして整えましょう。例えば、次のような手順が考えられます:
- エピソードの台本を
episode01.txtのようなファイルに保存する。 - ホストのオープニング、ゲストの回答、エンディングなど、セグメントごとに分割する。
- 各セグメントごとに、適切な voice を指定して
infsh app run infsh/kokoro-ttsを実行する。 - inference.sh の他アプリ(AI music generation、media merger など)を利用し、オープニング曲や BGM、クロスフェードなどを追加する(スキルの説明を参照)。
リポジトリの抜粋では主に Kokoro TTS が扱われていますが、SKILL の説明では DIA TTS や Chatterbox への対応も示されています。これらのアプリも同様に infsh app run パターンで呼び出し、それぞれのドキュメントに記載されたパラメータを指定して利用します。
6. リポジトリ内のスキルドキュメントを読む
インストールが終わったら、より詳細な情報を得るためにスキル関連ファイルを確認しましょう:
SKILL.md– ai-podcast-creation のメインガイド。クイックスタートや利用可能なボイスの詳細などを収録。- リポジトリ内のその他の関連フォルダ(例:
guides/content/ai-podcast-creation) – TTS とメディアワークフローに関する発展的な解説やサンプルを収録。
これらのドキュメントを参考に、次の点をブラッシュアップできます:
- 番組フォーマットに合わせたボイスの選び方。
- TTS、音楽、メディア結合をどのような順序で組み合わせるか。
- 既存の自動化や CI/CD システムに、このワークフローをどう組み込むか。
FAQ
ai-podcast-creation では実際に何ができますか?
ai-podcast-creation は、inference.sh CLI と Kokoro TTS、DIA TTS、Chatterbox などのアプリを組み合わせて、テキストからポッドキャスト風の音声を生成する手順をまとめたワークフローです。ボイスの選択肢やコマンド例、音楽や編集ツールを使ってフルエピソードを組み立てるためのガイドが含まれています。
このスキルを使うには inference.sh CLI が必須ですか?
はい。スキルで明記されているとおり、inference.sh CLI (infsh) は必須です。以下のようなコマンドを実行する前に、インストールと infsh login を済ませる必要があります:
infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'
infsh がなければ、ai-podcast-creation のワークフローは動作しません。
このスキルで複数話者の会話を作れますか?
はい。コード例では単一ボイスのケースが示されていますが、スキルの説明では multi-voice conversations に対応していることが強調されています。実装方法は次のとおりです:
- 話者ごとに異なる
voiceID を指定して、TTS アプリを複数回呼び出す。 - 各セリフまたはセグメントごとに別々の音声クリップを生成する。
- スキル説明にあるようなメディア結合ツールを使い、それらのクリップ(必要に応じて音楽も)を 1 本のトラックにまとめる。
これはフル機能のポッドキャストエディタや DAW の代わりになりますか?
いいえ。ai-podcast-creation は、CLI アプリを使った生成と組み立てに特化しています。以下の用途には優れています:
- スクリプトから音声への自動変換。
- 複数ボイスや AI 生成音楽の作成。
- 自動化やバッチ処理向けのワークフロー構築。
一方で、細かな波形編集やミキシング、マスタリングなどが必要な場合は、Audacity や Reaper などの専用 DAW を、生成した音声ファイルの後処理として利用してください。
ai-podcast-creation をオーディオブックやボイスオーバー制作に使えますか?
はい。スキルの説明では、audiobooks、voice content、audio newsletters を代表的なユースケースとして挙げています。ポッドキャスト向けと同じ TTS コマンドで、長文テキストや研修教材、プロモーション用スクリプトなどを読み上げることが可能です。作品のフォーマットに合わせて、台本の構成や voice の選び方を調整してください。
ai-podcast-creation はブラウザベースの AI ポッドキャストツールとどう違いますか?
ブラウザベースのツールは通常 GUI を提供しますが、ai-podcast-creation は CLI-first でスクリプトによる制御を前提としています。ai-podcast-creation が向いているのは、次のようなケースです:
- 自動化や再現性の高いコマンドラインワークフローを重視するとき。
- 既存のパイプライン、cron ジョブ、CI などに音声生成を組み込みたいとき。
一方で次のような場合はブラウザツールが向いています:
- ポイント&クリックで操作できるインターフェースが必要な場合。
- ターミナルやスクリプトを使う予定がない場合。
利用可能なボイス一覧はどこで確認できますか?
Kokoro TTS のボイス一覧は、SKILL.md の Available Voices → Kokoro TTS セクションに掲載されています。inferen-sh/skills リポジトリ内の SKILL.md を開き、各 voice ID、説明、推奨用途(ホスト、ナレーター、ニュースなど)を確認してください。
コマンドが失敗した場合はどうトラブルシュートすればいいですか?
infsh app run が失敗する場合は、次の点を確認してください:
- 公式インストールガイドに従って inference.sh CLI が正しくインストールされているか。
infsh loginを再度実行し、セッションが有効であるか。--inputで渡している JSON が正しい形式か(クォートやエスケープが正しいか)。- アプリ名(
infsh/kokoro-tts)や voice ID がSKILL.mdに記載されているものと一致しているか。
それでも解決しない場合は、inference.sh の公式ドキュメントやリポジトリの Issues を参照し、環境固有の問題についてサポート情報を確認してください。
