ai-podcast-creation

作成者 inferen-sh

Kokoro TTS、DIA TTS と inference.sh CLI を使って、テキストから AI 音声ポッドキャストやボイスコンテンツを作成できます。複数ボイスのミックス、BGM の追加、フルエピソードの組み立てまで、ポッドキャスト、オーディオブック、音声ニュースレター向けの制作を自動化します。

スター0

お気に入り0

追加日2026年3月27日

カテゴリーVoice Generation

インストールコマンド

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Audio Video Automation Workflow Cli Ai

概要

ai-podcast-creation とは？

ai-podcast-creation スキルは、inference.sh CLI を使って AI ベースのポッドキャストやボイスコンテンツを生成するためのワークフローです。Kokoro TTS や DIA TTS でテキストプロンプトを自然な音声に変換し、その後、音楽追加やメディア結合用のツールを組み合わせて、ポッドキャスト風のセグメントを丸ごと組み立てられるよう設計されています。

手作業での音声収録や編集ではなく、スクリプトから音声までを自動でつなぐパイプラインが欲しいクリエイター向けに最適化されたスキルです。

主な機能

ai-podcast-creation を使うと、次のことができます:

infsh app run infsh/kokoro-tts を通じて Kokoro TTS で 高品質なテキスト読み上げ音声 を生成。
af_sarah、af_nicole、am_michael などの あらかじめ用意された voice ID を使い、ホスト、ゲスト、ナレーターなど役割に応じた声を選択。
台本から直接 ポッドキャストのセグメントやナレーション を作成。
異なる voice ID で TTS アプリを複数回呼び出すことで、複数話者の会話 やキャラクターボイスを構成。
スキル内で説明されているように、DIA TTS、Chatterbox、AI music generation、media merger などの inference.sh アプリと連携して、BGM の追加やマルチトラックの組み立てを実現。

このスキルが向いている人

ai-podcast-creation は次のような方に向いています:

エピソードのプロトタイピングや自動生成をしたい ポッドキャスト制作者・制作チーム。
記事やニュースレターを音声化したい コンテンツマーケター。
CLI ベースのメディアワークフローを構築する インディー開発者 や 自動化エンジニア。
講義音声や解説コンテンツを作りたい 研究者・教育者。

一方、次のような用途にはあまり向きません:

ブラウザ上でのリアルタイム双方向のボイスチャット（このスキルは CLI 中心です）。
スキル内で完結する DAW 風の手動編集（音声を書き出し、別ツールで編集する前提です）。

ai-podcast-creation が特に有効な場面

このスキルの利用が適しているのは、次のようなケースです:

すでに 台本、ショーノート、長文コンテンツ を書いており、それを音声に変換したいとき。
GUI ツールよりも、ターミナルベースの自動化 や再現性の高いパイプラインを重視するとき。
本格的な制作環境を整える前に、さまざまな声を手軽に試してみたい とき。

次のような場合は、他の選択肢も検討してください:

DAW 内でのみ完結させる高度なポストプロセシングが必須な場合。
このスキルで必須となる inference.sh CLI (infsh) をインストール・利用できない場合。

使い方

前提条件

ai-podcast-creation を実行するには、以下が必要です:

macOS、Linux、または WSL/互換環境でのターミナルアクセス。
inference.sh CLI (infsh) がインストールされていること。
infsh login を実行するための有効な inference.sh アカウントと認証情報。

このスキルの SKILL.md には、次のように明記されています:

Requires inference.sh CLI (infsh). Install instructions

このリンク先の公式手順に従って CLI をインストールしてから、スキルの利用を始めてください。

1. ai-podcast-creation スキルをインストールする

Agent Skills CLI を使い、inferen-sh/skills リポジトリからスキルを追加します:

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

このコマンドにより ai-podcast-creation のガイドとメタデータが取得され、エージェントやツールチェーンから参照できるようになります。

2. inference.sh CLI をセットアップする

CLI をインストールしたら、次のコマンドで認証します:

infsh login

プロンプトに従って操作し、inference.sh アカウントでログインを完了してください。

ログイン後は、infsh/kokoro-tts などのアプリをターミナルやスクリプトから直接呼び出せます。

3. 最初のポッドキャストセグメントを生成する

ai-podcast-creation をすぐ試すには、SKILL.md に記載されている Kokoro TTS のサンプルを実行するのが簡単です:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

このコマンドでは:

prompt に指定したテキストを infsh/kokoro-tts アプリへ送信します。
am_michael ボイス（アメリカ英語男性・ドキュメンタリーやテック系に向いた落ち着いた声）を使用します。
生成された音声データが返されます。CLI の設定に応じてファイルとして保存したり、そのまま後段の処理にパイプしたりできます。

4. ボイスを選ぶ

スキルのドキュメントには、Available Voices → Kokoro TTS のセクションにボイステーブルがあります。例として:

af_sarah – アメリカ英語女性・温かみのある声。ホストやナレーター向き。
af_nicole – アメリカ英語女性・プロフェッショナルな声。ニュースやビジネス系番組向き。
am_michael – アメリカ英語男性・信頼感のある声。テック系やドキュメンタリーポッドキャスト向き。

コマンド内の voice を差し替えるだけで、簡単に声を変えられます:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

異なる voice と prompt でコマンドを複数回実行すれば、複数話者のセグメントを作成できます。生成した音声は、スキルで紹介されている他のアプリ（例: media merger）を使って、音楽や効果音と一緒に後から合成できます。

5. 再利用しやすいワークフローを構築する

単発のセリフ生成に慣れてきたら、プロセスをスクリプト化してワークフローとして整えましょう。例えば、次のような手順が考えられます:

エピソードの台本を episode01.txt のようなファイルに保存する。
ホストのオープニング、ゲストの回答、エンディングなど、セグメントごとに分割する。
各セグメントごとに、適切な voice を指定して infsh app run infsh/kokoro-tts を実行する。
inference.sh の他アプリ（AI music generation、media merger など）を利用し、オープニング曲や BGM、クロスフェードなどを追加する（スキルの説明を参照）。

リポジトリの抜粋では主に Kokoro TTS が扱われていますが、SKILL の説明では DIA TTS や Chatterbox への対応も示されています。これらのアプリも同様に infsh app run パターンで呼び出し、それぞれのドキュメントに記載されたパラメータを指定して利用します。

6. リポジトリ内のスキルドキュメントを読む

インストールが終わったら、より詳細な情報を得るためにスキル関連ファイルを確認しましょう:

SKILL.md – ai-podcast-creation のメインガイド。クイックスタートや利用可能なボイスの詳細などを収録。
リポジトリ内のその他の関連フォルダ（例: guides/content/ai-podcast-creation） – TTS とメディアワークフローに関する発展的な解説やサンプルを収録。

これらのドキュメントを参考に、次の点をブラッシュアップできます:

番組フォーマットに合わせたボイスの選び方。
TTS、音楽、メディア結合をどのような順序で組み合わせるか。
既存の自動化や CI/CD システムに、このワークフローをどう組み込むか。

FAQ

ai-podcast-creation では実際に何ができますか？

ai-podcast-creation は、inference.sh CLI と Kokoro TTS、DIA TTS、Chatterbox などのアプリを組み合わせて、テキストからポッドキャスト風の音声を生成する手順をまとめたワークフローです。ボイスの選択肢やコマンド例、音楽や編集ツールを使ってフルエピソードを組み立てるためのガイドが含まれています。

このスキルを使うには inference.sh CLI が必須ですか？

はい。スキルで明記されているとおり、inference.sh CLI (infsh) は必須です。以下のようなコマンドを実行する前に、インストールと infsh login を済ませる必要があります:

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

infsh がなければ、ai-podcast-creation のワークフローは動作しません。

このスキルで複数話者の会話を作れますか？

はい。コード例では単一ボイスのケースが示されていますが、スキルの説明では multi-voice conversations に対応していることが強調されています。実装方法は次のとおりです:

話者ごとに異なる voice ID を指定して、TTS アプリを複数回呼び出す。
各セリフまたはセグメントごとに別々の音声クリップを生成する。
スキル説明にあるようなメディア結合ツールを使い、それらのクリップ（必要に応じて音楽も）を 1 本のトラックにまとめる。

これはフル機能のポッドキャストエディタや DAW の代わりになりますか？

いいえ。ai-podcast-creation は、CLI アプリを使った生成と組み立てに特化しています。以下の用途には優れています:

スクリプトから音声への自動変換。
複数ボイスや AI 生成音楽の作成。
自動化やバッチ処理向けのワークフロー構築。

一方で、細かな波形編集やミキシング、マスタリングなどが必要な場合は、Audacity や Reaper などの専用 DAW を、生成した音声ファイルの後処理として利用してください。

ai-podcast-creation をオーディオブックやボイスオーバー制作に使えますか？

はい。スキルの説明では、audiobooks、voice content、audio newsletters を代表的なユースケースとして挙げています。ポッドキャスト向けと同じ TTS コマンドで、長文テキストや研修教材、プロモーション用スクリプトなどを読み上げることが可能です。作品のフォーマットに合わせて、台本の構成や voice の選び方を調整してください。

ai-podcast-creation はブラウザベースの AI ポッドキャストツールとどう違いますか？

ブラウザベースのツールは通常 GUI を提供しますが、ai-podcast-creation は CLI-first でスクリプトによる制御を前提としています。ai-podcast-creation が向いているのは、次のようなケースです:

自動化や再現性の高いコマンドラインワークフローを重視するとき。
既存のパイプライン、cron ジョブ、CI などに音声生成を組み込みたいとき。

一方で次のような場合はブラウザツールが向いています:

ポイント＆クリックで操作できるインターフェースが必要な場合。
ターミナルやスクリプトを使う予定がない場合。

利用可能なボイス一覧はどこで確認できますか？

Kokoro TTS のボイス一覧は、SKILL.md の Available Voices → Kokoro TTS セクションに掲載されています。inferen-sh/skills リポジトリ内の SKILL.md を開き、各 voice ID、説明、推奨用途（ホスト、ナレーター、ニュースなど）を確認してください。

コマンドが失敗した場合はどうトラブルシュートすればいいですか？

infsh app run が失敗する場合は、次の点を確認してください:

公式インストールガイドに従って inference.sh CLI が正しくインストールされているか。
infsh login を再度実行し、セッションが有効であるか。
--input で渡している JSON が正しい形式か（クォートやエスケープが正しいか）。
アプリ名（infsh/kokoro-tts）や voice ID が SKILL.md に記載されているものと一致しているか。

それでも解決しない場合は、inference.sh の公式ドキュメントやリポジトリの Issues を参照し、環境固有の問題についてサポート情報を確認してください。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing は、inference.sh CLI を使って音声や動画を自動で吹き替え・翻訳し、元の話者の声質を保ったまま 29 言語に変換できるスキルです。既存コンテンツの多言語化をすばやく高品質に行いたい動画編集者、ポッドキャスター、ローカリゼーションチームに最適です。

Video Editing

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

ElevenLabs の音声変換機能を inference.sh CLI（infsh）から利用し、録音済みの音声を内容と感情を保ったまま別の合成音声へ変換するスキルです。`eleven_multilingual_sts_v2`（70言語以上対応）と `eleven_english_sts_v2` に対応しており、スピーチ変換、アクセント変更、声の偽装などを用いたコンテンツ制作、吹き替え、キャラクターボイスに利用できます。

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

inference.sh CLI を通じて ElevenLabs Music、Diffrythm、Tencent Song Generation を利用し、テキストプロンプトから AI 音楽やフル楽曲を生成します。BGM、サウンドトラック、SNS クリップ、ポッドキャスト、ロイヤリティフリー音源に最適です。高速な楽曲生成、インストゥルメンタル、ボーカル入りフル楽曲に対応しています。

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Dia TTS と ElevenLabs を inference.sh CLI 経由で利用し、複数話者のリアルな会話音声を生成します。dialogue-audio スキルを使うと、ポッドキャスト、オーディオブック、解説コンテンツ、キャラクターシーンなどの会話コンテンツ向けに、話者・感情・テンポ・会話の流れを細かくコントロールできます。

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

ElevenLabs のテキスト読み上げ（text-to-speech）を inference.sh CLI 経由で利用できるスキルです。22種類以上のプレミアム音声、マルチリンガル対応、高速モデルを備え、本番運用向けの音声生成ワークフローに適しています。

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

inference.sh CLI を通じて ElevenLabs の Scribe v1/v2 モデルを利用する、高精度な音声認識（speech-to-text）スキルです。文字起こし、話者分離（スピーカー diarization）、音声イベントタグ付け、単語レベルのタイムスタンプ、フォースドアラインメント、字幕生成に対応しており、会議・ポッドキャストなどの音声ワークフローに適しています。

Audio Editing

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

inference.sh CLI と ElevenLabs を使って、テキストプロンプトからオリジナルの AI 音楽を生成します。ターミナルから直接、長さ・スタイル・雰囲気をコントロールしながら、商用利用可能なロイヤリティフリーの BGM、サウンドトラック、ジングル、ポッドキャスト用ベッド、ゲーム用オーディオを作成できます。

Audio Editing

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning は、CLI から利用できる AI 音声生成・テキスト読み上げ・ボイスクローン用の inference.sh ベースのスキルです。ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice などのモデルをまとめてラップし、自然な音声、多声ナレーション、音声変換を音声・動画制作プロジェクト向けに提供します。

Voice Generation

Favorites 0GitHub 0