I

dialogue-audio

作成者 inferen-sh

Dia TTS と ElevenLabs を inference.sh CLI 経由で利用し、複数話者のリアルな会話音声を生成します。dialogue-audio スキルを使うと、ポッドキャスト、オーディオブック、解説コンテンツ、キャラクターシーンなどの会話コンテンツ向けに、話者・感情・テンポ・会話の流れを細かくコントロールできます。

スター0
お気に入り0
コメント0
追加日2026年3月27日
カテゴリーVoice Generation
インストールコマンド
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
概要

概要

dialogue-audio スキルでできること

dialogue-audio スキルは、inference.sh (infsh) CLI 経由で Dia TTS を利用し、テキストで書かれた会話を自然な 複数話者音声 に変換します。バックエンドでは ElevenLabs クオリティのボイスにも対応しています。

このスキルは次のような用途向けに設計されています:

  • 2 人のキャラクターによる会話
  • ポッドキャスト風の対談やインタビュー
  • 登場人物が交互に話すオーディオブックのシーン
  • 司会者/ゲスト形式の解説コンテンツ
  • キャラクターの掛け合いやボイスアクティングのプロトタイプ

このスキルが重視しているポイント:

  • [S1][S2] のようなシンプルなタグによる 話者の分離
  • セッション内での話者ごとの ボイスの一貫性
  • 言葉選びや句読点を通じた 感情・表現コントロール
  • かけ合い会話における テンポと流れ
  • 生成した音声を既存のメディア制作フローに組み込むための ポストプロダクションの指針

コマンドラインから 2 人の台本をまとめて仕上げた会話音声に自動変換したい場合、dialogue-audio はまさにそのユースケース向けに作られています。

このスキルが向いているユーザー

このスキルは次のような方に適しています:

  • 会話の草案作成やシミュレーションをしたい ポッドキャスター
  • タイムラインにボイスを載せていく オーディオプロデューサー動画編集者
  • 会話が多いシーンを書く 小説家脚本家
  • CLI と再現性の高いワークフローを好む 開発者自動化志向のクリエイター

逆に、次のようなニーズには 向いていません:

  • 3 人以上の話者を 1 度の生成で扱いたい 場合
  • 複雑なサウンドデザイン、BGM、ミックスを自動で完結させたい場合
  • コマンドラインではなく、クリック操作中心の GUI ツールだけで完結させたい場合

こうした用途では、別途 DAW ツールやマルチスピーカー対応の TTS サービスを併用しつつ、dialogue-audio は中核となる 2 話者の会話トラック生成に絞って使うとよいでしょう。

必要なもの(概要)

効果的に dialogue-audio を使うには、以下が必要です:

  • inference.sh CLI (infsh) へのアクセス
  • ターミナル/コマンドライン環境(macOS・Linux・シェル環境付きの Windows)
  • テキストプロンプトの編集と CLI コマンド実行に関する基礎知識

使い方

1. dialogue-audio スキルのインストール

npx を使って、dialogue-audio スキルを Agent 環境に追加できます:

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

このコマンドにより、inferen-sh/skills リポジトリから dialogue-audio の設定が取得され、再利用可能なワークフローとして使えるようになります。

続いて、inference.sh CLI (infsh) がインストールされていることを確認してください。公式手順は以下を参照します:

  • CLI インストール手順: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

インストール後、次で認証します:

infsh login

2. コアとなるワークフローを理解する

dialogue-audio の中核は、infsh 経由で Dia TTS アプリを呼び出すことです:

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

このコマンドは次のことを行います:

  • falai/dia-tts アプリを呼び出す
  • prompt を含む JSON 形式の入力ペイロードを送信する
  • [S1][S2] のタグで話者の交代を指定する
  • 会話全体の 対話音声 を生成して返す

dialogue-audio スキルはこのパターンをラップし、プロンプト構成をサポートしながら、2 話者を明確に扱い、表情やテンポを調整しやすい形のワークフローにまとめています。

3. 話者タグの正しい使い方

Dia TTS は 話者タグ に基づいて、誰が話しているかを判断します:

  • [S1] — 話者 1(自動的に Voice A が割り当て)
  • [S2] — 話者 2(自動的に Voice B が割り当て)

主なルール:

  • 各セリフは 必ず該当するタグから開始 する
  • タグは 大文字 で記述する: [S1], [S2][s1][speaker1] は不可)
  • 1 回の生成で扱える話者は 最大 2 人
  • 各話者には、セッションを通して 一貫したボイス が割り当てられる

シンプルな 2 話者プロンプトの例:

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. 感情・トーン・テンポの調整

dialogue-audio スキルでは、生成される音声に影響を与えるために、自然な文章表現を積極的に使うことを推奨しています:

  • 句読点(カンマ、三点リーダー、感嘆符など)で 間や強調 をコントロールする
  • 短い文 を多用して、テンポの良いキビキビした会話にする
  • 長めのフレーズ や描写的な表現を使って、落ち着いた・内省的な話し方にする
  • 必要に応じて、感情を示す ト書き(ステージ・ディレクション) を括弧内に少量だけ入れる例:
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

細かな修正を加えつつコマンドを再実行し、トーンやテンポの変化を聞き比べてみてください。

5. 会話の流れをブラッシュアップする

dialogue-audio でより良い結果を得るには、次の点を意識します:

  • まずテキストエディタで会話全体を下書きする
  • すべてのセリフに正しいタグが付き、余計なタグが紛れ込んでいないか確認する
  • 1 つの発話は 簡潔に 保つ(長い独白は会話らしさが薄れやすい)
  • シーンが複雑な場合は、必要に応じて 複数回の生成 に分け、編集ソフト上でつなぎ合わせる

infsh app run falai/dia-tts のプロンプトを少しずつ調整して何度か実行し、テンポや感情のニュアンスがプロジェクトに合うところまで詰めていきます。

6. ポストプロダクションとワークフローへの統合

Dia TTS からの出力は、そのまま普段使いのツールに取り込める音声ファイルです。dialogue-audio スキルは ボイス生成 に特化しており、フルミックスまでは行いませんが、例えば次のような作業が可能です:

  • 生成した会話音声を DAW(Audacity, Reaper, Logic Pro など)にインポート
  • BGM効果音、ルームトーンを追加
  • 音量、EQ、コンプレッションを調整し、作品全体の音質に合わせる
  • Premiere Pro、Final Cut、DaVinci Resolve などのエディタで 動画 と会話トラックを同期

このように、dialogue-audio は大規模なオーディオ/ビデオ制作フローの「部品」として、複数話者の演技部分を生成し、仕上げは既存ツールで行う、という使い方に適しています。

7. リポジトリで確認しておきたいファイル

インストール後、inferen-sh/skills リポジトリ内のスキル定義を確認すると、より詳しい文脈が把握できます:

  • SKILL.md — dialogue-audio ワークフローの概要、クイックスタート、使用メモ

自分の自動化や CI パイプラインに合わせてセットアップをカスタマイズする際のリファレンスとして利用してください。


FAQ

dialogue-audio では本当に 2 人までしか扱えませんか?

はい。dialogue-audio スキルは Dia TTS を通じて、[S1][S2] タグを用いた 最大 2 話者までの生成 を前提に設計されています。登場人物がそれ以上いる場合は、次のような方法が考えられます:

  • その時点で会話する 2 人にフォーカスして生成する
  • 台本を複数の会話セグメントに分割し、ポストプロダクションでつなぎ合わせる

dialogue-audio を使うには inference.sh CLI が必須ですか?

はい。dialogue-audio スキルは inference.sh CLI (infsh) に依存しています。infsh をインストールし、infsh login でログインしたうえで、infsh app run falai/dia-tts をプロンプト付きで呼び出す必要があります。infsh がないと、このワークフローから基盤となる Dia TTS アプリにアクセスできません。

ElevenLabs の特定のボイスを話者ごとに指定できますか?

リポジトリのドキュメントによると、ボイスは話者ごとに 自動割り当て されます。つまり、[S1] は 1 つのボイス、[S2] は別のボイスにマッピングされ、セッション内で一貫して使用されます。このスキルでは、話者ごとのボイスを明示的に選択する方法はドキュメント化されていません。そのため、ボイス選択はプロンプト内で ID を指定するというより、Dia TTS/inference.sh 側の設定に委ねられているものとして扱ってください。

会話の感情や強さはどのようにコントロールすればよいですか?

dialogue-audio スキルでは、明示的な「感情スライダー」ではなく、プロンプトの書き方句読点 によって表現をコントロールします。例えば:

  • "shouted", "whispered", "nervously" など感情を含んだ表現を使う
  • ..., !, ? といった句読点を調整して、間の長さや強調を変える
  • 必要に応じて (whispering)(frustrated) のような簡潔なカッコ書きの指示を加える

小さなバリエーションをいくつか試しながら、モデルの反応を聞き比べ、自分のプロジェクトに合うスタイルを見つけてください。

dialogue-audio は長編オーディオブックにも向いていますか?

2 人の会話が中心のパート であれば、長編コンテンツでも十分活用できます。とくに長い作品では、次のような運用が現実的です:

  • 台本を シーンや章などの論理的な区切り ごとに分割する
  • セグメントごとに音声を生成し、DAW 内で整理する
  • セグメント間でタグとトーンが一貫するよう注意する

話者が多数登場したり、ナレーションスタイルが複雑に切り替わるオーディオブックの場合は、この 2 話者特化スキルに加え、別の TTS セットアップも併用する必要があるかもしれません。

dialogue-audio をより大きなワークフローの中で自動化できますか?

はい。dialogue-audio は infsh CLI を土台としているため、スクリプトや自動化環境との相性が良好です:

  • infsh app run falai/dia-tts コマンドをシェルスクリプトに組み込む
  • CI/CD パイプラインや定期実行ジョブから生成処理を走らせる
  • inferen-sh/skills の他スキルと組み合わせて、より大きなコンテンツパイプラインを構築する

テキストドリブンで再現性の高い音声生成を求める開発者・テクニカルユーザーにとくに向いています。

どんな場合に dialogue-audio は向いていませんか?

次のようなケースでは、他の選択肢を検討してください:

  • 1 回の生成で 3 種類以上の声 を扱いたい
  • コマンドラインを使わず、完全に GUI だけのワークフロー にしたい
  • 会話生成だけでなく、BGM や効果音を含めた 自動ミックスまで完結 させたい

そのような場合は、専用のオーディオツールやマルチスピーカー対応 TTS サービスを DAW と組み合わせて使い、2 話者のクリアな会話が必要な部分だけ dialogue-audio を利用する構成が現実的です。

設定内容の全体像はどこで確認できますか?

inferen-sh/skills リポジトリ内の dialogue-audio セクションを開いてください:

  • Repo: https://github.com/inferen-sh/skills
  • Skill path: tools/audio/dialogue-audio

まずは SKILL.md を読み、想定されている使い方や、Dia TTS 連携・CLI コマンドに関する最新の注意点を把握することをおすすめします。

評価とレビュー

まだ評価がありません
レビューを投稿
このスキルの評価やコメントを投稿するにはサインインしてください。
G
0/10000
新着レビュー
保存中...