ai-music-generation
作成者 inferen-shinference.sh CLI を通じて ElevenLabs Music、Diffrythm、Tencent Song Generation を利用し、テキストプロンプトから AI 音楽やフル楽曲を生成します。BGM、サウンドトラック、SNS クリップ、ポッドキャスト、ロイヤリティフリー音源に最適です。高速な楽曲生成、インストゥルメンタル、ボーカル入りフル楽曲に対応しています。
概要
ai-music-generation とは?
ai-music-generation スキルは、inference.sh CLI(infsh)を使って、シンプルなテキストプロンプトからオリジナルの音楽やフル楽曲を生成できるスキルです。エージェントや CLI ベースのワークフローから複数の AI 音楽モデルに接続できるため、ターミナルから離れずに BGM、イントロ、ジングル、ボーカル入りフル楽曲まで素早く作成できます。
内部的には、ai-music-generation は inference.sh 上のホストアプリを呼び出しており、音楽生成をスクリプトや自動化に組み込みやすい、クリーンで再現性の高い仕組みを提供します。
主な機能
ai-music-generation を使うと、次のことができます:
- テキストプロンプトから音楽を生成: ジャンル、ムード、テンポ、楽器構成などを自然な文章で指定できます。
- フル楽曲から短いクリップまで生成: SNS 用の短いジングルから、動画やポッドキャスト用の長めのトラックまで対応。
- 複数モデルから選択(inference.sh の apps 経由):
- ElevenLabs Music(
elevenlabs/music): 約 10 分までの長尺トラック、商用利用に配慮したライセンス。 - Diffrythm(
infsh/diffrythm): 高速な text-to-song 生成に最適で、素早い試行錯誤向き。 - Tencent Song Generation(
infsh/tencent-song-generation): ボーカル入りのフル楽曲生成に特化。
- ElevenLabs Music(
- さまざまなオーディオ形式の生成:
- インストゥルメンタル
- バッキングトラック
- ボーカル入りフル楽曲
- アンビエント系サウンドトラックやループ
このスキルが向いているユーザー
ai-music-generation は、次のようなケースに適しています:
- YouTube・TikTok・各種 SNS 向けコンテンツを制作しており、素早くユニークな BGM が欲しい。
- ポッドキャストのイントロ、アウトロ、セグメント用ジングルを用意したい。
- ゲームやアプリ向けに、動的なサウンドトラックやループ音源が必要。
- マーケティング・クリエイティブエージェンシーで、クライアント向けモックアップ用に素早くデモ音源を作りたい。
- エージェントや自動化ワークフローの中で、オンデマンドに音声・音楽を生成したい。
コマンドラインに慣れていて、AI 音楽生成をスクリプト、CI パイプライン、エージェントフレームワークなどに統合したい技術ユーザー向けに設計されています。
ai-music-generation が向かないケース
次のような場合、このスキルは最適ではないかもしれません:
- GUI ベースの音楽エディタや DAW(例: Ableton, Logic)を求めている場合 – 本スキルは CLI ファーストの設計です。
- 既存音源の編集やリミックスを行いたい場合。ai-music-generation は新しい音楽の生成に特化しており、詳細なオーディオ編集は対象外です。
- オフラインやオンプレミスでの生成が必須の場合 – モデルは inference.sh 経由のリモートアクセスになります。
- CLI ツールや外部 API 的なサービスの管理に慣れていない場合。
メインのニーズが、細かな波形編集やマルチトラックのミックス、マスタリングである場合は、このスキル単体ではなく、従来のオーディオエディタと組み合わせて、ai-music-generation を「素材生成専用」として使うのが適しています。
使い方
前提条件
ai-music-generation スキルをインストールする前に、以下を準備してください:
- Node.js と npx が利用可能であること(エージェントのスキルセットにこのスキルを追加するため)。
- inference.sh CLI(
infsh) がインストールされ、設定済みであること。
inference.sh CLI のインストール方法は、公式リポジトリの手順に従ってください:
- インストールガイド:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
infsh をインストールしたら、次を実行します:
infsh login
ログインフローを完了し、CLI から音楽モデルへアクセスできる状態にしておきます。
ai-music-generation スキルのインストール
inferen-sh/skills リポジトリから npx を使ってスキルを追加します:
npx skills add https://github.com/inferen-sh/skills --skill ai-music-generation
これにより、ローカルの skills 環境に ai-music-generation のスキルメタデータと関連ファイルが取り込まれ、エージェントやツールから呼び出せるようになります。
インストール後に確認しておくとよいファイル:
SKILL.md– スキルの概要と対応ツールの説明。- リポジトリ内の
tools/audio/配下のユーティリティ – より広いオーディオワークフローに役立つツール群です。
クイックスタート:最初の AI 楽曲を生成する
infsh へのログインが完了していれば、Diffrythm モデルを使って、すぐに楽曲を 1 曲生成できます。Diffrythm は高速な text-to-song 生成に最適化されています。
ターミナルで以下を実行します:
infsh app run infsh/diffrythm --input '{"prompt": "upbeat electronic dance track"}'
このコマンドの内容:
infsh app run infsh/diffrythmで Diffrythm の音楽アプリを指定。--input '{"prompt": "..."}'でプロンプトテキストを含む JSON ペイロードを渡します。- アプリは、再生・ダウンロード・パイプラインへの入力などに使えるオーディオファイル(または URL)を返します。
プロンプトを変えることで、ジャンル・ムード・テンポなどを細かく指定できます。例:
infsh app run infsh/diffrythm --input '{"prompt": "cinematic orchestral soundtrack, slow build, inspiring"}'
モデルの選び方
ai-music-generation スキルは、inference.sh 経由で 3 種類の主要な音楽モデルを提供します:
ElevenLabs Music(elevenlabs/music)
次のような用途に最適です:
- 長尺トラック(およそ 10 分程度まで)。
- ビジネスやクライアント案件に使いやすい商用ライセンス。
- 高品質で完成度の高い BGM。
呼び出し例:
infsh app run elevenlabs/music --input '{"prompt": "lofi chillhop beat with warm piano and vinyl crackle"}'
Diffrythm(infsh/diffrythm)
次のような場合に向いています:
- アイデアに対する高速なフィードバックと反復が欲しいとき。
- SNS クリップやコンセプトデモ向けの短〜中尺の楽曲を作るとき。
呼び出し例:
infsh app run infsh/diffrythm --input '{"prompt": "high-energy rock track with driving guitars"}'
Tencent Song Generation(infsh/tencent-song-generation)
次のようなニーズに合います:
- インストゥルメンタルではなく、ボーカル入りのフル楽曲が必要な場合。
- デモやコンセプト用に、より「楽曲らしい」構成が欲しい場合。
呼び出し例:
infsh app run infsh/tencent-song-generation --input '{"prompt": "emotional pop ballad with powerful female vocals"}'
エージェントやワークフローへの統合
ai-music-generation スキルを skills セットアップに追加したら、次のような使い方ができます:
- LLM ベースのエージェントが、必要に応じて音楽生成用の tool として呼び出せるようにする。
- スクリプトに組み込み、
- テキストブリーフ(例: マーケティングキャンペーンの説明)を受け取る。
- 複数のプロンプトバリエーションを生成する。
infshを異なるモデルで呼び出す。- 生成された音源をコンテンツフォルダやアセットパイプラインに保存する。
シンプルな CLI 指向のワークフロー例:
- ユーザーから楽曲のイメージと希望尺を入力してもらう。
- 選択した app 向けに、構造化された JSON の
--inputを組み立てる。 - スクリプトから
infsh app run ...を実行する。 - 出力されたファイルパスを保存し、必要に応じてメタデータもログとして残す。
すべての呼び出しが infsh 経由になるため、CI ジョブや cron タスクへの組み込み、生成された音源のリンクで応答するチャット型エージェントへの統合も容易です。
プロンプト作成のベストプラクティス
ai-music-generation モデルから良い結果を得るには、次のような情報を含めたプロンプトを試してみてください:
- ジャンル: "lofi hip hop", "cinematic orchestral", "synthwave" など。
- ムード: "relaxing", "dark and tense", "uplifting" など。
- テンポ / エネルギー感: "slow and atmospheric", "high energy", "mid-tempo groove" など。
- 主な要素: "warm piano", "heavy bass", "female vocals", "acoustic guitar" など。
- 用途: "for a podcast intro", "for a game boss fight", "for a product launch video" など。
プロンプト例:
infsh app run infsh/diffrythm --input '{
"prompt": "driving synthwave track, nostalgic 80s vibe, steady 120 bpm, for a tech product trailer"
}'
FAQ
ai-music-generation をインストールすると何が追加されますか?
ai-music-generation は、エージェントが inference.sh CLI を使って対応する音楽生成アプリを呼び出す方法を定義したスキル定義(inferen-sh/skills 由来)を追加します。音楽モデル自体をローカルにインストールするわけではなく、モデルは infsh 経由でリモートホストにアクセスされます。
ai-music-generation を使うには inference.sh CLI が必須ですか?
はい。スキルは inference.sh CLI(infsh) を通じて AI 音楽モデルと通信します。infsh がインストールされておらず、ログイン・設定もされていない場合、infsh/diffrythm や elevenlabs/music などの基盤アプリへの呼び出しは動作しません。
どの AI 音楽モデルに対応していますか?
ai-music-generation は、inference.sh 経由で利用できる次のモデルを中心に構成されています:
- ElevenLabs Music(
elevenlabs/music)– 長尺トラック、商用利用に配慮したライセンス。 - Diffrythm(
infsh/diffrythm)– 高速で汎用的な楽曲生成。 - Tencent Song Generation(
infsh/tencent-song-generation)– ボーカル入りフル楽曲生成。
infsh app run コマンドで指定する app ID を切り替えることで、利用するモデルを選択できます。
商用プロジェクトに ai-music-generation を使えますか?
このスキル自体はあくまで統合レイヤーです。生成された音源を商用利用できるかどうかは、各モデルのライセンスおよび inference.sh の利用規約に依存します。 SKILL メタデータでは ElevenLabs Music が商用ライセンスをサポートしているとされていますが、必ず最新の条件を以下で確認してください:
- 各 app 向けの inference.sh ドキュメント。
- モデル提供元のサイト(例: ElevenLabs)に掲載されている最新ライセンス情報。
このスキルで既存の音声ファイルを編集できますか?
いいえ。ai-music-generation は、テキストプロンプトから新しい音楽・楽曲を生成することに特化しています。既存音源の編集・ミックス・マスタリングには、別途オーディオ編集ツールや DAW を利用し、ai-music-generation は素材生成の役割として使ってください。
楽曲の長さや構成、ボーカルの有無は制御できますか?
制御できるレベルは、利用するアプリによって異なります:
- ElevenLabs Music: 最大約 10 分の長尺など、長さに関するパラメータをサポート。詳細は inference.sh のドキュメントを参照してください。
- Diffrythm: デフォルトの長さでの高速生成にフォーカスしています。
- Tencent Song Generation: ボーカル入りのフル楽曲生成に特化しています。
対応しているアプリでは、プロンプト内で長さやスタイルのヒントを追加したり、JSON の --input に追加フィールドを定義したりできます。利用可能なすべてのパラメータは、inference.sh 上の各 app のドキュメントを確認してください。
ai-music-generation は非エンジニアにも向いていますか?
直接的にはあまり向いていません。ai-music-generation は、次のような操作に慣れていることを前提としています:
- CLI コマンドの実行。
--input引数で JSON を編集・指定する作業。infshのインストールと設定。
非技術ユーザーは、通常はこのスキルの上に構築された UI やチャットボット、カスタムツール を通じて操作し、開発者がその裏側で ai-music-generation に接続する、という形が現実的です。
音楽の生成に失敗した場合のトラブルシュート方法は?
コマンドが失敗した場合は、次を確認してください:
-
infshがインストールされており、PATHに通っているか。 -
infsh loginを再度実行し、セッションが有効かどうか確認する。 -
コマンドの構文、とくに
--inputの JSON の引用符が正しいかどうかチェックする。 -
次のような、既知の app を使ったシンプルなプロンプトで試す:
infsh app run infsh/diffrythm --input '{"prompt": "simple piano melody"}' -
infshが返すエラーメッセージを確認する – 多くの場合、認証、クオータ、入力形式のどれに問題があるかが示されています。
それでも解決しない場合は、inferen-sh/skills リポジトリ本体と inference.sh のドキュメントを参照し、最新の制限事項やサービスステータスを確認してください。
