elevenlabs-music
作者 inferen-sh透過 inference.sh CLI 搭配 ElevenLabs,從文字提示產生原創 AI 音樂。你可以控制長度、風格與情緒,在終端機裡直接創作免版稅的背景音樂、配樂、短鈴、Podcast 底音及遊戲音效。
概觀
elevenlabs-music 是什麼?
elevenlabs-music 是一個專注於命令列操作的 AI 音樂生成技能,透過 inference.sh(infsh)CLI,將你的 agent 或終端機工作流程連接到 ElevenLabs 的音樂模型。
只要輸入一小段文字提示,就能為你的專案產生原創、免版稅的音樂。此技能包裝了 inference.sh 上的 elevenlabs/music app,讓你可以:
- 將文字描述轉成音樂(text-to-music)
- 自由控制曲目長度,從 5 秒到 10 分鐘
- 在提示中引導曲風、情緒與配器
- 產出可商業使用的音訊,例如影片、Podcast、遊戲配樂等
適合哪些人使用?
elevenlabs-music 特別適合:
- 創作者與剪輯師:需要快速客製背景音樂,用於 YouTube、TikTok、直播、Podcast 或預告片
- 遊戲與 App 開發者:希望為關卡、選單或 App 內體驗動態生成音樂底床
- 行銷與品牌團隊:想製作廣告短歌、提示音、短 cue,不必為每個版本另外聘請作曲
- 開發者與 agent 建構者:需要可預測的 CLI/API 風格介面,方便在腳本、自動化流程或 AI agents 中生成音樂
如果你已經在使用 inference.sh,或習慣以 CLI 工具打造工作流程,elevenlabs-music 能很自然地融入你的技術堆疊。
elevenlabs-music 解決什麼問題?
在以下情境時,這個技能特別有幫助:
- 需要 快速、免版稅音樂,又不想在素材庫裡耗時搜尋
- 希望 隨時生成風格一致的曲目(例如系列節目的多首同風格配樂)
- 想要 可自動化的音訊產製流程,讓 agent 或腳本能依使用者輸入或內容中繼資料即時產生音樂
由於它是透過 infsh app run elevenlabs/music 執行,你可以輕鬆整合進 shell scripts、CI pipeline 或聊天式 agent,而不必自己搭一層額外的 API。
什麼情況下適合用 elevenlabs-music?
建議在以下情況使用 elevenlabs-music:
- 你熟悉基本命令列操作,或使用會呼叫 CLI 的 agent 工具
- 你主要想生成 背景音樂、氛圍聲景或簡短提示音,而不是完全結構化、有主唱的歌曲
- 你需要 快速試錯:使用多種提示與不同長度,找到最適合的音軌
在以下情況,它可能就不那麼適合:
- 你需要以程式精細控制 音樂編排(小節、節奏圖、和弦進行等)
- 你需要 人聲演唱、歌詞對齊或多軌分軌匯出(例如個別的鼓、貝斯、人聲軌)
- 你完全不打算使用 inference.sh CLI —— 此技能必須依賴
infsh
使用方式
1. 先決條件與安裝
檢查你的環境
在使用 elevenlabs-music 之前,請先確認你具備:
- 一個可以安裝並執行 inference.sh CLI(
infsh)的系統 - 有網路連線,讓
infsh能呼叫由 ElevenLabs 支援的elevenlabs/musicapp
將技能安裝到你的 agent 環境
如果你使用的是 inferen-sh/skills repo 中說明的 skills loader,可透過以下指令安裝 elevenlabs-music:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-music
此指令會從該 repository 取得技能定義,並讓你的 agent 工具可以使用。
安裝 inference.sh CLI
elevenlabs-music 依賴 infsh CLI。請依照 repo 中的官方安裝說明進行:
- CLI 安裝指南:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
安裝完成後,先確認是否運作正常:
infsh --help
如果指令有回應說明文字,代表 CLI 已就緒。
2. 登入 inference.sh
在生成音樂之前,先為你的 CLI 工作階段進行驗證:
infsh login
依照互動式提示完成登入。完成後,infsh 會與你的 inference.sh 帳號連結,並取得 elevenlabs/music app 的使用權限。
3. 產生你的第一段 AI 音樂
基本文字轉音樂指令
登入之後,就可以直接用簡單的提示生成音樂:
infsh app run elevenlabs/music --input '{"prompt": "Upbeat electronic dance track with driving synths"}'
這個指令會將你的描述透過 inference.sh 送到 ElevenLabs 音樂模型。輸出會是 JSON,內容包含生成音訊的相關資訊(例如檔案網址或中繼資料,依你的 CLI 設定而定)。
4. 控制音樂長度與風格
elevenlabs-music 暴露了底層 app 的參數,讓你可以微調生成結果。
可用參數
prompt(string,必填)- 你想要的音樂之自然語言描述(最多 2000 字元)。
- 建議盡量包含曲風、情緒、速度與樂器等資訊。
duration_seconds(number,選填)- 預設:
30 - 最短:
5,最長:600(最多 10 分鐘)
- 預設:
使用範例
範例:短版背景 sting(10 秒)
infsh app run elevenlabs/music --input '{
"prompt": "Short cinematic logo sting with orchestral hit and subtle whoosh",
"duration_seconds": 10
}'
範例:lo-fi 學習節奏(2 分鐘)
infsh app run elevenlabs/music --input '{
"prompt": "Lo-fi hip hop beat, chill study music, vinyl crackle, mellow piano",
"duration_seconds": 120
}'
透過這些範例,你可以看到如何依不同情境(開場、提示音、長版背景音)調整音樂長度。
5. 解讀輸出結果
ElevenLabs 的音樂生成會在 inference.sh app 環境中執行,並回傳 JSON 輸出。雖然結構未來可能調整,但通常會包含指向生成音訊的 key(例如已渲染檔案的 URL,或 inference.sh 內部的 ID)。
常見後續步驟包括:
- 在你的腳本或 agent 中解析 JSON
- 下載音訊檔,在 DAW、剪輯軟體或 Podcast 工具中使用
- 將中繼資料(提示文字、長度、時間戳)與媒體資產一併保存,方便日後重製或紀錄
6. 在 agents 與工作流程中使用 elevenlabs-music
由於此技能定義在 inferen-sh/skills repository 中,並標示使用 Bash 搭配 infsh,agents 可以:
- 在偵測到「幫我的影片開場生成背景音樂」之類意圖時,呼叫
infsh app run elevenlabs/music - 根據使用者指示動態組合
prompt與duration_seconds - 將音樂連結或檔案資訊回傳給使用者,或傳給後續工具使用
這讓 elevenlabs-music 很適合用在:
- 多步驟內容製作流程(例如:生成腳本 → 生成圖片 → 生成對應音樂)
- 聊天式創作助手,可依需求提供客製化配樂
7. 建議檢視的檔案與設定
安裝技能後,建議在 inferen-sh/skills repository 中打開以下檔案,了解或自訂其行為:
SKILL.md(此技能的根目錄檔案):高階說明與快速開始指令tools/audio/elevenlabs-music/(如果你的 clone 中有):實作細節與輔助腳本
這些檔案會說明技能與 CLI 的串接方式,並釐清任何變更或更新。
常見問題(FAQ)
elevenlabs-music 本身是免費的嗎?
elevenlabs-music 本身是一份技能定義,用來透過 inference.sh 連接 elevenlabs/music app。任何 使用費用或限制 都來自你的 inference.sh 帳號與 ElevenLabs 設定,而不是這個技能本身。
在大量使用前,請先查看 inference.sh 帳號與 ElevenLabs 方案的價格、額度與速率限制。
elevenlabs-music 可以產生哪些類型的音樂?
底層的 ElevenLabs 模型主要針對 器樂與背景類型曲目,並透過自然語言提示來驅動。你可以描述:
- 曲風:lo-fi、EDM、cinematic、ambient、rock、orchestral 等
- 情緒:upbeat、dark、suspenseful、relaxing、uplifting
- 使用情境:讀書背景音樂、預告片配樂、遊戲關卡主題、Podcast 開場、廣告底音
建議使用較完整的提示(情緒 + 曲風 + 樂器 + 情境),通常能得到更合適的結果。
生成的音軌最長可以多長?
你可以將 duration_seconds 設定在 5 秒到 600 秒 之間:
- 最短:
5 - 最長:
600(10 分鐘)
如果沒有指定這個參數,預設長度為 30 秒。
我要怎麼調整音樂的長度?
在你傳給 --input 的 JSON 中加入 duration_seconds:
infsh app run elevenlabs/music --input '{
"prompt": "Epic orchestral battle music",
"duration_seconds": 300
}'
在 5–600 秒的範圍內,依需求調整數值即可。
我可以將 elevenlabs-music 生成的音樂用於商業用途嗎?
此 SKILL 說明中提到,透過 inference.sh 使用 ElevenLabs AI 音樂生成時,支援 免版稅的商業使用。不過,授權與條款可能會隨時間變動,建議你仍要直接向 ElevenLabs 與 inference.sh 再次確認最新授權政策。
使用 elevenlabs-music 需要寫程式嗎?
你 不需要 撰寫完整應用程式程式碼,但建議熟悉:
- 在終端機中執行指令
- 透過
--input旗標輸入 JSON
若要與 web app 或 agent 平台做更深度整合,通常會由你的程式碼呼叫 infsh,或使用該框架提供的 CLI 呼叫機制。
elevenlabs-music 支援人聲或歌詞嗎?
此技能主要聚焦在 從文字提示生成音樂,並不包含歌詞對齊或人聲演唱能力。你可以在提示裡描述類似人聲的質感(例如「choir pads」或「vocal chops」),但精準的歌詞配旋律生成並不在此技能的既有範圍內。
在哪裡可以找到更多細節或更新資訊?
你可以到 inferen-sh/skills repository 內查看此技能:
- Repo:
https://github.com/inferen-sh/skills - Skill 路徑:
tools/audio/elevenlabs-music
請參考 SKILL.md 及相關檔案,取得最新的範例、參數與 CLI 使用說明。如果 CLI 或 app 名稱有變更,通常會先在這些檔案中更新。
