概览
elevenlabs-music 是什么?
elevenlabs-music 是一个面向命令行的 AI 音乐生成技能,通过 inference.sh (infsh) CLI 将你的 agent 或终端工作流连接到 ElevenLabs 的音乐模型。
只需输入简短的文本提示,你就可以生成适配项目需求的原创免版税音乐。该技能封装了 inference.sh 上的 elevenlabs/music 应用,因此你可以:
- 将文字描述直接转换为音乐(text-to-music)
- 控制音轨时长,从 5 秒到 10 分钟
- 在提示词中指定曲风、情绪和配器
- 生成适合商业用途的音频,例如视频、播客和游戏配乐
适合哪些人使用?
elevenlabs-music 非常适合:
- 内容创作者与剪辑师,需要快速为 YouTube、TikTok、直播、播客或预告片生成定制背景音乐
- 游戏和应用开发者,希望为关卡、菜单或应用内体验按需生成自适应的背景音乐
- 市场和品牌团队,想要制作 jingle、短音效和适合广告的音乐,而不必为每个版本都单独找作曲
- 开发者和 agent 构建者,希望通过稳定的 CLI/API 式接口,在脚本、自动化流程或 AI agent 中生成音乐
如果你已经在使用 inference.sh,或习惯围绕 CLI 工具搭建工作流,elevenlabs-music 会很自然地融入你的技术栈。
elevenlabs-music 解决了哪些问题?
在以下场景中,这个技能可以帮上忙:
- 快速获取免版税音乐,无需反复翻找素材库
- 按需保持风格一致(例如为一整个系列生成风格相近的多首音轨)
- 适合自动化的音频生成,让 agent 或脚本根据用户输入或内容元数据自动生成音乐
因为它依赖 infsh app run elevenlabs/music 运行,你可以轻松将其集成到 shell 脚本、CI 流水线或聊天式 agent 中,而无需自建 API 层。
什么时候适合使用 elevenlabs-music?
在以下情况中推荐使用 elevenlabs-music:
- 你熟悉基本的 CLI 命令,或使用会调用 CLI 的 agent 工具
- 你主要想生成背景音乐、氛围音或简单提示音,而不是完整复杂的演唱歌曲
- 你需要快速试错迭代:尝试多种提示词和时长,找到最合适的音轨
可能不太适合的情况包括:
- 你需要精细的乐曲编排控制(小节、节奏图、和弦走向)并通过程序控制
- 你需要人声演唱、歌词对齐或多轨 stem 导出(如单独导出鼓、贝斯、人声等轨道)
- 你完全不希望使用 inference.sh CLI——此技能依赖
infsh
使用指南
1. 前置条件与安装
检查运行环境
在使用 elevenlabs-music 之前,请确保你已经具备:
- 一台可以安装并运行 inference.sh CLI(
infsh)的设备 - 可用的网络连接,以便
infsh能调用基于 ElevenLabs 的elevenlabs/music应用
在 agent 环境中安装技能
如果你使用的是 inferen-sh/skills 仓库中提供的 skills loader,可以通过以下命令安装 elevenlabs-music:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-music
该命令会从仓库中拉取技能定义,并使其在你的 agent 工具中可用。
安装 inference.sh CLI
elevenlabs-music 依赖 infsh CLI。请按照仓库中的官方说明进行安装:
- CLI 安装指南:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
安装完成后,验证命令是否可用:
infsh --help
如果终端返回帮助信息,则说明 CLI 已经可以正常使用。
2. 登录 inference.sh
在生成音乐之前,先完成 CLI 登录认证:
infsh login
根据交互式提示完成登录。这会将 infsh 关联到你的 inference.sh 账号,并开启对 elevenlabs/music 应用的访问权限。
3. 生成你的第一首 AI 音乐
基本 text-to-music 命令
登录后,你可以直接通过简单提示词生成音乐:
infsh app run elevenlabs/music --input '{"prompt": "Upbeat electronic dance track with driving synths"}'
该命令会通过 inference.sh 将你的描述发送给 ElevenLabs 的音乐模型。输出结果为 JSON,其中包含指向生成音频的引用(例如 URL 或文件元数据,具体取决于你的 CLI 配置)。
4. 控制音乐时长与风格
elevenlabs-music 会暴露底层应用的一些参数,方便你调优生成效果。
可用参数
prompt(string,必填)- 自然语言描述你想要的音乐(最多 2000 字符)。
- 建议尽量包含曲风(genre)、情绪(mood)、节奏(tempo)和主要乐器。
duration_seconds(number,选填)- 默认:
30 - 最小:
5,最大:600(最长 10 分钟)
- 默认:
使用示例
示例:10 秒短背景音效(sting)
infsh app run elevenlabs/music --input '{
"prompt": "Short cinematic logo sting with orchestral hit and subtle whoosh",
"duration_seconds": 10
}'
示例:2 分钟 lo-fi 学习节奏
infsh app run elevenlabs/music --input '{
"prompt": "Lo-fi hip hop beat, chill study music, vinyl crackle, mellow piano",
"duration_seconds": 120
}'
这些示例展示了如何根据需要调整时长,用于片头、短音效或更长的背景音乐。
5. 解析输出结果
ElevenLabs 的音乐生成在 inference.sh 的 app 环境中运行,并返回 JSON 输出。尽管结构可能随时间略有调整,但通常你可以看到用于定位生成音频的字段(例如渲染文件的 URL,或 inference.sh 内部的资源 ID)。
常见的下一步操作包括:
- 在脚本或 agent 中解析 JSON
- 下载音频文件,在你的编辑工具(DAW、视频编辑器、播客工具等)中使用
- 将元数据(prompt、时长、时间戳)与媒体资产一并保存,便于日后重新生成或归档
6. 在 agent 和工作流中使用 elevenlabs-music
由于该技能定义在 inferen-sh/skills 仓库中,并标明通过 Bash + infsh 使用,因此各类 agent 可以:
- 在识别到类似“为我的视频片头生成背景音乐”这样的意图时,调用
infsh app run elevenlabs/music - 根据用户指令动态生成
prompt和duration_seconds - 将音乐链接或文件引用返回给用户,或传递给后续工具
这使 elevenlabs-music 非常适合:
- 多步骤内容生产流水线(例如:生成文案 → 生成图片 → 生成匹配的音乐)
- 聊天式创作助手,在对话中按需提供定制配乐
7. 建议查看的文件与配置
安装好技能后,你可以在 inferen-sh/skills 仓库中查看以下文件,以了解或自定义其行为:
SKILL.md(该技能的根级说明):提供整体介绍和快速上手命令tools/audio/elevenlabs-music/(如果在你的本地克隆中存在):包含实现细节及辅助脚本
这些文件说明了技能如何与 CLI 连接,并会对重要变更或更新进行说明。
常见问题(FAQ)
使用 elevenlabs-music 需要付费吗?
elevenlabs-music 本身只是一个连接到 inference.sh 上 elevenlabs/music 应用的技能定义。任何使用费用或配额限制都来自你的 inference.sh 和 ElevenLabs 配置,而不是这个技能本身。
在大规模使用前,请查看你的 inference.sh 账号和 ElevenLabs 套餐的价格、配额和速率限制。
elevenlabs-music 能生成什么类型的音乐?
底层的 ElevenLabs 模型主要面向通过自然语言提示生成器乐和背景类音轨。你可以描述:
- 曲风(Genres):lo-fi、EDM、cinematic、ambient、rock、orchestral 等
- 情绪(Moods):upbeat、dark、suspenseful、relaxing、uplifting
- 场景(Contexts):学习背景音乐、预告片配乐、游戏关卡主题、播客片头、广告背景音乐等
建议使用更详细的提示(情绪 + 曲风 + 乐器 + 使用场景),通常能获得更好效果。
生成的音轨最长可以多长?
你可以将 duration_seconds 设置在 5 秒到 600 秒之间:
- 最小值:
5 - 最大值:
600(10 分钟)
如果不传该参数,则默认时长为 30 秒。
我该如何修改音乐时长?
在传给 --input 的 JSON 中加入 duration_seconds 即可:
infsh app run elevenlabs/music --input '{
"prompt": "Epic orchestral battle music",
"duration_seconds": 300
}'
在 5–600 秒范围内,将数字调整为你需要的时长即可。
我可以将 elevenlabs-music 生成的音乐用于商业项目吗?
该 SKILL 描述中提到,通过 inference.sh 使用 ElevenLabs AI 音乐生成支持免版税商业用途。不过,相关许可和条款可能随时间调整,强烈建议你直接查看 ElevenLabs 和 inference.sh 当前的官方条款与授权政策。
使用 elevenlabs-music 需要写代码吗?
你不需要编写完整应用程序代码,但最好熟悉以下操作:
- 在终端中运行命令
- 通过
--input参数提供 JSON 输入
如果要更深度集成(比如在 Web 应用或 agent 平台中),通常可以通过你的代码调用 infsh,或使用 agent 框架提供的任意方式来调用 CLI 工具。
elevenlabs-music 支持人声或歌词吗?
该技能专注于基于文本提示的音乐生成,不提供歌词对齐或真实人声演唱能力。你可以在提示中描述类似人声的声音质感(如“choir pads”、“vocal chops”),但精准的“歌词-旋律”生成不在此技能的官方支持范围内。
哪里可以了解更多详情或更新?
你可以在 inferen-sh/skills 仓库中查看此技能:
- 仓库地址:
https://github.com/inferen-sh/skills - 技能路径:
tools/audio/elevenlabs-music
请查看 SKILL.md 及相关文件,获取最新示例、可用参数和 CLI 使用说明。如果 CLI 或应用名称有变更,通常会优先在这些文件中更新。
