elevenlabs-music

作者 inferen-sh

通过 inference.sh CLI 和 ElevenLabs，根据文本提示生成原创 AI 音乐。你可以在终端中直接控制时长、风格和情绪，创作免版税的背景音乐、配乐、jingle、播客底音乐和游戏音频。

Stars0

收录时间2026年3月27日

分类音频编辑

安装命令

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-music

音频 Cli API Ai 开发者受众

概览

elevenlabs-music 是什么？

elevenlabs-music 是一个面向命令行的 AI 音乐生成技能，通过 inference.sh (infsh) CLI 将你的 agent 或终端工作流连接到 ElevenLabs 的音乐模型。

只需输入简短的文本提示，你就可以生成适配项目需求的原创免版税音乐。该技能封装了 inference.sh 上的 elevenlabs/music 应用，因此你可以：

将文字描述直接转换为音乐（text-to-music）
控制音轨时长，从 5 秒到 10 分钟
在提示词中指定曲风、情绪和配器
生成适合商业用途的音频，例如视频、播客和游戏配乐

适合哪些人使用？

elevenlabs-music 非常适合：

内容创作者与剪辑师，需要快速为 YouTube、TikTok、直播、播客或预告片生成定制背景音乐
游戏和应用开发者，希望为关卡、菜单或应用内体验按需生成自适应的背景音乐
市场和品牌团队，想要制作 jingle、短音效和适合广告的音乐，而不必为每个版本都单独找作曲
开发者和 agent 构建者，希望通过稳定的 CLI/API 式接口，在脚本、自动化流程或 AI agent 中生成音乐

如果你已经在使用 inference.sh，或习惯围绕 CLI 工具搭建工作流，elevenlabs-music 会很自然地融入你的技术栈。

elevenlabs-music 解决了哪些问题？

在以下场景中，这个技能可以帮上忙：

快速获取免版税音乐，无需反复翻找素材库
按需保持风格一致（例如为一整个系列生成风格相近的多首音轨）
适合自动化的音频生成，让 agent 或脚本根据用户输入或内容元数据自动生成音乐

因为它依赖 infsh app run elevenlabs/music 运行，你可以轻松将其集成到 shell 脚本、CI 流水线或聊天式 agent 中，而无需自建 API 层。

什么时候适合使用 elevenlabs-music？

在以下情况中推荐使用 elevenlabs-music：

你熟悉基本的 CLI 命令，或使用会调用 CLI 的 agent 工具
你主要想生成背景音乐、氛围音或简单提示音，而不是完整复杂的演唱歌曲
你需要快速试错迭代：尝试多种提示词和时长，找到最合适的音轨

可能不太适合的情况包括：

你需要精细的乐曲编排控制（小节、节奏图、和弦走向）并通过程序控制
你需要人声演唱、歌词对齐或多轨 stem 导出（如单独导出鼓、贝斯、人声等轨道）
你完全不希望使用 inference.sh CLI——此技能依赖 infsh

使用指南

1. 前置条件与安装

检查运行环境

在使用 elevenlabs-music 之前，请确保你已经具备：

一台可以安装并运行 inference.sh CLI（infsh）的设备
可用的网络连接，以便 infsh 能调用基于 ElevenLabs 的 elevenlabs/music 应用

在 agent 环境中安装技能

如果你使用的是 inferen-sh/skills 仓库中提供的 skills loader，可以通过以下命令安装 elevenlabs-music：

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-music

该命令会从仓库中拉取技能定义，并使其在你的 agent 工具中可用。

安装 inference.sh CLI

elevenlabs-music 依赖 infsh CLI。请按照仓库中的官方说明进行安装：

CLI 安装指南：https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

安装完成后，验证命令是否可用：

infsh --help

如果终端返回帮助信息，则说明 CLI 已经可以正常使用。

2. 登录 inference.sh

在生成音乐之前，先完成 CLI 登录认证：

infsh login

根据交互式提示完成登录。这会将 infsh 关联到你的 inference.sh 账号，并开启对 elevenlabs/music 应用的访问权限。

3. 生成你的第一首 AI 音乐

基本 text-to-music 命令

登录后，你可以直接通过简单提示词生成音乐：

infsh app run elevenlabs/music --input '{"prompt": "Upbeat electronic dance track with driving synths"}'

该命令会通过 inference.sh 将你的描述发送给 ElevenLabs 的音乐模型。输出结果为 JSON，其中包含指向生成音频的引用（例如 URL 或文件元数据，具体取决于你的 CLI 配置）。

4. 控制音乐时长与风格

elevenlabs-music 会暴露底层应用的一些参数，方便你调优生成效果。

可用参数

prompt（string，必填）
- 自然语言描述你想要的音乐（最多 2000 字符）。
- 建议尽量包含曲风（genre）、情绪（mood）、节奏（tempo）和主要乐器。
duration_seconds（number，选填）
- 默认：30
- 最小：5，最大：600（最长 10 分钟）

使用示例

示例：10 秒短背景音效（sting）

infsh app run elevenlabs/music --input '{
  "prompt": "Short cinematic logo sting with orchestral hit and subtle whoosh",
  "duration_seconds": 10
}'

示例：2 分钟 lo-fi 学习节奏

infsh app run elevenlabs/music --input '{
  "prompt": "Lo-fi hip hop beat, chill study music, vinyl crackle, mellow piano",
  "duration_seconds": 120
}'

这些示例展示了如何根据需要调整时长，用于片头、短音效或更长的背景音乐。

5. 解析输出结果

ElevenLabs 的音乐生成在 inference.sh 的 app 环境中运行，并返回 JSON 输出。尽管结构可能随时间略有调整，但通常你可以看到用于定位生成音频的字段（例如渲染文件的 URL，或 inference.sh 内部的资源 ID）。

常见的下一步操作包括：

在脚本或 agent 中解析 JSON
下载音频文件，在你的编辑工具（DAW、视频编辑器、播客工具等）中使用
将元数据（prompt、时长、时间戳）与媒体资产一并保存，便于日后重新生成或归档

6. 在 agent 和工作流中使用 elevenlabs-music

由于该技能定义在 inferen-sh/skills 仓库中，并标明通过 Bash + infsh 使用，因此各类 agent 可以：

在识别到类似“为我的视频片头生成背景音乐”这样的意图时，调用 infsh app run elevenlabs/music
根据用户指令动态生成 prompt 和 duration_seconds
将音乐链接或文件引用返回给用户，或传递给后续工具

这使 elevenlabs-music 非常适合：

多步骤内容生产流水线（例如：生成文案 → 生成图片 → 生成匹配的音乐）
聊天式创作助手，在对话中按需提供定制配乐

7. 建议查看的文件与配置

安装好技能后，你可以在 inferen-sh/skills 仓库中查看以下文件，以了解或自定义其行为：

SKILL.md（该技能的根级说明）：提供整体介绍和快速上手命令
tools/audio/elevenlabs-music/（如果在你的本地克隆中存在）：包含实现细节及辅助脚本

这些文件说明了技能如何与 CLI 连接，并会对重要变更或更新进行说明。

常见问题（FAQ）

使用 elevenlabs-music 需要付费吗？

elevenlabs-music 本身只是一个连接到 inference.sh 上 elevenlabs/music 应用的技能定义。任何使用费用或配额限制都来自你的 inference.sh 和 ElevenLabs 配置，而不是这个技能本身。

在大规模使用前，请查看你的 inference.sh 账号和 ElevenLabs 套餐的价格、配额和速率限制。

elevenlabs-music 能生成什么类型的音乐？

底层的 ElevenLabs 模型主要面向通过自然语言提示生成器乐和背景类音轨。你可以描述：

曲风（Genres）：lo-fi、EDM、cinematic、ambient、rock、orchestral 等
情绪（Moods）：upbeat、dark、suspenseful、relaxing、uplifting
场景（Contexts）：学习背景音乐、预告片配乐、游戏关卡主题、播客片头、广告背景音乐等

建议使用更详细的提示（情绪 + 曲风 + 乐器 + 使用场景），通常能获得更好效果。

生成的音轨最长可以多长？

你可以将 duration_seconds 设置在 5 秒到 600 秒之间：

最小值：5
最大值：600（10 分钟）

如果不传该参数，则默认时长为 30 秒。

我该如何修改音乐时长？

在传给 --input 的 JSON 中加入 duration_seconds 即可：

infsh app run elevenlabs/music --input '{
  "prompt": "Epic orchestral battle music",
  "duration_seconds": 300
}'

在 5–600 秒范围内，将数字调整为你需要的时长即可。

我可以将 elevenlabs-music 生成的音乐用于商业项目吗？

该 SKILL 描述中提到，通过 inference.sh 使用 ElevenLabs AI 音乐生成支持免版税商业用途。不过，相关许可和条款可能随时间调整，强烈建议你直接查看 ElevenLabs 和 inference.sh 当前的官方条款与授权政策。

使用 elevenlabs-music 需要写代码吗？

你不需要编写完整应用程序代码，但最好熟悉以下操作：

在终端中运行命令
通过 --input 参数提供 JSON 输入

如果要更深度集成（比如在 Web 应用或 agent 平台中），通常可以通过你的代码调用 infsh，或使用 agent 框架提供的任意方式来调用 CLI 工具。

elevenlabs-music 支持人声或歌词吗？

该技能专注于基于文本提示的音乐生成，不提供歌词对齐或真实人声演唱能力。你可以在提示中描述类似人声的声音质感（如“choir pads”、“vocal chops”），但精准的“歌词-旋律”生成不在此技能的官方支持范围内。

哪里可以了解更多详情或更新？

你可以在 inferen-sh/skills 仓库中查看此技能：

仓库地址：https://github.com/inferen-sh/skills
技能路径：tools/audio/elevenlabs-music

请查看 SKILL.md 及相关文件，获取最新示例、可用参数和 CLI 使用说明。如果 CLI 或应用名称有变更，通常会优先在这些文件中更新。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

elevenlabs-stt

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs Scribe v1/v2 模型，实现高精度语音转文本。支持转写、说话人分离、音频事件标注、逐词时间戳、强制对齐，以及适用于会议、播客和其他音频流程的字幕生成。

音频编辑

收藏 0GitHub 0

elevenlabs-tts

作者 inferen-sh

通过 inference.sh CLI 使用 ElevenLabs 文本转语音（text-to-speech），提供 22+ 高品质声音、多语言支持以及适合生产环境的高性能语音生成模型。

语音生成

收藏 0GitHub 0

ai-podcast-creation

作者 inferen-sh

使用 Kokoro TTS、DIA TTS 和 inference.sh CLI，将文本一键生成 AI 播客和语音内容。你可以混合多种声音、添加音乐，并拼接完整的播客节目、有声书和音频简报。

语音生成

收藏 0GitHub 0

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言，同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

视频编辑

收藏 0GitHub 0

elevenlabs-sound-effects

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，根据文本提示生成 AI 音效。非常适合需要快速、免版税声音设计的视频剪辑师、游戏开发者、播客作者、电影创作者和内容创作者。支持文本转音效、可调节时长，以及可控的提示词影响力，可用于电影级、氛围化和游戏就绪的 SFX。

音频编辑

收藏 0GitHub 0

elevenlabs-voice-changer

作者 inferen-sh

ElevenLabs voice changer 技能通过 inference.sh CLI（infsh）将录制好的语音转换为另一种合成声音，同时尽可能保留原始内容与情绪表达。支持 eleven_multilingual_sts_v2（70+ 种语言）和 eleven_english_sts_v2，可用于语音转语音、多语言配音、口音变换、声音伪装等内容创作、配音与角色配音场景。

语音生成

收藏 0GitHub 0

ai-voice-cloning

作者 inferen-sh

ai-voice-cloning 是基于 inference.sh 的技能，用于在 CLI 中进行 AI 语音生成、文本转语音（TTS）和语音克隆。它封装了 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice 等模型，适合用于自然语音、多角色旁白以及为音视频项目做语音变换。

语音生成

收藏 0GitHub 0

elevenlabs-dialogue

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，生成精致的多说话人对话音频。将结构化脚本转换为自然流畅的多角色对话，并输出到同一个音频文件，适用于播客、有声书、讲解视频、教程、角色对白和视频脚本等场景。

语音生成

收藏 0GitHub 0