elevenlabs-dubbing
作者 inferen-shelevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言,同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。
概览
elevenlabs-dubbing 是什么?
elevenlabs-dubbing 是一个自动配音技能,依托 inference.sh CLI 将音频或视频翻译并配音成 29 种语言,同时尽量保留原说话人的声音特征。它将 ElevenLabs 的配音流水线封装成一个简单的 CLI 工作流,帮助你快速将现有媒体本地化给全球受众。
相比于手动导出音频、分别送入不同工具处理、再回到剪辑软件对轨道逐一对齐,你只需要执行一条命令,即可完成:
- 检测源文件中的说话人
- 将语音翻译为目标语言
- 生成自然、流畅且保留原说话人音色的配音
- 输出完整的本地化音频轨道(同时可无缝适配视频文件)
谁适合使用 elevenlabs-dubbing?
如果你符合以下情况,elevenlabs-dubbing 会很合适:
- 剪辑或制作视频内容并需要多语言配音(如 YouTube 频道、在线课程、产品演示、市场营销视频)
- 运营播客或音频节目,希望为新的地区推出本地化版本
- 在本地化或后期制作团队中工作,需要大规模处理配音,但又不希望为每种语言都聘请母语配音演员
- 搭建自动化媒体工作流,希望在脚本或 CI 中加入一个 CLI/API 友好的配音步骤
如果出现以下情况,则不太适合:
- 你需要逐帧精细混音、创意再创作,而不仅仅是直译式配音
- 你需要完全离线处理(inference.sh 依赖云端服务)
- 你必须直接集成到 GUI NLE 中(此技能为 CLI 驱动,更适合作为剪辑软件外的配音环节使用,而非集成在其内部)
核心能力
基于上游技能定义,elevenlabs-dubbing 提供:
- 音视频自动配音,通过
infshCLI 调用 - 支持翻译为 29 种语言,通过简单的
target_lang代码控制 - 保留音色的配音,在切换语言的同时尽量保留原说话人的声音特征
- 自动说话人处理,可对多说话人录音进行处理,无需为每个说话人单独配置
- 面向国际发行的音频本地化能力,适合在大规模复用现有资产时使用
这些特性与视频剪辑、音频剪辑、翻译本地化和语音生成等工作流高度契合,使其成为后期制作或本地化工具箱中一款用途广泛的工具。
使用指南
前置条件与安装
要使用 elevenlabs-dubbing,你需要先安装并完成 inference.sh CLI(infsh)的登录。
-
安装 inference.sh CLI
按照仓库中的官方说明进行:- 打开 CLI 安装指南:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md - 按照文档为你的系统安装
infsh。
- 打开 CLI 安装指南:
-
通过 inference.sh 登录
安装完成后,为 CLI 会话完成认证:infsh login根据终端中的提示操作(例如打开一个 URL 或粘贴 token),以便 CLI 能访问 ElevenLabs 的配音应用。
-
将技能添加到你的 agent 环境(可选)
如果你使用基于 skills 的 agent 环境,可通过以下命令安装该技能:npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing这样一来,agent 就可以使用 elevenlabs-dubbing 的工作流,同时在后台仍由
infshCLI 执行。
基础配音流程(快速上手)
当 infsh 安装并登录完成后,你可以通过一条命令将视频或音频配音成另一种语言。
示例:将英文视频配音为西班牙语
infsh app run elevenlabs/dubbing --input '{
"audio": "https://video.mp4",
"target_lang": "es"
}'
工作原理说明:
elevenlabs/dubbing是 CLI 调用的托管配音应用。audio是源媒体(音频或视频)的 URL,可以是类似video.mp4的https://文件链接。target_lang是目标配音语言代码(此处es代表西班牙语)。
应用会处理源媒体、完成语音翻译,并在目标语言中生成配音音频,同时尽量保留说话人的声音特征。
支持的语言
该技能通过简洁的语言代码支持 29 种语言(以下为上游表中的部分示例):
en– English(英语)es– Spanish(西班牙语)fr– French(法语)de– German(德语)it– Italian(意大利语)pt– Portuguese(葡萄牙语)pl– Polish(波兰语)hi– Hindi(印地语)ar– Arabic(阿拉伯语)ko– Korean(韩语)ru– Russian(俄语)tr– Turkish(土耳其语)nl– Dutch(荷兰语)sv– Swedish(瑞典语)da– Danish(丹麦语)fi– Finnish(芬兰语)no– Norwegian(挪威语)cs– Czech(捷克语)
如需完整语言代码列表,请参考上游仓库中的 SKILL.md 里的语言表。
常见使用场景
1. 本地化 YouTube 或在线课程视频
- 将源视频上传到可通过 HTTPS 访问的位置(如对象存储或未公开的视频链接)。
- 使用视频 URL 和目标
target_lang运行infsh app run elevenlabs/dubbing。 - 下载生成的配音音轨,然后在你的视频剪辑软件中(Premiere Pro、Final Cut、DaVinci Resolve 等)对齐或替换原音轨。
2. 翻译播客和访谈节目
- 将原始音频文件(如
.mp3、.wav,或带音轨的视频)部署到一个公共或授权访问的 URL。 - 使用该 URL 和目标语言代码调用 elevenlabs-dubbing。
- 将本地化版本作为单独的 feed 或新的一期节目发布。
3. 脚本化与自动化集成
由于 elevenlabs-dubbing 是通过 CLI 驱动,你可以:
- 在 shell 脚本中封装
infsh app run命令 - 将配音步骤集成到内容发布的 CI/CD 流水线中
- 与其他工具(如转写、剪辑、格式处理脚本等)组合成更大的自动化流程
仓库中可重点查看的内容
如果你把该技能安装到 agent 环境中,可重点查看以下文件以了解更多细节:
SKILL.md– 核心说明、功能介绍和快速上手tools/audio/elevenlabs-dubbing(目录)– 该技能在共享 skills 仓库中的位置
建议将这些文件作为实现参考,而不是逐字照搬;可根据你的基础设施、存储和安全要求做适配。
常见问题解答(FAQ)
在什么情况下 elevenlabs-dubbing 特别合适?
当你已经有成片或接近成片的音视频内容,希望在不重新录制的前提下快速获得高质量多语种版本时,elevenlabs-dubbing 非常适用,例如:
- 将一部表现优秀的英文视频快速扩展到西班牙语、法语或德语版本
- 为网络研讨会、教程或在线学习内容做多语言本地化
- 让播客或访谈节目进入新的语言市场
在你更看重速度、规模化能力和保留原声音特征,而不是高度定制的录音棚式配音时,它的优势会比较明显。
什么时候不太适合使用 elevenlabs-dubbing?
在以下场景下,你可能需要考虑其他方案:
- 你需要彻底的创意再创作(改写脚本、重新设计喜剧节奏、启用全新配音演员等)
- 工作流必须完全离线(不允许调用云端服务)
- 你需要在 NLE 中直接集成点选式 GUI
这类需求下,传统配音棚或本地化的语音解决方案可能更适合。
我该如何安装 elevenlabs-dubbing?
安装和使用分为两个层面:
-
安装 inference.sh CLI,按照以下说明进行:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
(可选)将技能添加到你的 agent 环境:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
实际配音操作是通过 infsh CLI 调用 elevenlabs/dubbing 应用来完成的。
支持哪些输入格式?
上游 SKILL 文件中的示例展示了一个视频 URL(https://video.mp4),通过 audio 字段传入。这意味着:
- 你可以直接传入带音轨的视频文件(例如含音频的
.mp4) - 应用会在后台自动进行音频提取并完成配音
为了获得更好的效果,建议提供录制质量较高、语音清晰、背景噪音较少的源素材。
如何选择配音语言?
在 JSON 输入中通过 target_lang 字段指定输出语言:
infsh app run elevenlabs/dubbing --input '{
"audio": "https://video.mp4",
"target_lang": "fr"
}'
将示例中的 fr 替换为任一支持的语言代码,例如 es、de、pt 等。
elevenlabs-dubbing 会保留原说话人的声音吗?
会的。根据技能说明,elevenlabs-dubbing 面向 保留音色的翻译配音 场景设计,在改变语言的同时尽量保持原说话人的声音特征。这对于希望观众“仍然是在听同一个人,只是说另一种语言”的创作者来说非常理想。
elevenlabs-dubbing 与视频剪辑工具的关系是什么?
elevenlabs-dubbing 并不会取代你的视频剪辑软件,它更像是工作流中的一个 专用配音步骤:
- 在剪辑软件中完成主片剪辑与后期制作。
- 导出或托管这份母版文件。
- 通过
infsh调用 elevenlabs-dubbing 生成本地化音轨。 - 将配音音轨重新导入或链接到剪辑软件中,为每种语言导出最终成片。
这种分工方式可以让你保留现有的剪辑工具链,同时通过自动化方式叠加强大的多语言配音能力。
哪里可以查看更多技术细节?
你可以在仓库中查看技能的源代码与文档:
- GitHub 地址:
https://github.com/inferen-sh/skills/tree/main/tools/audio/elevenlabs-dubbing - 技能定义与快速上手:
SKILL.md
通过这些文件,你可以了解维护者提供的完整配置细节和示例,并据此调整到适配自己环境的方案。
