I

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言,同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

Stars0
收藏0
评论0
分类视频编辑
安装命令
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
概览

概览

elevenlabs-dubbing 是什么?

elevenlabs-dubbing 是一个自动配音技能,依托 inference.sh CLI 将音频或视频翻译并配音成 29 种语言,同时尽量保留原说话人的声音特征。它将 ElevenLabs 的配音流水线封装成一个简单的 CLI 工作流,帮助你快速将现有媒体本地化给全球受众。

相比于手动导出音频、分别送入不同工具处理、再回到剪辑软件对轨道逐一对齐,你只需要执行一条命令,即可完成:

  • 检测源文件中的说话人
  • 将语音翻译为目标语言
  • 生成自然、流畅且保留原说话人音色的配音
  • 输出完整的本地化音频轨道(同时可无缝适配视频文件)

谁适合使用 elevenlabs-dubbing?

如果你符合以下情况,elevenlabs-dubbing 会很合适:

  • 剪辑或制作视频内容并需要多语言配音(如 YouTube 频道、在线课程、产品演示、市场营销视频)
  • 运营播客或音频节目,希望为新的地区推出本地化版本
  • 在本地化或后期制作团队中工作,需要大规模处理配音,但又不希望为每种语言都聘请母语配音演员
  • 搭建自动化媒体工作流,希望在脚本或 CI 中加入一个 CLI/API 友好的配音步骤

如果出现以下情况,则不太适合:

  • 你需要逐帧精细混音、创意再创作,而不仅仅是直译式配音
  • 你需要完全离线处理(inference.sh 依赖云端服务)
  • 你必须直接集成到 GUI NLE 中(此技能为 CLI 驱动,更适合作为剪辑软件外的配音环节使用,而非集成在其内部)

核心能力

基于上游技能定义,elevenlabs-dubbing 提供:

  • 音视频自动配音,通过 infsh CLI 调用
  • 支持翻译为 29 种语言,通过简单的 target_lang 代码控制
  • 保留音色的配音,在切换语言的同时尽量保留原说话人的声音特征
  • 自动说话人处理,可对多说话人录音进行处理,无需为每个说话人单独配置
  • 面向国际发行的音频本地化能力,适合在大规模复用现有资产时使用

这些特性与视频剪辑、音频剪辑、翻译本地化和语音生成等工作流高度契合,使其成为后期制作或本地化工具箱中一款用途广泛的工具。

使用指南

前置条件与安装

要使用 elevenlabs-dubbing,你需要先安装并完成 inference.sh CLI(infsh)的登录。

  1. 安装 inference.sh CLI
    按照仓库中的官方说明进行:

    • 打开 CLI 安装指南:
      https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
    • 按照文档为你的系统安装 infsh
  2. 通过 inference.sh 登录
    安装完成后,为 CLI 会话完成认证:

    infsh login
    

    根据终端中的提示操作(例如打开一个 URL 或粘贴 token),以便 CLI 能访问 ElevenLabs 的配音应用。

  3. 将技能添加到你的 agent 环境(可选)
    如果你使用基于 skills 的 agent 环境,可通过以下命令安装该技能:

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
    

    这样一来,agent 就可以使用 elevenlabs-dubbing 的工作流,同时在后台仍由 infsh CLI 执行。

基础配音流程(快速上手)

infsh 安装并登录完成后,你可以通过一条命令将视频或音频配音成另一种语言。

示例:将英文视频配音为西班牙语

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "es"
}'

工作原理说明:

  • elevenlabs/dubbing 是 CLI 调用的托管配音应用。
  • audio 是源媒体(音频或视频)的 URL,可以是类似 video.mp4https:// 文件链接。
  • target_lang 是目标配音语言代码(此处 es 代表西班牙语)。

应用会处理源媒体、完成语音翻译,并在目标语言中生成配音音频,同时尽量保留说话人的声音特征。

支持的语言

该技能通过简洁的语言代码支持 29 种语言(以下为上游表中的部分示例):

  • en – English(英语)
  • es – Spanish(西班牙语)
  • fr – French(法语)
  • de – German(德语)
  • it – Italian(意大利语)
  • pt – Portuguese(葡萄牙语)
  • pl – Polish(波兰语)
  • hi – Hindi(印地语)
  • ar – Arabic(阿拉伯语)
  • ko – Korean(韩语)
  • ru – Russian(俄语)
  • tr – Turkish(土耳其语)
  • nl – Dutch(荷兰语)
  • sv – Swedish(瑞典语)
  • da – Danish(丹麦语)
  • fi – Finnish(芬兰语)
  • no – Norwegian(挪威语)
  • cs – Czech(捷克语)

如需完整语言代码列表,请参考上游仓库中的 SKILL.md 里的语言表。

常见使用场景

1. 本地化 YouTube 或在线课程视频

  1. 将源视频上传到可通过 HTTPS 访问的位置(如对象存储或未公开的视频链接)。
  2. 使用视频 URL 和目标 target_lang 运行 infsh app run elevenlabs/dubbing
  3. 下载生成的配音音轨,然后在你的视频剪辑软件中(Premiere Pro、Final Cut、DaVinci Resolve 等)对齐或替换原音轨。

2. 翻译播客和访谈节目

  1. 将原始音频文件(如 .mp3.wav,或带音轨的视频)部署到一个公共或授权访问的 URL。
  2. 使用该 URL 和目标语言代码调用 elevenlabs-dubbing。
  3. 将本地化版本作为单独的 feed 或新的一期节目发布。

3. 脚本化与自动化集成

由于 elevenlabs-dubbing 是通过 CLI 驱动,你可以:

  • 在 shell 脚本中封装 infsh app run 命令
  • 将配音步骤集成到内容发布的 CI/CD 流水线中
  • 与其他工具(如转写、剪辑、格式处理脚本等)组合成更大的自动化流程

仓库中可重点查看的内容

如果你把该技能安装到 agent 环境中,可重点查看以下文件以了解更多细节:

  • SKILL.md – 核心说明、功能介绍和快速上手
  • tools/audio/elevenlabs-dubbing(目录)– 该技能在共享 skills 仓库中的位置

建议将这些文件作为实现参考,而不是逐字照搬;可根据你的基础设施、存储和安全要求做适配。

常见问题解答(FAQ)

在什么情况下 elevenlabs-dubbing 特别合适?

当你已经有成片或接近成片的音视频内容,希望在不重新录制的前提下快速获得高质量多语种版本时,elevenlabs-dubbing 非常适用,例如:

  • 将一部表现优秀的英文视频快速扩展到西班牙语、法语或德语版本
  • 为网络研讨会、教程或在线学习内容做多语言本地化
  • 让播客或访谈节目进入新的语言市场

在你更看重速度、规模化能力和保留原声音特征,而不是高度定制的录音棚式配音时,它的优势会比较明显。

什么时候不太适合使用 elevenlabs-dubbing?

在以下场景下,你可能需要考虑其他方案:

  • 你需要彻底的创意再创作(改写脚本、重新设计喜剧节奏、启用全新配音演员等)
  • 工作流必须完全离线(不允许调用云端服务)
  • 你需要在 NLE 中直接集成点选式 GUI

这类需求下,传统配音棚或本地化的语音解决方案可能更适合。

我该如何安装 elevenlabs-dubbing?

安装和使用分为两个层面:

  1. 安装 inference.sh CLI,按照以下说明进行:
    https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

  2. (可选)将技能添加到你的 agent 环境

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
    

实际配音操作是通过 infsh CLI 调用 elevenlabs/dubbing 应用来完成的。

支持哪些输入格式?

上游 SKILL 文件中的示例展示了一个视频 URL(https://video.mp4),通过 audio 字段传入。这意味着:

  • 你可以直接传入带音轨的视频文件(例如含音频的 .mp4
  • 应用会在后台自动进行音频提取并完成配音

为了获得更好的效果,建议提供录制质量较高、语音清晰、背景噪音较少的源素材。

如何选择配音语言?

在 JSON 输入中通过 target_lang 字段指定输出语言:

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "fr"
}'

将示例中的 fr 替换为任一支持的语言代码,例如 esdept 等。

elevenlabs-dubbing 会保留原说话人的声音吗?

会的。根据技能说明,elevenlabs-dubbing 面向 保留音色的翻译配音 场景设计,在改变语言的同时尽量保持原说话人的声音特征。这对于希望观众“仍然是在听同一个人,只是说另一种语言”的创作者来说非常理想。

elevenlabs-dubbing 与视频剪辑工具的关系是什么?

elevenlabs-dubbing 并不会取代你的视频剪辑软件,它更像是工作流中的一个 专用配音步骤

  1. 在剪辑软件中完成主片剪辑与后期制作。
  2. 导出或托管这份母版文件。
  3. 通过 infsh 调用 elevenlabs-dubbing 生成本地化音轨。
  4. 将配音音轨重新导入或链接到剪辑软件中,为每种语言导出最终成片。

这种分工方式可以让你保留现有的剪辑工具链,同时通过自动化方式叠加强大的多语言配音能力。

哪里可以查看更多技术细节?

你可以在仓库中查看技能的源代码与文档:

  • GitHub 地址:https://github.com/inferen-sh/skills/tree/main/tools/audio/elevenlabs-dubbing
  • 技能定义与快速上手:SKILL.md

通过这些文件,你可以了解维护者提供的完整配置细节和示例,并据此调整到适配自己环境的方案。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...