elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言，同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

Stars0

分类视频编辑

安装命令

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing

音频视频 Cli API

概览

elevenlabs-dubbing 是什么？

elevenlabs-dubbing 是一个自动配音技能，依托 inference.sh CLI 将音频或视频翻译并配音成 29 种语言，同时尽量保留原说话人的声音特征。它将 ElevenLabs 的配音流水线封装成一个简单的 CLI 工作流，帮助你快速将现有媒体本地化给全球受众。

相比于手动导出音频、分别送入不同工具处理、再回到剪辑软件对轨道逐一对齐，你只需要执行一条命令，即可完成：

检测源文件中的说话人
将语音翻译为目标语言
生成自然、流畅且保留原说话人音色的配音
输出完整的本地化音频轨道（同时可无缝适配视频文件）

谁适合使用 elevenlabs-dubbing？

如果你符合以下情况，elevenlabs-dubbing 会很合适：

剪辑或制作视频内容并需要多语言配音（如 YouTube 频道、在线课程、产品演示、市场营销视频）
运营播客或音频节目，希望为新的地区推出本地化版本
在本地化或后期制作团队中工作，需要大规模处理配音，但又不希望为每种语言都聘请母语配音演员
搭建自动化媒体工作流，希望在脚本或 CI 中加入一个 CLI/API 友好的配音步骤

如果出现以下情况，则不太适合：

你需要逐帧精细混音、创意再创作，而不仅仅是直译式配音
你需要完全离线处理（inference.sh 依赖云端服务）
你必须直接集成到 GUI NLE 中（此技能为 CLI 驱动，更适合作为剪辑软件外的配音环节使用，而非集成在其内部）

核心能力

基于上游技能定义，elevenlabs-dubbing 提供：

音视频自动配音，通过 infsh CLI 调用
支持翻译为 29 种语言，通过简单的 target_lang 代码控制
保留音色的配音，在切换语言的同时尽量保留原说话人的声音特征
自动说话人处理，可对多说话人录音进行处理，无需为每个说话人单独配置
面向国际发行的音频本地化能力，适合在大规模复用现有资产时使用

这些特性与视频剪辑、音频剪辑、翻译本地化和语音生成等工作流高度契合，使其成为后期制作或本地化工具箱中一款用途广泛的工具。

使用指南

前置条件与安装

要使用 elevenlabs-dubbing，你需要先安装并完成 inference.sh CLI（infsh）的登录。

安装 inference.sh CLI
按照仓库中的官方说明进行：
- 打开 CLI 安装指南：
  https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
- 按照文档为你的系统安装 infsh。
通过 inference.sh 登录
安装完成后，为 CLI 会话完成认证：
```
infsh login
```
根据终端中的提示操作（例如打开一个 URL 或粘贴 token），以便 CLI 能访问 ElevenLabs 的配音应用。
将技能添加到你的 agent 环境（可选）
如果你使用基于 skills 的 agent 环境，可通过以下命令安装该技能：
```
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
```
这样一来，agent 就可以使用 elevenlabs-dubbing 的工作流，同时在后台仍由 infsh CLI 执行。

基础配音流程（快速上手）

当 infsh 安装并登录完成后，你可以通过一条命令将视频或音频配音成另一种语言。

示例：将英文视频配音为西班牙语

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "es"
}'

工作原理说明：

elevenlabs/dubbing 是 CLI 调用的托管配音应用。
audio 是源媒体（音频或视频）的 URL，可以是类似 video.mp4 的 https:// 文件链接。
target_lang 是目标配音语言代码（此处 es 代表西班牙语）。

应用会处理源媒体、完成语音翻译，并在目标语言中生成配音音频，同时尽量保留说话人的声音特征。

支持的语言

该技能通过简洁的语言代码支持 29 种语言（以下为上游表中的部分示例）：

en – English（英语）
es – Spanish（西班牙语）
fr – French（法语）
de – German（德语）
it – Italian（意大利语）
pt – Portuguese（葡萄牙语）
pl – Polish（波兰语）
hi – Hindi（印地语）
ar – Arabic（阿拉伯语）
ko – Korean（韩语）
ru – Russian（俄语）
tr – Turkish（土耳其语）
nl – Dutch（荷兰语）
sv – Swedish（瑞典语）
da – Danish（丹麦语）
fi – Finnish（芬兰语）
no – Norwegian（挪威语）
cs – Czech（捷克语）

如需完整语言代码列表，请参考上游仓库中的 SKILL.md 里的语言表。

常见使用场景

1. 本地化 YouTube 或在线课程视频

将源视频上传到可通过 HTTPS 访问的位置（如对象存储或未公开的视频链接）。
使用视频 URL 和目标 target_lang 运行 infsh app run elevenlabs/dubbing。
下载生成的配音音轨，然后在你的视频剪辑软件中（Premiere Pro、Final Cut、DaVinci Resolve 等）对齐或替换原音轨。

2. 翻译播客和访谈节目

将原始音频文件（如 .mp3、.wav，或带音轨的视频）部署到一个公共或授权访问的 URL。
使用该 URL 和目标语言代码调用 elevenlabs-dubbing。
将本地化版本作为单独的 feed 或新的一期节目发布。

3. 脚本化与自动化集成

由于 elevenlabs-dubbing 是通过 CLI 驱动，你可以：

在 shell 脚本中封装 infsh app run 命令
将配音步骤集成到内容发布的 CI/CD 流水线中
与其他工具（如转写、剪辑、格式处理脚本等）组合成更大的自动化流程

仓库中可重点查看的内容

如果你把该技能安装到 agent 环境中，可重点查看以下文件以了解更多细节：

SKILL.md – 核心说明、功能介绍和快速上手
tools/audio/elevenlabs-dubbing（目录）– 该技能在共享 skills 仓库中的位置

建议将这些文件作为实现参考，而不是逐字照搬；可根据你的基础设施、存储和安全要求做适配。

常见问题解答（FAQ）

在什么情况下 elevenlabs-dubbing 特别合适？

当你已经有成片或接近成片的音视频内容，希望在不重新录制的前提下快速获得高质量多语种版本时，elevenlabs-dubbing 非常适用，例如：

将一部表现优秀的英文视频快速扩展到西班牙语、法语或德语版本
为网络研讨会、教程或在线学习内容做多语言本地化
让播客或访谈节目进入新的语言市场

在你更看重速度、规模化能力和保留原声音特征，而不是高度定制的录音棚式配音时，它的优势会比较明显。

什么时候不太适合使用 elevenlabs-dubbing？

在以下场景下，你可能需要考虑其他方案：

你需要彻底的创意再创作（改写脚本、重新设计喜剧节奏、启用全新配音演员等）
工作流必须完全离线（不允许调用云端服务）
你需要在 NLE 中直接集成点选式 GUI

这类需求下，传统配音棚或本地化的语音解决方案可能更适合。

我该如何安装 elevenlabs-dubbing？

安装和使用分为两个层面：

安装 inference.sh CLI，按照以下说明进行：
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

（可选）将技能添加到你的 agent 环境：

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing

实际配音操作是通过 infsh CLI 调用 elevenlabs/dubbing 应用来完成的。

支持哪些输入格式？

上游 SKILL 文件中的示例展示了一个视频 URL（https://video.mp4），通过 audio 字段传入。这意味着：

你可以直接传入带音轨的视频文件（例如含音频的 .mp4）
应用会在后台自动进行音频提取并完成配音

为了获得更好的效果，建议提供录制质量较高、语音清晰、背景噪音较少的源素材。

如何选择配音语言？

在 JSON 输入中通过 target_lang 字段指定输出语言：

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "fr"
}'

将示例中的 fr 替换为任一支持的语言代码，例如 es、de、pt 等。

elevenlabs-dubbing 会保留原说话人的声音吗？

会的。根据技能说明，elevenlabs-dubbing 面向 保留音色的翻译配音 场景设计，在改变语言的同时尽量保持原说话人的声音特征。这对于希望观众“仍然是在听同一个人，只是说另一种语言”的创作者来说非常理想。

elevenlabs-dubbing 与视频剪辑工具的关系是什么？

elevenlabs-dubbing 并不会取代你的视频剪辑软件，它更像是工作流中的一个 专用配音步骤：

在剪辑软件中完成主片剪辑与后期制作。
导出或托管这份母版文件。
通过 infsh 调用 elevenlabs-dubbing 生成本地化音轨。
将配音音轨重新导入或链接到剪辑软件中，为每种语言导出最终成片。

这种分工方式可以让你保留现有的剪辑工具链，同时通过自动化方式叠加强大的多语言配音能力。

哪里可以查看更多技术细节？

你可以在仓库中查看技能的源代码与文档：

GitHub 地址：https://github.com/inferen-sh/skills/tree/main/tools/audio/elevenlabs-dubbing
技能定义与快速上手：SKILL.md

通过这些文件，你可以了解维护者提供的完整配置细节和示例，并据此调整到适配自己环境的方案。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

remotion-best-practices

作者 remotion-dev

面向 Remotion 的实用最佳实践，用 React 构建程序化视频、动画，以及音频驱动的合成场景。

视频编辑

收藏 0GitHub 2411

agent-tools

作者 inferen-sh

agent-tools 会在你的智能体中暴露 inference.sh CLI，让你可以在一个入口里调用 150+ 个 AI 应用：图片生成、视频创作、LLM、大模型搜索、3D，以及 Twitter 自动化等。适合希望用统一工作流来调用 FLUX、Veo、Gemini、Grok、Claude、Seedance、OmniHuman、Tavily、Exa、OpenRouter 等多种模型，又不想自己管理 GPU 或复杂集成的场景。

工作流自动化

收藏 0GitHub 0

ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI，根据图片和音频生成 AI 虚拟人和说话头像视频。ai-avatar-video 封装了 OmniHuman、Fabric 和 PixVerse Lipsync 等应用，用于打造音频驱动的虚拟人、唇形同步视频和虚拟主持人，非常适合营销、讲解视频和社交内容工作流。

视频编辑

收藏 0GitHub 0

ai-video-generation

作者 inferen-sh

通过 inference.sh CLI，使用 Google Veo、Seedance、Wan、Grok 等 40+ 模型生成 AI 视频。支持文生视频、图生视频、唇形同步、虚拟人驱动、视频超分和拟音音效，适用于社交媒体短视频、营销素材、讲解视频和产品演示。

视频编辑

收藏 0GitHub 0

elevenlabs-sound-effects

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，根据文本提示生成 AI 音效。非常适合需要快速、免版税声音设计的视频剪辑师、游戏开发者、播客作者、电影创作者和内容创作者。支持文本转音效、可调节时长，以及可控的提示词影响力，可用于电影级、氛围化和游戏就绪的 SFX。

音频编辑

收藏 0GitHub 0

ai-marketing-videos

作者 inferen-sh

通过 inference.sh CLI 创建 AI 驱动的营销视频。使用 ai-marketing-videos 为 Facebook、YouTube、Instagram 和 TikTok 生成宣传视频、产品演示、说明视频以及广告创意素材，支持 Veo、Seedance、Wan、FLUX 等视觉模型和 Kokoro 配音模型。

视频编辑

收藏 0GitHub 0

ai-content-pipeline

作者 inferen-sh

使用 inference.sh CLI 设计并运行多步骤 AI 内容生产流水线，把图片、视频、音频和文本工具串联起来。通过 ai-content-pipeline，你可以自动化内容工作流，例如：生成图片、将图片动画化成视频、添加音效或配音，并为 YouTube、社交媒体和营销活动批量准备素材。

工作流自动化

收藏 0GitHub 0

ai-social-media-content

作者 inferen-sh

适用于 TikTok、Instagram、YouTube 和 X 的 AI 社交媒体内容生成器。结合 inference.sh CLI，可以用 FLUX、Veo、Seedance、Wan、Kokoro TTS 和 Claude 等模型，一键生成适配各平台的视频、reels、shorts、缩略图、图片、文案和标签。

社交媒体

收藏 0GitHub 0