elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 透過 inference.sh CLI，自動將音訊或視訊配音、翻譯成 29 種語言，同時保留原說話者的聲音特質。非常適合需要快速產出多語版本內容的剪輯師、Podcaster，以及在地化與後製團隊使用。

Stars0

評論0

分類视频编辑

安裝指令

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing

音频视频 Cli API

總覽

概覽

elevenlabs-dubbing 是什麼？

elevenlabs-dubbing 是一個自動化配音技能，透過 inference.sh CLI 將音訊或視訊翻譯並配音成 29 種語言，同時保留原說話者的聲線。它將 ElevenLabs 的配音流程包成簡單的 CLI 工作流程，讓你可以快速把現有媒體內容在地化，面向全球觀眾。

你不再需要手動匯出音軌、丟到不同工具處理，再回到剪輯軟體重新對齊軌道，只要下一個指令就能完成以下工作：

偵測來源中的不同說話者
將語音翻譯成目標語言
以說話者原本的聲線產生自然的配音
輸出完成的在地化音軌（亦可與視訊檔順暢搭配使用）

誰適合使用 elevenlabs-dubbing？

elevenlabs-dubbing 特別適合這些使用情境：

你負責剪輯或製作影片內容，需要多語版本配音（例如 YouTube 頻道、課程、產品操作影片、行銷影片）
你經營 Podcast 或音訊節目，希望為新的市場提供在地化版本
你在在地化或後製團隊工作，需要擴大量產配音，但不想為每個語言都聘請母語配音員
你在打造自動化媒體工作流程，需要一個可透過 CLI/API 控制、能被腳本或 CI 呼叫的配音步驟

以下情況可能就不太適合：

你需要逐格精準、手工混音的聲音設計，或是有創作再詮釋，而不是直接翻譯
你必須在完全離線、沒有網路的環境下處理（inference.sh 為雲端服務）
你需要直接整合到圖形介面的剪輯軟體（此技能以 CLI 操作為主，最適合作為剪輯軟體旁邊的工具，而不是內嵌其中）

主要功能

根據上游技能定義，elevenlabs-dubbing 具備以下能力：

透過 infsh CLI 自動為音訊與視訊配音
使用簡單的 target_lang 語言碼，翻譯成 29 種語言
保留聲線的配音，在新語言中維持說話者原本的聲音特質
自動處理多說話者，讓多人的錄音也能免設定逐一配音
大規模音訊在地化，方便將既有素材調整為國際發行版本

這些能力與影片剪輯、音訊剪輯、翻譯以及語音生成等工作流程高度相容，是後製或在地化工具組中相當萬用的一環。

使用方式

前置需求與安裝

要使用 elevenlabs-dubbing，你需要先安裝並完成 inference.sh CLI（infsh）的驗證登入。

安裝 inference.sh CLI
請依照官方 repo 中的安裝說明進行：
- 開啟 CLI 安裝指南：
  https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
- 依照文件為你的平台安裝 infsh。
使用 inference.sh 登入
安裝完成後，先驗證你的 CLI 工作階段：
```
infsh login
```
依照螢幕提示操作（例如開啟指定 URL 或貼上 token），讓 CLI 能存取 ElevenLabs 的 dubbing app。
將技能加入你的 agent 環境（選用）
若你使用的是以 skills 為基礎的 agent 環境，可透過下列指令安裝此技能：
```
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
```
這會讓你的 agents 能直接使用 elevenlabs-dubbing 的工作流程，實際執行仍是透過底層的 infsh CLI 完成。

基本配音流程（快速上手）

當 infsh 安裝並完成登入後，你可以用一個指令就將視訊或音訊配成其他語言。

範例：將英文影片配成西班牙文

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "es"
}'

運作方式說明：

elevenlabs/dubbing 是由 CLI 呼叫的雲端 dubbing app。
audio 是來源媒體的 URL（可為音訊或視訊），例如透過 https:// 存取的 video.mp4 檔案。
target_lang 是你要輸出的配音語言代碼（此例為西班牙文 es）。

app 會處理來源媒體、翻譯語音，並在指定語言中輸出配音，同時保留說話者的聲線風格。

支援語言

此技能透過簡單的語言碼支援 29 種語言（以下為上游表格中的部分範例）：

en – English
es – Spanish
fr – French
de – German
it – Italian
pt – Portuguese
pl – Polish
hi – Hindi
ar – Arabic
ko – Korean
ru – Russian
tr – Turkish
nl – Dutch
sv – Swedish
da – Danish
fi – Finnish
no – Norwegian
cs – Czech

若需要完整的支援語言與代碼列表，請參考上游 SKILL.md 中的語言表格。

常見使用模式

1. 影片（YouTube、線上課程）的多語在地化

將來源影片上傳到可透過 HTTPS 存取的位置（例如儲存桶或未公開的影片網址）。
使用影片 URL 與目標 target_lang 執行 infsh app run elevenlabs/dubbing。
下載完成的配音音軌，在你的剪輯軟體中（Premiere Pro、Final Cut、DaVinci Resolve 等）對齊或替換原音軌。

2. Podcast 與訪談節目的翻譯

將原始音訊檔（.mp3、.wav 或內含音訊的視訊檔）放在公開或授權可存取的 URL 上。
使用該 URL 與目標語言碼呼叫 elevenlabs-dubbing。
將在地化版本以獨立節目集或獨立頻道的方式發佈。

3. 腳本化與自動化流程

因為 elevenlabs-dubbing 是透過 CLI 操作，你可以：

將 infsh app run 指令包進 shell script 中
把配音流程接入你的內容發佈 CI/CD pipeline
串接其他工具（例如轉錄、剪輯或格式處理腳本），形成更完整的自動化流程

在 repo 中可以看哪些檔案？

如果你已將此技能安裝到 agent 環境中，可透過以下檔案了解更多細節：

SKILL.md – 核心說明、功能介紹與快速上手
tools/audio/elevenlabs-dubbing（目錄）– 此技能在共用 skills repo 中的位置

建議將這些檔案當作實作參考範例，而不是完全照抄；請依照你自己的基礎設施、儲存架構與安全需求調整設計。

常見問題（FAQ）

什麼時候適合使用 elevenlabs-dubbing？

elevenlabs-dubbing 特別適合你手上已經有完成或接近完成的影片或音訊，想在不重新錄製的情況下，快速產出高品質的多語版本：

將一支成功的英文影片延伸為西班牙文、法文或德文版本
在地化網路研討會、教學影片或線上課程內容
讓 Podcast 或訪談節目延伸到新的語言市場

如果你的優先考量是速度、擴充性，以及保留說話者的原聲，而不是客製化錄音室等級的配音，這個工具會特別適合你。

什麼情況下 elevenlabs-dubbing 不太適合？

若符合以下條件，可能需要考慮其他做法：

你需要完全重新創作的配音（重寫腳本、喜劇節奏調整，或全新的配音卡司）
你的作業流程必須完全離線（不能呼叫雲端服務）
你需要直接在剪輯軟體中使用、以滑鼠點選為主的 GUI 工具

在這些情境下，傳統配音錄音室或內部部署的語音解決方案可能更合適。

我要怎麼安裝 elevenlabs-dubbing？

可以分成兩個層面來看：

安裝 inference.sh CLI：依照以下文件中的指示操作：
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

（選用）將技能加入你的 agent 環境：

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing

實際的配音是透過 infsh CLI 呼叫 elevenlabs/dubbing app 來執行。

我可以使用哪些輸入格式？

上游的 SKILL 範例中示範將影片 URL（https://video.mp4）作為 audio 欄位傳入，這代表：

你可以直接提供含有音訊軌的視訊檔（例如有聲音的 .mp4）
app 會在後端自動處理音訊擷取與配音

為了獲得最佳效果，建議提供錄音品質良好、語音清晰、背景噪音較低的來源素材。

我要如何選擇配音語言？

在 JSON 輸入中使用 target_lang 欄位指定你要輸出的語言：

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "fr"
}'

將 fr 替換成任何支援的語言碼，例如 es、de、pt，或其他在支援清單中的代碼即可。

elevenlabs-dubbing 會保留原說話者的聲音嗎？

會的。根據技能說明，elevenlabs-dubbing 的設計就是針對 保留聲線的翻譯配音，在變更語言的同時維持說話者原本的聲音風格與辨識度。這對希望觀眾仍然覺得「是在聽同一個人，只是換了語言」的創作者來說特別重要。

elevenlabs-dubbing 與影片剪輯工具的關係是什麼？

elevenlabs-dubbing 不會取代你的影片剪輯軟體，而是作為工作流程中的一個 專門配音步驟：

在剪輯軟體中剪好並完成你的母帶影片。
將母帶輸出或上傳到可存取的位置。
透過 infsh 執行 elevenlabs-dubbing 產生在地化音軌。
再把配音後的音軌匯入或重新連結回剪輯軟體，為各語言輸出成品。

這樣的分工讓你可以保留既有的剪輯工具組，同時在流程中加入強大的自動化多語配音能力。

在哪裡可以看到更多技術細節？

你可以直接查看 repo 中的技能原始碼：

GitHub URL：https://github.com/inferen-sh/skills/tree/main/tools/audio/elevenlabs-dubbing
技能定義與快速上手：SKILL.md

這些檔案能幫助你了解維護者提供的精確設定與使用範例，方便你依照自己的環境做進一步調整。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

ai-social-media-content

作者 inferen-sh

適用於 TikTok、Instagram、YouTube 與 X 的 AI 社群內容產生器。透過 inference.sh CLI，搭配 FLUX、Veo、Seedance、Wan、Kokoro TTS 和 Claude 等模型，一鍵生成可直接上架的平台影片、reels、shorts、縮圖、圖片、文案與 hashtags。

社交媒体

收藏 0GitHub 0

remotion-best-practices

作者 remotion-dev

在 React 中建立程式化影片、動畫與音訊驅動合成時，實用的 Remotion 最佳實務指南。

视频编辑

收藏 0GitHub 2411

ai-video-generation

作者 inferen-sh

透過 inference.sh CLI，使用 Google Veo、Seedance、Wan、Grok 等超過 40 種模型產生 AI 影片。支援文字轉影片、圖片轉影片、對嘴同步、虛擬分身動畫、影片升頻，以及擬音音效，適用於社群短片、行銷素材、說明影片與產品 Demo。

视频编辑

收藏 0GitHub 0

ai-content-pipeline

作者 inferen-sh

使用 inference.sh CLI 設計並執行多步驟 AI 內容產線，把影像、影片、音訊與文字工具串在一起。透過 ai-content-pipeline，自動化以下類型的流程：產生圖片、將圖片轉成動畫影片、加入音效或旁白，最後將內容整理好，用於 YouTube、社群媒體與行銷活動。

工作流自動化

收藏 0GitHub 0

agent-tools

作者 inferen-sh

agent-tools 會在你的 agent 內部提供 inference.sh CLI，讓你在同一個介面中執行超過 150 款 AI 應用：圖像生成、影片製作、LLM、搜尋、3D，以及 Twitter 自動化等。非常適合需要統一工作流程執行器、但又不想自行管理 GPU 或複雜整合，卻同時要用到 FLUX、Veo、Gemini、Grok、Claude、Seedance、OmniHuman、Tavily、Exa、OpenRouter 等多種服務的情境。

工作流自動化

收藏 0GitHub 0

ai-marketing-videos

作者 inferen-sh

透過 inference.sh CLI 建立 AI 行銷影片。使用 ai-marketing-videos，可用 Veo、Seedance, Wan, FLUX 以及 Kokoro 配音等模型，為 Facebook、YouTube、Instagram 和 TikTok 產生宣傳影片、產品展示、解說影片及廣告創意。

视频编辑

收藏 0GitHub 0

ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI，從圖片與音訊軌生成 AI Avatar 與說話頭像（talking head）影片。ai-avatar-video 封裝了 OmniHuman、Fabric 和 PixVerse Lipsync 等應用，用於製作語音驅動的虛擬角色、對嘴影片與虛擬主持人，特別適合行銷、說明影片與社群內容的製作流程。

视频编辑

收藏 0GitHub 0

elevenlabs-sound-effects

作者 inferen-sh

透過 inference.sh CLI 使用 ElevenLabs，從文字提示生成 AI 音效。非常適合需要快速、免版稅音效設計的影片剪輯師、遊戲開發者、Podcast 主持人、電影工作者與內容創作者。支援文字轉音效、可調整音訊長度，以及針對電影級、氛圍類與遊戲用 SFX 的提示控制。

音频编辑

收藏 0GitHub 0