I

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 透過 inference.sh CLI,自動將音訊或視訊配音、翻譯成 29 種語言,同時保留原說話者的聲音特質。非常適合需要快速產出多語版本內容的剪輯師、Podcaster,以及在地化與後製團隊使用。

Stars0
收藏0
評論0
分類视频编辑
安裝指令
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
總覽

概覽

elevenlabs-dubbing 是什麼?

elevenlabs-dubbing 是一個自動化配音技能,透過 inference.sh CLI 將音訊或視訊翻譯並配音成 29 種語言,同時保留原說話者的聲線。它將 ElevenLabs 的配音流程包成簡單的 CLI 工作流程,讓你可以快速把現有媒體內容在地化,面向全球觀眾。

你不再需要手動匯出音軌、丟到不同工具處理,再回到剪輯軟體重新對齊軌道,只要下一個指令就能完成以下工作:

  • 偵測來源中的不同說話者
  • 將語音翻譯成目標語言
  • 以說話者原本的聲線產生自然的配音
  • 輸出完成的在地化音軌(亦可與視訊檔順暢搭配使用)

誰適合使用 elevenlabs-dubbing?

elevenlabs-dubbing 特別適合這些使用情境:

  • 你負責剪輯或製作影片內容,需要多語版本配音(例如 YouTube 頻道、課程、產品操作影片、行銷影片)
  • 你經營 Podcast 或音訊節目,希望為新的市場提供在地化版本
  • 你在在地化或後製團隊工作,需要擴大量產配音,但不想為每個語言都聘請母語配音員
  • 你在打造自動化媒體工作流程,需要一個可透過 CLI/API 控制、能被腳本或 CI 呼叫的配音步驟

以下情況可能就不太適合:

  • 你需要逐格精準、手工混音的聲音設計,或是有創作再詮釋,而不是直接翻譯
  • 你必須在完全離線、沒有網路的環境下處理(inference.sh 為雲端服務)
  • 你需要直接整合到圖形介面的剪輯軟體(此技能以 CLI 操作為主,最適合作為剪輯軟體旁邊的工具,而不是內嵌其中)

主要功能

根據上游技能定義,elevenlabs-dubbing 具備以下能力:

  • 透過 infsh CLI 自動為音訊與視訊配音
  • 使用簡單的 target_lang 語言碼,翻譯成 29 種語言
  • 保留聲線的配音,在新語言中維持說話者原本的聲音特質
  • 自動處理多說話者,讓多人的錄音也能免設定逐一配音
  • 大規模音訊在地化,方便將既有素材調整為國際發行版本

這些能力與影片剪輯、音訊剪輯、翻譯以及語音生成等工作流程高度相容,是後製或在地化工具組中相當萬用的一環。

使用方式

前置需求與安裝

要使用 elevenlabs-dubbing,你需要先安裝並完成 inference.sh CLI(infsh)的驗證登入。

  1. 安裝 inference.sh CLI
    請依照官方 repo 中的安裝說明進行:

    • 開啟 CLI 安裝指南:
      https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
    • 依照文件為你的平台安裝 infsh
  2. 使用 inference.sh 登入
    安裝完成後,先驗證你的 CLI 工作階段:

    infsh login
    

    依照螢幕提示操作(例如開啟指定 URL 或貼上 token),讓 CLI 能存取 ElevenLabs 的 dubbing app。

  3. 將技能加入你的 agent 環境(選用)
    若你使用的是以 skills 為基礎的 agent 環境,可透過下列指令安裝此技能:

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
    

    這會讓你的 agents 能直接使用 elevenlabs-dubbing 的工作流程,實際執行仍是透過底層的 infsh CLI 完成。

基本配音流程(快速上手)

infsh 安裝並完成登入後,你可以用一個指令就將視訊或音訊配成其他語言。

範例:將英文影片配成西班牙文

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "es"
}'

運作方式說明:

  • elevenlabs/dubbing 是由 CLI 呼叫的雲端 dubbing app。
  • audio 是來源媒體的 URL(可為音訊或視訊),例如透過 https:// 存取的 video.mp4 檔案。
  • target_lang 是你要輸出的配音語言代碼(此例為西班牙文 es)。

app 會處理來源媒體、翻譯語音,並在指定語言中輸出配音,同時保留說話者的聲線風格。

支援語言

此技能透過簡單的語言碼支援 29 種語言(以下為上游表格中的部分範例):

  • en – English
  • es – Spanish
  • fr – French
  • de – German
  • it – Italian
  • pt – Portuguese
  • pl – Polish
  • hi – Hindi
  • ar – Arabic
  • ko – Korean
  • ru – Russian
  • tr – Turkish
  • nl – Dutch
  • sv – Swedish
  • da – Danish
  • fi – Finnish
  • no – Norwegian
  • cs – Czech

若需要完整的支援語言與代碼列表,請參考上游 SKILL.md 中的語言表格。

常見使用模式

1. 影片(YouTube、線上課程)的多語在地化

  1. 將來源影片上傳到可透過 HTTPS 存取的位置(例如儲存桶或未公開的影片網址)。
  2. 使用影片 URL 與目標 target_lang 執行 infsh app run elevenlabs/dubbing
  3. 下載完成的配音音軌,在你的剪輯軟體中(Premiere Pro、Final Cut、DaVinci Resolve 等)對齊或替換原音軌。

2. Podcast 與訪談節目的翻譯

  1. 將原始音訊檔(.mp3.wav 或內含音訊的視訊檔)放在公開或授權可存取的 URL 上。
  2. 使用該 URL 與目標語言碼呼叫 elevenlabs-dubbing。
  3. 將在地化版本以獨立節目集或獨立頻道的方式發佈。

3. 腳本化與自動化流程

因為 elevenlabs-dubbing 是透過 CLI 操作,你可以:

  • infsh app run 指令包進 shell script 中
  • 把配音流程接入你的內容發佈 CI/CD pipeline
  • 串接其他工具(例如轉錄、剪輯或格式處理腳本),形成更完整的自動化流程

在 repo 中可以看哪些檔案?

如果你已將此技能安裝到 agent 環境中,可透過以下檔案了解更多細節:

  • SKILL.md – 核心說明、功能介紹與快速上手
  • tools/audio/elevenlabs-dubbing(目錄)– 此技能在共用 skills repo 中的位置

建議將這些檔案當作實作參考範例,而不是完全照抄;請依照你自己的基礎設施、儲存架構與安全需求調整設計。

常見問題(FAQ)

什麼時候適合使用 elevenlabs-dubbing?

elevenlabs-dubbing 特別適合你手上已經有完成或接近完成的影片或音訊,想在不重新錄製的情況下,快速產出高品質的多語版本:

  • 將一支成功的英文影片延伸為西班牙文、法文或德文版本
  • 在地化網路研討會、教學影片或線上課程內容
  • 讓 Podcast 或訪談節目延伸到新的語言市場

如果你的優先考量是速度、擴充性,以及保留說話者的原聲,而不是客製化錄音室等級的配音,這個工具會特別適合你。

什麼情況下 elevenlabs-dubbing 不太適合?

若符合以下條件,可能需要考慮其他做法:

  • 你需要完全重新創作的配音(重寫腳本、喜劇節奏調整,或全新的配音卡司)
  • 你的作業流程必須完全離線(不能呼叫雲端服務)
  • 你需要直接在剪輯軟體中使用、以滑鼠點選為主的 GUI 工具

在這些情境下,傳統配音錄音室或內部部署的語音解決方案可能更合適。

我要怎麼安裝 elevenlabs-dubbing?

可以分成兩個層面來看:

  1. 安裝 inference.sh CLI:依照以下文件中的指示操作:
    https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

  2. (選用)將技能加入你的 agent 環境

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dubbing
    

實際的配音是透過 infsh CLI 呼叫 elevenlabs/dubbing app 來執行。

我可以使用哪些輸入格式?

上游的 SKILL 範例中示範將影片 URL(https://video.mp4)作為 audio 欄位傳入,這代表:

  • 你可以直接提供含有音訊軌的視訊檔(例如有聲音的 .mp4
  • app 會在後端自動處理音訊擷取與配音

為了獲得最佳效果,建議提供錄音品質良好、語音清晰、背景噪音較低的來源素材。

我要如何選擇配音語言?

在 JSON 輸入中使用 target_lang 欄位指定你要輸出的語言:

infsh app run elevenlabs/dubbing --input '{
  "audio": "https://video.mp4",
  "target_lang": "fr"
}'

fr 替換成任何支援的語言碼,例如 esdept,或其他在支援清單中的代碼即可。

elevenlabs-dubbing 會保留原說話者的聲音嗎?

會的。根據技能說明,elevenlabs-dubbing 的設計就是針對 保留聲線的翻譯配音,在變更語言的同時維持說話者原本的聲音風格與辨識度。這對希望觀眾仍然覺得「是在聽同一個人,只是換了語言」的創作者來說特別重要。

elevenlabs-dubbing 與影片剪輯工具的關係是什麼?

elevenlabs-dubbing 不會取代你的影片剪輯軟體,而是作為工作流程中的一個 專門配音步驟

  1. 在剪輯軟體中剪好並完成你的母帶影片。
  2. 將母帶輸出或上傳到可存取的位置。
  3. 透過 infsh 執行 elevenlabs-dubbing 產生在地化音軌。
  4. 再把配音後的音軌匯入或重新連結回剪輯軟體,為各語言輸出成品。

這樣的分工讓你可以保留既有的剪輯工具組,同時在流程中加入強大的自動化多語配音能力。

在哪裡可以看到更多技術細節?

你可以直接查看 repo 中的技能原始碼:

  • GitHub URL:https://github.com/inferen-sh/skills/tree/main/tools/audio/elevenlabs-dubbing
  • 技能定義與快速上手:SKILL.md

這些檔案能幫助你了解維護者提供的精確設定與使用範例,方便你依照自己的環境做進一步調整。

評分與評論

尚無評分
分享你的評論
登入後即可為這項技能評分並留言。
G
0/10000
最新評論
儲存中...