I

elevenlabs-voice-changer

作者 inferen-sh

ElevenLabs voice changer 技能透過 inference.sh CLI(infsh)將錄製好的語音轉換成不同的合成聲音,同時保留原本的內容與情緒。支援 eleven_multilingual_sts_v2(70+ 種語言)與 eleven_english_sts_v2,可用於語音轉語音、口音變換與聲音偽裝,適合內容創作、配音與角色配音等情境。

Stars0
收藏0
評論0
加入時間2026年3月27日
分類語音生成
安裝指令
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
總覽

概觀

elevenlabs-voice-changer 是什麼?

elevenlabs-voice-changer 是一個技能,將 ElevenLabs 的 speech-to-speech voice changer 串接到 inference.sh 命令列介面(infsh)。你可以送出一段既有的錄音,並獲得以不同合成聲音重新演繹的語音,同時保留原本的內容與表達方式。

在背後,這個技能會透過 infsh app run elevenlabs/voice-changer 呼叫 ElevenLabs 的 voice-changer app,因此你不需要自己手動串接 API。你只要描述輸入音訊與目標聲音,服務就會回傳轉換後的音檔。

主要能力

  • 語音轉語音(speech-to-speech) – 將任何口說音訊轉成新聲音,免重新錄音。
  • 多語言支援(70+ 種語言) – 透過 eleven_multilingual_sts_v2
  • 英語優化模型 – 使用 eleven_english_sts_v2 提升英文輸出的品質。
  • 口音與風格變換 – 利用 ElevenLabs 的 premium voices 切換口音、語氣或角色設定。
  • 聲音偽裝與隱私 – 將真實聲音匿名化或遮蔽,用於公開內容。

適合哪些人使用?

這個技能特別適合你如果:

  • 製作 YouTube、TikTok 或其他社群內容,想要變更或升級旁白聲音。
  • 製作 Podcast 或配音,需要快速切換語言、口音或人物聲線。
  • 行銷或產品解說 中,希望有多種品牌聲音,又不想額外聘請不同聲優。
  • 建立 AI 角色或互動 Demo,需要一致、可重複使用的聲音。

在下列情境則 較不適合

  • 你需要只用視覺化 GUI、含時間軸編輯的流程(此工具以 CLI 為主)。
  • 你必須完全離線處理(它依賴雲端的 inference.sh 與 ElevenLabs)。
  • 你需要非常細緻的音訊工程工具,例如 EQ、混音或多軌編輯;本技能專注在「語音變換」,不是完整 DAW 功能。

模型與聲音選項

elevenlabs-voice-changer 技能提供的模型與 repo 中說明的一致:

  • Multilingual STS v2 – 模型 ID:eleven_multilingual_sts_v2(預設,支援 70+ 種語言)。
  • English STS v2 – 模型 ID:eleven_english_sts_v2(針對英文語音優化)。

它可以使用 22+ 個 ElevenLabs premium voices,與其 TTS 產品共用,包括預設常見的:

  • george – 英式、權威風格(文件中的預設聲音)。
  • aria – 美式、口語自然。

你可以在呼叫 app 時,透過 voice 參數來選擇這些聲音。

使用方式

1. 先決條件與安裝

在使用 elevenlabs-voice-changer 前,你需要先安裝並登入 inference.sh CLI。

  1. 安裝 inference.sh CLI(infsh
    依照官方 repo 中的指引操作:
    https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

  2. 登入 inference.sh,使用你的帳號執行:

    infsh login
    
  3. 新增技能(Agent Skills Finder / skills registry)
    如果你在 skills collection 中把它當成一個 skill 使用,可以這樣加入:

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
    

完成以上步驟後,你的環境就能透過 infsh 呼叫 ElevenLabs voice changer app。

2. 基本語音轉換範例

最快上手 elevenlabs-voice-changer 的方式,是跑一次技能文件裡提供的範例:

infsh login

# Transform voice
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

在這個範例中:

  • audio 是指向輸入錄音的 URL(例如放在雲端的 .mp3 檔)。
  • voice 是目標 ElevenLabs 聲音的 ID(此例為 aria)。

app 會處理這段錄音,並回傳一個新的音訊檔,內容與語氣表達相同,但聲線換成 aria

3. 選擇模型與語言

預設情況下,這個技能配置為:

  • 使用 eleven_multilingual_sts_v2,提供廣泛的語言支援(70+ 種)。

如果你的情境完全是英文,且希望使用專為英文優化的模型,可以在 app 輸入或你的流程設定中改用:

  • eleven_english_sts_v2,以獲得更佳的英文清晰度與語調表現。

選擇模型的具體欄位是由 ElevenLabs app 的設定處理,但在挑選模型時,請依技能文件使用上述這些 ID。

4. 切換不同的聲音與口音

若要嘗試不同口音或風格,只要在 --input JSON 中修改 voice 參數即可。

範例(模式):

# British, authoritative
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'

# American, conversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

你可以對同一段原始音訊重複執行,換不同的 voice ID,快速試聽各種聲線,為你的專案挑選最合適的聲音。

5. 整合進你的工作流程

由於 elevenlabs-voice-changer 完全透過 CLI 執行,非常適合整合到腳本或自動化流程中:

  • 批次處理 – 對一整個音檔 URL 清單或已上傳錄音迴圈呼叫 infsh app run
  • 內容在地化 – 只錄一次音,再依不同市場需求轉成不同口音或不同人物聲線。
  • 聲音匿名化 – 在發佈前,先對錄製好的通話、訪談或使用者投稿進行變聲處理。

如果你使用的是更大型的 agent framework 或編排系統,可以在流程中需要「語音轉換」或「配音」的步驟,直接把這個技能當作其中一個 stage 來呼叫。

6. Repo 中建議先查看的檔案

當你在 inferen-sh/skills repo 中打開這個 skill,建議先從:

  • SKILL.md – 高層次說明、功能概觀與可直接複製調整的快速啟動指令。

skills repo 中其他常見檔案(例如 AGENTS.mdmetadata.json,以及在其他工具裡可能出現的 rules/scripts/ 資料夾),主要用來說明 skills 如何整合進更大的 agent 工作流程。對 elevenlabs-voice-changer 來說,SKILL.md 是最核心的文件。

常見問題(FAQ)

elevenlabs-voice-changer 實際上會做什麼?

elevenlabs-voice-changer 透過 inference.sh CLI 呼叫 ElevenLabs 的 speech-to-speech 模型,把既有的聲音錄音轉換成另一種 AI 生成的聲音。它會保留原本的用詞與情緒表達,只改變聽起來的聲線。

要怎麼安裝 elevenlabs-voice-changer?

你不需要把這個技能安裝成一個獨立 app,而是這樣使用:

  1. 依照以下說明安裝 infsh CLI:
    https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

  2. 執行 infsh login 完成登入驗證。

  3. (選用)在你的 skills 設定中註冊這個技能:

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
    

之後,你就可以透過 infsh app run elevenlabs/voice-changer 呼叫 ElevenLabs voice changer app。

使用這個技能需要 ElevenLabs 帳號嗎?

這個技能本身是包在 inference.sh 之上的 ElevenLabs 模型呼叫。任何關於 ElevenLabs 使用的底層需求(例如帳號、點數、額度等)都由你的 inference.sh 與 ElevenLabs 設定來處理。請參考 inference.sh 與 ElevenLabs 官方文件了解最新的存取與計費方式。

我可以完全在本機、離線使用 elevenlabs-voice-changer 嗎?

repo 的文件顯示,這個技能是透過 infsh 連線到線上的 ElevenLabs app 執行,並 沒有 提供完全離線模式的說明。實務上你應該預期需要連線到 inference.sh 與 ElevenLabs 後端。

可以使用哪些音訊格式當作輸入?

範例中使用的是透過 HTTP 服務的 .mp3 檔("https://recording.mp3")。實際可用的格式與大小上限則由 ElevenLabs app 本身決定。建議使用常見的網路音訊格式(例如 mp3),並放在穩定可存取的 URL 上。

可以使用我自訂訓練的聲音嗎?

技能說明聚焦在 ElevenLabs 的標準聲音集合(22+ 個 premium voices),例如 georgearia,並沒有詳細描述自訂聲音訓練流程。如果你需要專屬聲線,請參考 ElevenLabs 官方文件,了解自訂聲音如何整合到他們的 speech-to-speech app。

這個工具適合做即時變聲嗎?

repo 中展示的是透過 CLI 進行的 檔案式 speech-to-speech,用法是提供一個已錄製檔案的 URL,再取得處理後的檔案。文件沒有提到即時或語音通話中的即時變聲,因此較適合被視為一個 非即時、以檔案為主 的變聲工具,而不是 live 變聲器。

什麼情況下不建議使用 elevenlabs-voice-changer?

如果你有以下需求,可能要考慮其他工具:

  • 需要完整 DAW 或非線性剪輯工具,用於細緻的混音與後製。
  • 需要用在直播或遊戲上的即時、低延遲聲音特效。
  • 必須在完全離線、無任何雲端服務的環境中運作。

若你的重點是透過 CLI 做腳本化、可重複的語音轉語音變聲流程,elevenlabs-voice-changer 會是很合適的選擇。

我要在哪裡查看或修改設定?

到 GitHub 上的 inferen-sh/skills repo,路徑如下:

  • tools/audio/elevenlabs-voice-changer/

打開其中的 SKILL.md,可以看到官方的快速啟動說明、可用模型與聲音選項,並依你的環境調整範例指令。

評分與評論

尚無評分
分享你的評論
登入後即可為這項技能評分並留言。
G
0/10000
最新評論
儲存中...