elevenlabs-voice-changer
作者 inferen-shElevenLabs voice changer 技能透過 inference.sh CLI(infsh)將錄製好的語音轉換成不同的合成聲音,同時保留原本的內容與情緒。支援 eleven_multilingual_sts_v2(70+ 種語言)與 eleven_english_sts_v2,可用於語音轉語音、口音變換與聲音偽裝,適合內容創作、配音與角色配音等情境。
概觀
elevenlabs-voice-changer 是什麼?
elevenlabs-voice-changer 是一個技能,將 ElevenLabs 的 speech-to-speech voice changer 串接到 inference.sh 命令列介面(infsh)。你可以送出一段既有的錄音,並獲得以不同合成聲音重新演繹的語音,同時保留原本的內容與表達方式。
在背後,這個技能會透過 infsh app run elevenlabs/voice-changer 呼叫 ElevenLabs 的 voice-changer app,因此你不需要自己手動串接 API。你只要描述輸入音訊與目標聲音,服務就會回傳轉換後的音檔。
主要能力
- 語音轉語音(speech-to-speech) – 將任何口說音訊轉成新聲音,免重新錄音。
- 多語言支援(70+ 種語言) – 透過
eleven_multilingual_sts_v2。 - 英語優化模型 – 使用
eleven_english_sts_v2提升英文輸出的品質。 - 口音與風格變換 – 利用 ElevenLabs 的 premium voices 切換口音、語氣或角色設定。
- 聲音偽裝與隱私 – 將真實聲音匿名化或遮蔽,用於公開內容。
適合哪些人使用?
這個技能特別適合你如果:
- 製作 YouTube、TikTok 或其他社群內容,想要變更或升級旁白聲音。
- 製作 Podcast 或配音,需要快速切換語言、口音或人物聲線。
- 在 行銷或產品解說 中,希望有多種品牌聲音,又不想額外聘請不同聲優。
- 建立 AI 角色或互動 Demo,需要一致、可重複使用的聲音。
在下列情境則 較不適合:
- 你需要只用視覺化 GUI、含時間軸編輯的流程(此工具以 CLI 為主)。
- 你必須完全離線處理(它依賴雲端的 inference.sh 與 ElevenLabs)。
- 你需要非常細緻的音訊工程工具,例如 EQ、混音或多軌編輯;本技能專注在「語音變換」,不是完整 DAW 功能。
模型與聲音選項
elevenlabs-voice-changer 技能提供的模型與 repo 中說明的一致:
- Multilingual STS v2 – 模型 ID:
eleven_multilingual_sts_v2(預設,支援 70+ 種語言)。 - English STS v2 – 模型 ID:
eleven_english_sts_v2(針對英文語音優化)。
它可以使用 22+ 個 ElevenLabs premium voices,與其 TTS 產品共用,包括預設常見的:
george– 英式、權威風格(文件中的預設聲音)。aria– 美式、口語自然。
你可以在呼叫 app 時,透過 voice 參數來選擇這些聲音。
使用方式
1. 先決條件與安裝
在使用 elevenlabs-voice-changer 前,你需要先安裝並登入 inference.sh CLI。
-
安裝 inference.sh CLI(
infsh)
依照官方 repo 中的指引操作:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
登入 inference.sh,使用你的帳號執行:
infsh login -
新增技能(Agent Skills Finder / skills registry)
如果你在 skills collection 中把它當成一個 skill 使用,可以這樣加入:npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
完成以上步驟後,你的環境就能透過 infsh 呼叫 ElevenLabs voice changer app。
2. 基本語音轉換範例
最快上手 elevenlabs-voice-changer 的方式,是跑一次技能文件裡提供的範例:
infsh login
# Transform voice
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
在這個範例中:
audio是指向輸入錄音的 URL(例如放在雲端的.mp3檔)。voice是目標 ElevenLabs 聲音的 ID(此例為aria)。
app 會處理這段錄音,並回傳一個新的音訊檔,內容與語氣表達相同,但聲線換成 aria。
3. 選擇模型與語言
預設情況下,這個技能配置為:
- 使用
eleven_multilingual_sts_v2,提供廣泛的語言支援(70+ 種)。
如果你的情境完全是英文,且希望使用專為英文優化的模型,可以在 app 輸入或你的流程設定中改用:
eleven_english_sts_v2,以獲得更佳的英文清晰度與語調表現。
選擇模型的具體欄位是由 ElevenLabs app 的設定處理,但在挑選模型時,請依技能文件使用上述這些 ID。
4. 切換不同的聲音與口音
若要嘗試不同口音或風格,只要在 --input JSON 中修改 voice 參數即可。
範例(模式):
# British, authoritative
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'
# American, conversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'
你可以對同一段原始音訊重複執行,換不同的 voice ID,快速試聽各種聲線,為你的專案挑選最合適的聲音。
5. 整合進你的工作流程
由於 elevenlabs-voice-changer 完全透過 CLI 執行,非常適合整合到腳本或自動化流程中:
- 批次處理 – 對一整個音檔 URL 清單或已上傳錄音迴圈呼叫
infsh app run。 - 內容在地化 – 只錄一次音,再依不同市場需求轉成不同口音或不同人物聲線。
- 聲音匿名化 – 在發佈前,先對錄製好的通話、訪談或使用者投稿進行變聲處理。
如果你使用的是更大型的 agent framework 或編排系統,可以在流程中需要「語音轉換」或「配音」的步驟,直接把這個技能當作其中一個 stage 來呼叫。
6. Repo 中建議先查看的檔案
當你在 inferen-sh/skills repo 中打開這個 skill,建議先從:
SKILL.md– 高層次說明、功能概觀與可直接複製調整的快速啟動指令。
skills repo 中其他常見檔案(例如 AGENTS.md、metadata.json,以及在其他工具裡可能出現的 rules/ 或 scripts/ 資料夾),主要用來說明 skills 如何整合進更大的 agent 工作流程。對 elevenlabs-voice-changer 來說,SKILL.md 是最核心的文件。
常見問題(FAQ)
elevenlabs-voice-changer 實際上會做什麼?
elevenlabs-voice-changer 透過 inference.sh CLI 呼叫 ElevenLabs 的 speech-to-speech 模型,把既有的聲音錄音轉換成另一種 AI 生成的聲音。它會保留原本的用詞與情緒表達,只改變聽起來的聲線。
要怎麼安裝 elevenlabs-voice-changer?
你不需要把這個技能安裝成一個獨立 app,而是這樣使用:
-
依照以下說明安裝
infshCLI:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md -
執行
infsh login完成登入驗證。 -
(選用)在你的 skills 設定中註冊這個技能:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
之後,你就可以透過 infsh app run elevenlabs/voice-changer 呼叫 ElevenLabs voice changer app。
使用這個技能需要 ElevenLabs 帳號嗎?
這個技能本身是包在 inference.sh 之上的 ElevenLabs 模型呼叫。任何關於 ElevenLabs 使用的底層需求(例如帳號、點數、額度等)都由你的 inference.sh 與 ElevenLabs 設定來處理。請參考 inference.sh 與 ElevenLabs 官方文件了解最新的存取與計費方式。
我可以完全在本機、離線使用 elevenlabs-voice-changer 嗎?
repo 的文件顯示,這個技能是透過 infsh 連線到線上的 ElevenLabs app 執行,並 沒有 提供完全離線模式的說明。實務上你應該預期需要連線到 inference.sh 與 ElevenLabs 後端。
可以使用哪些音訊格式當作輸入?
範例中使用的是透過 HTTP 服務的 .mp3 檔("https://recording.mp3")。實際可用的格式與大小上限則由 ElevenLabs app 本身決定。建議使用常見的網路音訊格式(例如 mp3),並放在穩定可存取的 URL 上。
可以使用我自訂訓練的聲音嗎?
技能說明聚焦在 ElevenLabs 的標準聲音集合(22+ 個 premium voices),例如 george 與 aria,並沒有詳細描述自訂聲音訓練流程。如果你需要專屬聲線,請參考 ElevenLabs 官方文件,了解自訂聲音如何整合到他們的 speech-to-speech app。
這個工具適合做即時變聲嗎?
repo 中展示的是透過 CLI 進行的 檔案式 speech-to-speech,用法是提供一個已錄製檔案的 URL,再取得處理後的檔案。文件沒有提到即時或語音通話中的即時變聲,因此較適合被視為一個 非即時、以檔案為主 的變聲工具,而不是 live 變聲器。
什麼情況下不建議使用 elevenlabs-voice-changer?
如果你有以下需求,可能要考慮其他工具:
- 需要完整 DAW 或非線性剪輯工具,用於細緻的混音與後製。
- 需要用在直播或遊戲上的即時、低延遲聲音特效。
- 必須在完全離線、無任何雲端服務的環境中運作。
若你的重點是透過 CLI 做腳本化、可重複的語音轉語音變聲流程,elevenlabs-voice-changer 會是很合適的選擇。
我要在哪裡查看或修改設定?
到 GitHub 上的 inferen-sh/skills repo,路徑如下:
tools/audio/elevenlabs-voice-changer/
打開其中的 SKILL.md,可以看到官方的快速啟動說明、可用模型與聲音選項,並依你的環境調整範例指令。
