ai-podcast-creation
作者 inferen-sh使用 Kokoro TTS、DIA TTS 和 inference.sh CLI,從文字建立由 AI 驅動的 Podcast 與語音內容。你可以混搭多種聲線、加入音樂,並組合完整的 Podcast、有聲書與音訊電子報集數。
概觀
什麼是 ai-podcast-creation?
ai-podcast-creation 技能是一套利用 inference.sh CLI 產生 AI Podcast 與語音內容的工作流程。它著重於將文字提示透過 Kokoro TTS 與 DIA TTS 轉換成自然語音,再配合額外的音樂與媒體合併工具,組裝成完整的 Podcast 風格段落。
這個技能特別適合希望有「從稿本到音檔」自動化流程的創作者,而不是手動錄音與剪輯聲軌。
主要功能
透過 ai-podcast-creation,你可以:
- 使用
infsh app run infsh/kokoro-tts產生 高品質文字轉語音(text-to-speech)。 - 使用不同的 預設 voice ID(例如
af_sarah、af_nicole、am_michael)對應主持人、來賓或旁白角色。 - 直接從書面稿件產出 Podcast 段落與旁白。
- 多次呼叫 TTS app、搭配不同 voice ID,建立 多角色對話 與人物聲線。
- 串接其他 inference.sh apps,例如 DIA TTS、Chatterbox、AI music generation 與 media merger,加入背景音樂並進行多軌組裝(如技能內容所述)。
適合的對象
如果你是以下角色,ai-podcast-creation 會相當適合:
- 想要打樣或自動化集數製作的 Podcast 主播或製作團隊。
- 想把文章或電子報轉成音訊的 內容行銷人員。
- 打造以 CLI 為核心的媒體工作流程的 獨立開發者 或 自動化工程師。
- 需要產生講課型音訊或解說內容的 研究者或教育工作者。
若你的需求是:
- 在瀏覽器中即時互動語音聊天(本技能以 CLI 為主)。
- 在技能內進行類 DAW 的細緻手動剪輯(需先匯出音檔,再到其他工具編輯)。
那就比較不適合使用這個技能。
什麼時候適合用 ai-podcast-creation
在以下情境特別適合使用本技能:
- 你已經有 腳本、show notes 或長篇文字,希望轉成口語音訊。
- 你偏好 基於終端機的自動化 與可重現的 pipeline,而非 GUI 工具。
- 你想要先 快速試驗不同聲線,再決定是否投入更複雜的製作架構。
若符合以下情況,則可考慮其他方案:
- 只需要在 DAW 內進行高度客製的音訊後製。
- 無法安裝或使用本技能所需的 inference.sh CLI(
infsh)。
使用方式
事前準備
要執行 ai-podcast-creation,你需要:
- 可使用 macOS、Linux 或 WSL/相容環境的終端機。
- 安裝好 inference.sh CLI(
infsh)。 - 有有效的 inference.sh 帳號與憑證,能執行
infsh login。
技能本身的 SKILL.md 明確註明:
Requires inference.sh CLI (
infsh). Install instructions
請先依照該連結中的官方 CLI 安裝步驟完成設定,再開始使用此技能。
1. 安裝 ai-podcast-creation 技能
使用 Agent Skills CLI 從 inferen-sh/skills repository 新增此技能:
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
這會下載 ai-podcast-creation 的說明與中繼資料,讓你的 agent 或工具鏈可以引用。
2. 設定 inference.sh CLI
CLI 安裝完成後,先進行身分驗證:
infsh login
依照畫面提示,使用你的 inference.sh 帳號完成登入。
登入後,你就可以直接在終端機或腳本流程中呼叫像 infsh/kokoro-tts 這類 apps。
3. 產生第一個 Podcast 段落
測試 ai-podcast-creation 最快的方式,是執行 SKILL.md 中的 Kokoro TTS 範例:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
"voice": "am_michael"
}'
這個指令會:
- 將
prompt文字送到infsh/kokoro-ttsapp。 - 使用
am_michael聲線(美式男性、權威風格,適合紀錄片或技術內容)。 - 回傳產生好的語音音檔,你可以依自己的 CLI 設定將其儲存或導入後續流程處理。
4. 選擇合適的聲線
技能文件在 Available Voices → Kokoro TTS 底下提供一份 voice table,示例聲線包括:
af_sarah– 美式女性,溫暖;適合主持人與旁白。af_nicole– 美式女性,專業;適合新聞或商業節目。am_michael– 美式男性,權威;適合科技或紀錄片型 Podcast。
你可以在指令中替換 voice:
infsh app run infsh/kokoro-tts --input '{
"prompt": "In today\'s episode, we break down three key trends in machine learning.",
"voice": "af_nicole"
}'
透過多次執行不同 voice 與 prompt 的指令,你可以建立多位講者的段落,之後再使用技能中提到的其他 apps(例如 media merger)與音樂或音效合併。
5. 建立可重複的工作流程
當你熟悉產生單句或單段音檔後,可以把流程包進腳本中。例如你可以:
- 把整集節目的稿本存成
episode01.txt。 - 切成主持人開場、來賓作答、結尾等段落。
- 針對每個段落,以不同聲線呼叫
infsh app run infsh/kokoro-tts。 - 依技能說明再用其他 inference.sh apps(AI music generation、media merger)加入片頭音樂、背景音樂或 crossfade 等效果。
雖然目前 repo 範例主要著重在 Kokoro TTS,但 SKILL 描述中指出也支援 DIA TTS 與 Chatterbox。你可以使用類似的 infsh app run 呼叫方式,依照各自文件所載參數來操作。
6. 在 repo 中深入閱讀技能文件
安裝完成後,可以開啟技能相關文件以取得更詳細的指引:
SKILL.md– ai-podcast-creation 的主說明文件,包含快速上手與可用聲線細節。- repository 中其他相關資料夾(例如
guides/content/ai-podcast-creation)– 提供更多關於 TTS 與媒體工作流程的內容與範例。
你可以運用這些文件來微調:
- 不同節目形式適合的聲線選擇。
- 如何將 TTS、音樂與媒體合併串成一條完整流程。
- 如何把此工作流程整合進你既有的自動化或 CI/CD 系統。
常見問題(FAQ)
ai-podcast-creation 實際上能做什麼?
ai-podcast-creation 是一套已寫好的工作流程說明,教你如何搭配 inference.sh CLI、Kokoro TTS、DIA TTS、Chatterbox 等相關 apps,從文字產生 Podcast 風格音訊。它提供多種聲線選項、指令範例,以及如何加上音樂與編輯工具來組裝完整集數的指引。
使用這個技能一定要有 inference.sh CLI 嗎?
是的。此技能明確要求安裝 inference.sh CLI(infsh)。你必須先安裝並執行 infsh login,才能跑像這樣的指令:
infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'
若沒有 infsh,ai-podcast-creation 的整體工作流程就無法運行。
這個技能可以做多角色對話嗎?
可以。雖然範例程式碼只展示單一聲線,但技能描述特別強調支援 multi-voice conversations。你可以這樣實作:
- 針對每位講者,以不同的
voiceID 多次呼叫 TTS app。 - 為每一句或每個段落產生獨立音檔。
- 再依技能說明,使用媒體合併工具(可選配音樂)把這些音檔組合起來。
這能取代完整的 Podcast 編輯器或 DAW 嗎?
不能。ai-podcast-creation 聚焦在透過 CLI apps 進行 產生與組裝。它非常適合:
- 將文字稿轉成音訊。
- 建立多角色對話與 AI 產生的音樂。
- 自動化與批次工作流程。
但若需要細緻的波形剪輯、混音或母帶處理,仍建議在產生音檔後,搭配專門的 DAW(例如 Audacity、Reaper 等)來完成。
我可以拿 ai-podcast-creation 來做有聲書或配音嗎?
可以。技能描述中明確列出 audiobooks、voice content 與 audio newsletters 等使用情境。你在 Podcast 中使用的 TTS 指令,同樣可以用來朗讀長篇文字、教材內容或宣傳稿,只要依照不同格式調整稿本結構與聲線選擇即可。
ai-podcast-creation 跟瀏覽器型 AI Podcast 工具有什麼差別?
瀏覽器工具通常提供 GUI 介面,而 ai-podcast-creation 則是 以 CLI 為主、易於寫成腳本。若你符合以下狀況,可以優先考慮 ai-podcast-creation:
- 喜歡自動化與可重現的命令列工作流程。
- 想把語音產生整合進既有 pipeline、排程工作或 CI。
若你較適合以下方式,則可以考慮瀏覽器工具:
- 需要點選式、可視化介面。
- 不打算使用終端機或撰寫腳本。
我要去哪裡看所有可用聲線清單?
Kokoro TTS 的聲線列表位於 SKILL.md 中的 Available Voices → Kokoro TTS 區段。請在 inferen-sh/skills repository 中開啟該檔案,即可查看每個 voice ID 的說明與建議用途(例如主持人、旁白、新聞)。
如果指令執行失敗,要怎麼排除問題?
若 infsh app run 執行失敗,可以依序檢查:
- 依官方安裝指南確認 inference.sh CLI 是否正確安裝。
- 再次執行
infsh login,確保登入狀態有效。 - 檢查
--input裡的 JSON 是否有效(引號與跳脫字元是否正確)。 - 確認 app 名稱(
infsh/kokoro-tts)與 voice ID 是否與SKILL.md文件一致。
若問題仍然存在,建議查看 inference.sh 主文件或到 repository 的 issues 尋求與環境相關的協助。
