ai-podcast-creation

作者 inferen-sh

使用 Kokoro TTS、DIA TTS 和 inference.sh CLI，從文字建立由 AI 驅動的 Podcast 與語音內容。你可以混搭多種聲線、加入音樂，並組合完整的 Podcast、有聲書與音訊電子報集數。

Stars0

評論0

加入時間2026年3月27日

分類語音生成

安裝指令

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

音频视频工作流 Cli

總覽

概觀

什麼是 ai-podcast-creation？

ai-podcast-creation 技能是一套利用 inference.sh CLI 產生 AI Podcast 與語音內容的工作流程。它著重於將文字提示透過 Kokoro TTS 與 DIA TTS 轉換成自然語音，再配合額外的音樂與媒體合併工具，組裝成完整的 Podcast 風格段落。

這個技能特別適合希望有「從稿本到音檔」自動化流程的創作者，而不是手動錄音與剪輯聲軌。

主要功能

透過 ai-podcast-creation，你可以：

使用 infsh app run infsh/kokoro-tts 產生 高品質文字轉語音（text-to-speech）。
使用不同的 預設 voice ID（例如 af_sarah、af_nicole、am_michael）對應主持人、來賓或旁白角色。
直接從書面稿件產出 Podcast 段落與旁白。
多次呼叫 TTS app、搭配不同 voice ID，建立 多角色對話 與人物聲線。
串接其他 inference.sh apps，例如 DIA TTS、Chatterbox、AI music generation 與 media merger，加入背景音樂並進行多軌組裝（如技能內容所述）。

適合的對象

如果你是以下角色，ai-podcast-creation 會相當適合：

想要打樣或自動化集數製作的 Podcast 主播或製作團隊。
想把文章或電子報轉成音訊的 內容行銷人員。
打造以 CLI 為核心的媒體工作流程的 獨立開發者 或 自動化工程師。
需要產生講課型音訊或解說內容的 研究者或教育工作者。

若你的需求是：

在瀏覽器中即時互動語音聊天（本技能以 CLI 為主）。
在技能內進行類 DAW 的細緻手動剪輯（需先匯出音檔，再到其他工具編輯）。

那就比較不適合使用這個技能。

什麼時候適合用 ai-podcast-creation

在以下情境特別適合使用本技能：

你已經有 腳本、show notes 或長篇文字，希望轉成口語音訊。
你偏好 基於終端機的自動化 與可重現的 pipeline，而非 GUI 工具。
你想要先 快速試驗不同聲線，再決定是否投入更複雜的製作架構。

若符合以下情況，則可考慮其他方案：

只需要在 DAW 內進行高度客製的音訊後製。
無法安裝或使用本技能所需的 inference.sh CLI（infsh）。

使用方式

事前準備

要執行 ai-podcast-creation，你需要：

可使用 macOS、Linux 或 WSL／相容環境的終端機。
安裝好 inference.sh CLI（infsh）。
有有效的 inference.sh 帳號與憑證，能執行 infsh login。

技能本身的 SKILL.md 明確註明：

Requires inference.sh CLI (infsh). Install instructions

請先依照該連結中的官方 CLI 安裝步驟完成設定，再開始使用此技能。

1. 安裝 ai-podcast-creation 技能

使用 Agent Skills CLI 從 inferen-sh/skills repository 新增此技能：

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

這會下載 ai-podcast-creation 的說明與中繼資料，讓你的 agent 或工具鏈可以引用。

2. 設定 inference.sh CLI

CLI 安裝完成後，先進行身分驗證：

infsh login

依照畫面提示，使用你的 inference.sh 帳號完成登入。

登入後，你就可以直接在終端機或腳本流程中呼叫像 infsh/kokoro-tts 這類 apps。

3. 產生第一個 Podcast 段落

測試 ai-podcast-creation 最快的方式，是執行 SKILL.md 中的 Kokoro TTS 範例：

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

這個指令會：

將 prompt 文字送到 infsh/kokoro-tts app。
使用 am_michael 聲線（美式男性、權威風格，適合紀錄片或技術內容）。
回傳產生好的語音音檔，你可以依自己的 CLI 設定將其儲存或導入後續流程處理。

4. 選擇合適的聲線

技能文件在 Available Voices → Kokoro TTS 底下提供一份 voice table，示例聲線包括：

af_sarah – 美式女性，溫暖；適合主持人與旁白。
af_nicole – 美式女性，專業；適合新聞或商業節目。
am_michael – 美式男性，權威；適合科技或紀錄片型 Podcast。

你可以在指令中替換 voice：

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

透過多次執行不同 voice 與 prompt 的指令，你可以建立多位講者的段落，之後再使用技能中提到的其他 apps（例如 media merger）與音樂或音效合併。

5. 建立可重複的工作流程

當你熟悉產生單句或單段音檔後，可以把流程包進腳本中。例如你可以：

把整集節目的稿本存成 episode01.txt。
切成主持人開場、來賓作答、結尾等段落。
針對每個段落，以不同聲線呼叫 infsh app run infsh/kokoro-tts。
依技能說明再用其他 inference.sh apps（AI music generation、media merger）加入片頭音樂、背景音樂或 crossfade 等效果。

雖然目前 repo 範例主要著重在 Kokoro TTS，但 SKILL 描述中指出也支援 DIA TTS 與 Chatterbox。你可以使用類似的 infsh app run 呼叫方式，依照各自文件所載參數來操作。

6. 在 repo 中深入閱讀技能文件

安裝完成後，可以開啟技能相關文件以取得更詳細的指引：

SKILL.md – ai-podcast-creation 的主說明文件，包含快速上手與可用聲線細節。
repository 中其他相關資料夾（例如 guides/content/ai-podcast-creation）– 提供更多關於 TTS 與媒體工作流程的內容與範例。

你可以運用這些文件來微調：

不同節目形式適合的聲線選擇。
如何將 TTS、音樂與媒體合併串成一條完整流程。
如何把此工作流程整合進你既有的自動化或 CI/CD 系統。

常見問題（FAQ）

ai-podcast-creation 實際上能做什麼？

ai-podcast-creation 是一套已寫好的工作流程說明，教你如何搭配 inference.sh CLI、Kokoro TTS、DIA TTS、Chatterbox 等相關 apps，從文字產生 Podcast 風格音訊。它提供多種聲線選項、指令範例，以及如何加上音樂與編輯工具來組裝完整集數的指引。

使用這個技能一定要有 inference.sh CLI 嗎？

是的。此技能明確要求安裝 inference.sh CLI（infsh）。你必須先安裝並執行 infsh login，才能跑像這樣的指令：

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

若沒有 infsh，ai-podcast-creation 的整體工作流程就無法運行。

這個技能可以做多角色對話嗎？

可以。雖然範例程式碼只展示單一聲線，但技能描述特別強調支援 multi-voice conversations。你可以這樣實作：

針對每位講者，以不同的 voice ID 多次呼叫 TTS app。
為每一句或每個段落產生獨立音檔。
再依技能說明，使用媒體合併工具（可選配音樂）把這些音檔組合起來。

這能取代完整的 Podcast 編輯器或 DAW 嗎？

不能。ai-podcast-creation 聚焦在透過 CLI apps 進行 產生與組裝。它非常適合：

將文字稿轉成音訊。
建立多角色對話與 AI 產生的音樂。
自動化與批次工作流程。

但若需要細緻的波形剪輯、混音或母帶處理，仍建議在產生音檔後，搭配專門的 DAW（例如 Audacity、Reaper 等）來完成。

我可以拿 ai-podcast-creation 來做有聲書或配音嗎？

可以。技能描述中明確列出 audiobooks、voice content 與 audio newsletters 等使用情境。你在 Podcast 中使用的 TTS 指令，同樣可以用來朗讀長篇文字、教材內容或宣傳稿，只要依照不同格式調整稿本結構與聲線選擇即可。

ai-podcast-creation 跟瀏覽器型 AI Podcast 工具有什麼差別？

瀏覽器工具通常提供 GUI 介面，而 ai-podcast-creation 則是 以 CLI 為主、易於寫成腳本。若你符合以下狀況，可以優先考慮 ai-podcast-creation：

喜歡自動化與可重現的命令列工作流程。
想把語音產生整合進既有 pipeline、排程工作或 CI。

若你較適合以下方式，則可以考慮瀏覽器工具：

需要點選式、可視化介面。
不打算使用終端機或撰寫腳本。

我要去哪裡看所有可用聲線清單？

Kokoro TTS 的聲線列表位於 SKILL.md 中的 Available Voices → Kokoro TTS 區段。請在 inferen-sh/skills repository 中開啟該檔案，即可查看每個 voice ID 的說明與建議用途（例如主持人、旁白、新聞）。

如果指令執行失敗，要怎麼排除問題？

若 infsh app run 執行失敗，可以依序檢查：

依官方安裝指南確認 inference.sh CLI 是否正確安裝。
再次執行 infsh login，確保登入狀態有效。
檢查 --input 裡的 JSON 是否有效（引號與跳脫字元是否正確）。
確認 app 名稱（infsh/kokoro-tts）與 voice ID 是否與 SKILL.md 文件一致。

若問題仍然存在，建議查看 inference.sh 主文件或到 repository 的 issues 尋求與環境相關的協助。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

code-review-excellence

作者 wshobson

掌握有效的程式碼審查實務，提供建設性回饋、及早發現錯誤，並促進知識分享，同時維持團隊士氣。適用於審查 pull request、建立審查標準或指導開發者時。

程式碼評審

收藏 0GitHub 0

onboard

作者 pbakaus

創建並優化引導流程、空狀態與首次使用體驗，幫助用戶快速體驗產品價值。非常適合提升用戶啟動率並引導首次使用者。

UI/UX 設計

收藏 0GitHub 0

marketing-ideas

作者 coreyhaines31

一個行銷策略規劃技能，內建 139 個經過驗證的 SaaS 與軟體產品成長點子，依產品階段、預算與資源，幫你挑出適合的成長策略。

内容行銷

收藏 0GitHub 0

data-quality-frameworks

作者 wshobson

使用 Great Expectations、dbt 測試與資料合約實作資料品質驗證。適合建構穩健資料管線、自動化驗證流程及建立資料品質標準。

数据清洗

收藏 0GitHub 0

systematic-debugging

作者 obra

四階段除錯工作流程，強制先查明根本原因再進行任何修正，並提供處理 flaky tests、驗證與測試汙染的實用工具。

调试

收藏 0GitHub 0

programmatic-seo

作者 coreyhaines31

使用 programmatic-seo 技能，以模板與資料規劃並設計大規模、以 SEO 為導向的頁面，例如地區頁、目錄頁、比較頁與整合頁等，在規模化的同時，仍能兼具排名與轉換，而不淪為內容空洞的薄內容。

SEO 内容

收藏 0GitHub 0

teach-impeccable

作者 pbakaus

teach-impeccable 是一個一次性設定的技能，用於收集並保存您專案的設計脈絡，確保未來工作階段中 UI 指南的一致性。非常適合建立或優化設計系統的團隊使用。

UI 設計

收藏 0GitHub 0

angular-migration

作者 wshobson

使用混合模式、漸進式重寫和更新的依賴注入，將舊有的 AngularJS 應用程式遷移到現代 Angular。非常適合升級、現代化或規劃 Angular 框架遷移的團隊。

前端开发

收藏 0GitHub 3.2萬