ai-podcast-creation
作者 inferen-sh使用 Kokoro TTS、DIA TTS 和 inference.sh CLI,将文本一键生成 AI 播客和语音内容。你可以混合多种声音、添加音乐,并拼接完整的播客节目、有声书和音频简报。
概览
ai-podcast-creation 是什么?
ai-podcast-creation 技能是一套基于 inference.sh CLI 的播客与语音内容生成工作流。它专注于用 Kokoro TTS 和 DIA TTS 将文本提示转换为自然语音,然后配合音乐与媒体合成工具,拼接出完整的播客风格片段。
这个技能适合希望从脚本自动生成音频、而不是手动录音和剪辑声轨的创作者。
核心能力
借助 ai-podcast-creation,你可以:
- 通过
infsh app run infsh/kokoro-tts使用 Kokoro TTS 生成高质量文本转语音(TTS)。 - 使用不同的预设 voice ID(如
af_sarah、af_nicole、am_michael),分别对应主持人、嘉宾或旁白角色。 - 从书面脚本直接生成播客片段和旁白。
- 通过多次调用 TTS 应用并更换 voice ID,构建多角色对话与人物声音。
- 与其他 inference.sh 应用联动,例如 DIA TTS、Chatterbox、AI music generation 和 media merger,添加背景音乐并进行多轨合成(如技能文档所述)。
适合哪些用户?
ai-podcast-creation 特别适合:
- 希望快速打样或自动化制作节目的播客创作者或制作团队。
- 想把文章或电子刊转成音频的内容营销人员。
- 搭建基于 CLI 的媒体工作流的独立开发者或自动化工程师。
- 需要生成课堂音频或科普讲解内容的研究人员或教育工作者。
如果你更需要以下能力,这个技能可能不太适合:
- 在浏览器里进行实时互动语音对话(本技能以 CLI 为主)。
- 在技能内部做 DAW 式手工音频剪辑(你需要先导出音频,再用其他工具编辑)。
什么时候适合用 ai-podcast-creation?
在这些场景下,ai-podcast-creation 会非常合适:
- 你已经有 脚本、show notes 或长文稿,希望把它们转成语音。
- 你偏好 基于终端的自动化 和可复现的流水线,而不是 GUI 工具。
- 你想先快速试验不同声音,再决定是否搭建更复杂的制作环境。
如果你:
- 只在 DAW 里做深度定制的后期处理;
- 无法安装或使用 inference.sh CLI(
infsh)——这是本技能的前提;
那可以考虑其他方案。
使用指南
前置条件
要运行 ai-podcast-creation,你需要:
- 在 macOS、Linux 或 WSL/兼容环境中可用的终端访问权限。
- 已安装 inference.sh CLI(
infsh)。 - 拥有有效的 inference.sh 账号和凭据,以便运行
infsh login。
技能自带的 SKILL.md 明确说明:
Requires inference.sh CLI (
infsh). Install instructions
在使用本技能前,请通过该链接完成官方 CLI 安装步骤。
1. 安装 ai-podcast-creation 技能
使用 Agent Skills CLI 从 inferen-sh/skills 仓库添加此技能:
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
这会拉取 ai-podcast-creation 的指南和元数据,方便你的 agent 或工具链引用。
2. 配置 inference.sh CLI
安装好 CLI 后,先完成认证:
infsh login
按照终端提示,使用你的 inference.sh 账号完成登录。
登录后,你可以在终端或脚本工作流中直接调用 infsh/kokoro-tts 等应用。
3. 生成你的第一个播客片段
测试 ai-podcast-creation 最快的方式,是运行 SKILL.md 中的 Kokoro TTS 示例:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
"voice": "am_michael"
}'
该命令将会:
- 把
prompt文本发送到infsh/kokoro-tts应用; - 使用
am_michael声音(美式男性、权威风格,推荐用于纪录片或科技内容); - 返回生成的语音音频。根据你的 CLI 配置,你可以将其保存或继续传入后续处理流程。
4. 选择合适的声音
技能文档在 Available Voices → Kokoro TTS 下提供了一张声音列表表格。示例包括:
af_sarah– American female,温暖,适合主持人和旁白;af_nicole– American female,专业,适合新闻或商业节目;am_michael– American male,权威,适合科技或纪录片播客。
你可以在命令中替换 voice:
infsh app run infsh/kokoro-tts --input '{
"prompt": "In today\'s episode, we break down three key trends in machine learning.",
"voice": "af_nicole"
}'
通过多次运行命令、组合不同的 voice 和 prompt,你可以创建多位说话人的片段,再配合技能中提到的其他应用(如 media merger)与音乐或音效合并。
5. 搭建可复用的工作流
当你熟悉单句生成流程后,可以把整个过程封装成脚本。例如:
- 将整期节目的脚本存为
episode01.txt; - 按主持人开场、嘉宾回答、结尾等拆分为多个片段;
- 对每个片段分别调用
infsh app run infsh/kokoro-tts,并使用不同 voice; - 按技能描述,使用其他 inference.sh 应用(AI music generation、media merger)添加片头音乐、背景底音或淡入淡出等效果。
虽然仓库示例主要展示 Kokoro TTS,但 SKILL 描述中提到也支持 DIA TTS 和 Chatterbox。你可以按类似的 infsh app run 调用模式,结合它们各自的参数文档使用。
6. 在仓库中查看技能文档
安装完成后,可以打开技能相关文件获取更详细的说明:
SKILL.md– ai-podcast-creation 的主文档,包括快速上手和可用声音详情;- 仓库中引用的其他目录(如
guides/content/ai-podcast-creation)– 提供更多 TTS 与媒体工作流的扩展示例和内容。
借助这些文档,你可以进一步优化:
- 不同节目类型对应的声音选择;
- 如何串联 TTS、音乐与媒体合成;
- 如何把这套工作流接入你现有的自动化或 CI/CD 系统。
常见问题(FAQ)
ai-podcast-creation 实际能做什么?
ai-podcast-creation 是一套文档化的工作流,演示如何结合 inference.sh CLI、Kokoro TTS、DIA TTS、Chatterbox 等应用,将文本生成播客风格音频。它提供了多种声音选项、命令示例,以及如何搭配音乐和编辑工具组装完整节目的指导。
使用这个技能必须安装 inference.sh CLI 吗?
必须。该技能明确要求使用 inference.sh CLI(infsh)。你需要先安装它并完成 infsh login,才能运行类似下面的命令:
infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'
如果没有 infsh,ai-podcast-creation 的工作流无法执行。
这个技能可以生成多角色对话吗?
可以。虽然代码示例展示的是单一声音,但技能描述特别强调了多角色对话。你可以通过以下方式实现:
- 对每位说话人分别调用多次 TTS 应用,并使用不同的
voiceID; - 为每句台词或每个片段生成独立音频文件;
- 按技能描述,使用媒体合成工具将这些音频(以及可选的音乐)拼接在一起。
这能完全替代播客编辑器或 DAW 吗?
不能。ai-podcast-creation 的重点是通过 CLI 应用进行生成与拼装,非常适合:
- 从脚本到音频的自动转换;
- 多角色配音和 AI 生成音乐;
- 自动化或批量处理工作流。
但对于精细的波形编辑、混音、母带处理,你仍然需要使用专门的 DAW(如 Audacity、Reaper 等)在生成音频文件之后再处理。
我可以用 ai-podcast-creation 做有声书和配音吗?
可以。技能描述中明确提到 audiobooks、voice content 和 audio newsletters 等场景。你用来制作播客的 TTS 命令,同样适用于长篇文本朗读、培训材料或宣传脚本。只需根据具体格式调整脚本结构和 voice 选择即可。
ai-podcast-creation 和浏览器内的 AI 播客工具相比有什么差别?
浏览器工具通常提供 GUI,而 ai-podcast-creation 是CLI 优先、可脚本化的方案。如果你:
- 更偏好自动化和可复现的命令行工作流;
- 想把语音生成集成进现有的流水线、cron 任务或 CI;
就可以选择 ai-podcast-creation。
如果你:
- 需要点选式界面;
- 不打算在终端或脚本环境中工作;
那基于浏览器的工具可能更合适。
在哪里可以查看完整的可用声音列表?
Kokoro TTS 的声音列表位于 SKILL.md 中的 Available Voices → Kokoro TTS 部分。打开 inferen-sh/skills 仓库里的该文件,即可查看每个 voice ID 的说明、特点以及推荐用途(例如适合主持人、旁白或新闻节目)。
命令执行失败时该如何排查?
如果 infsh app run 执行失败,可以按以下步骤检查:
- 根据官方安装指南,确认 inference.sh CLI 已正确安装;
- 再次运行
infsh login,确保会话仍然有效; - 仔细检查
--input中的 JSON 是否有效(引号、转义是否正确); - 确认应用名称(
infsh/kokoro-tts)和 voice ID 与SKILL.md文档中的一致。
如果问题依然存在,可以查阅 inference.sh 的主文档或到仓库的 issues 区查看与环境相关的解决方案。
