I

ai-podcast-creation

作者 inferen-sh

使用 Kokoro TTS、DIA TTS 和 inference.sh CLI,将文本一键生成 AI 播客和语音内容。你可以混合多种声音、添加音乐,并拼接完整的播客节目、有声书和音频简报。

Stars0
收藏0
评论0
收录时间2026年3月27日
分类语音生成
安装命令
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
概览

概览

ai-podcast-creation 是什么?

ai-podcast-creation 技能是一套基于 inference.sh CLI 的播客与语音内容生成工作流。它专注于用 Kokoro TTS 和 DIA TTS 将文本提示转换为自然语音,然后配合音乐与媒体合成工具,拼接出完整的播客风格片段。

这个技能适合希望从脚本自动生成音频、而不是手动录音和剪辑声轨的创作者。

核心能力

借助 ai-podcast-creation,你可以:

  • 通过 infsh app run infsh/kokoro-tts 使用 Kokoro TTS 生成高质量文本转语音(TTS)
  • 使用不同的预设 voice ID(如 af_sarahaf_nicoleam_michael),分别对应主持人、嘉宾或旁白角色。
  • 从书面脚本直接生成播客片段和旁白
  • 通过多次调用 TTS 应用并更换 voice ID,构建多角色对话与人物声音。
  • 与其他 inference.sh 应用联动,例如 DIA TTS、Chatterbox、AI music generation 和 media merger,添加背景音乐并进行多轨合成(如技能文档所述)。

适合哪些用户?

ai-podcast-creation 特别适合:

  • 希望快速打样或自动化制作节目的播客创作者或制作团队。
  • 想把文章或电子刊转成音频的内容营销人员
  • 搭建基于 CLI 的媒体工作流的独立开发者自动化工程师
  • 需要生成课堂音频或科普讲解内容的研究人员或教育工作者

如果你更需要以下能力,这个技能可能不太适合:

  • 在浏览器里进行实时互动语音对话(本技能以 CLI 为主)。
  • 在技能内部做 DAW 式手工音频剪辑(你需要先导出音频,再用其他工具编辑)。

什么时候适合用 ai-podcast-creation?

在这些场景下,ai-podcast-creation 会非常合适:

  • 你已经有 脚本、show notes 或长文稿,希望把它们转成语音。
  • 你偏好 基于终端的自动化 和可复现的流水线,而不是 GUI 工具。
  • 你想先快速试验不同声音,再决定是否搭建更复杂的制作环境。

如果你:

  • 只在 DAW 里做深度定制的后期处理;
  • 无法安装或使用 inference.sh CLI(infsh——这是本技能的前提;

那可以考虑其他方案。

使用指南

前置条件

要运行 ai-podcast-creation,你需要:

  • 在 macOS、Linux 或 WSL/兼容环境中可用的终端访问权限。
  • 已安装 inference.sh CLIinfsh)。
  • 拥有有效的 inference.sh 账号和凭据,以便运行 infsh login

技能自带的 SKILL.md 明确说明:

Requires inference.sh CLI (infsh). Install instructions

在使用本技能前,请通过该链接完成官方 CLI 安装步骤。

1. 安装 ai-podcast-creation 技能

使用 Agent Skills CLI 从 inferen-sh/skills 仓库添加此技能:

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

这会拉取 ai-podcast-creation 的指南和元数据,方便你的 agent 或工具链引用。

2. 配置 inference.sh CLI

安装好 CLI 后,先完成认证:

infsh login

按照终端提示,使用你的 inference.sh 账号完成登录。

登录后,你可以在终端或脚本工作流中直接调用 infsh/kokoro-tts 等应用。

3. 生成你的第一个播客片段

测试 ai-podcast-creation 最快的方式,是运行 SKILL.md 中的 Kokoro TTS 示例:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

该命令将会:

  • prompt 文本发送到 infsh/kokoro-tts 应用;
  • 使用 am_michael 声音(美式男性、权威风格,推荐用于纪录片或科技内容);
  • 返回生成的语音音频。根据你的 CLI 配置,你可以将其保存或继续传入后续处理流程。

4. 选择合适的声音

技能文档在 Available Voices → Kokoro TTS 下提供了一张声音列表表格。示例包括:

  • af_sarah – American female,温暖,适合主持人和旁白;
  • af_nicole – American female,专业,适合新闻或商业节目;
  • am_michael – American male,权威,适合科技或纪录片播客。

你可以在命令中替换 voice:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

通过多次运行命令、组合不同的 voice 和 prompt,你可以创建多位说话人的片段,再配合技能中提到的其他应用(如 media merger)与音乐或音效合并。

5. 搭建可复用的工作流

当你熟悉单句生成流程后,可以把整个过程封装成脚本。例如:

  • 将整期节目的脚本存为 episode01.txt
  • 按主持人开场、嘉宾回答、结尾等拆分为多个片段;
  • 对每个片段分别调用 infsh app run infsh/kokoro-tts,并使用不同 voice;
  • 按技能描述,使用其他 inference.sh 应用(AI music generation、media merger)添加片头音乐、背景底音或淡入淡出等效果。

虽然仓库示例主要展示 Kokoro TTS,但 SKILL 描述中提到也支持 DIA TTS 和 Chatterbox。你可以按类似的 infsh app run 调用模式,结合它们各自的参数文档使用。

6. 在仓库中查看技能文档

安装完成后,可以打开技能相关文件获取更详细的说明:

  • SKILL.md – ai-podcast-creation 的主文档,包括快速上手和可用声音详情;
  • 仓库中引用的其他目录(如 guides/content/ai-podcast-creation)– 提供更多 TTS 与媒体工作流的扩展示例和内容。

借助这些文档,你可以进一步优化:

  • 不同节目类型对应的声音选择;
  • 如何串联 TTS、音乐与媒体合成;
  • 如何把这套工作流接入你现有的自动化或 CI/CD 系统。

常见问题(FAQ)

ai-podcast-creation 实际能做什么?

ai-podcast-creation 是一套文档化的工作流,演示如何结合 inference.sh CLI、Kokoro TTS、DIA TTS、Chatterbox 等应用,将文本生成播客风格音频。它提供了多种声音选项、命令示例,以及如何搭配音乐和编辑工具组装完整节目的指导。

使用这个技能必须安装 inference.sh CLI 吗?

必须。该技能明确要求使用 inference.sh CLI(infsh)。你需要先安装它并完成 infsh login,才能运行类似下面的命令:

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

如果没有 infsh,ai-podcast-creation 的工作流无法执行。

这个技能可以生成多角色对话吗?

可以。虽然代码示例展示的是单一声音,但技能描述特别强调了多角色对话。你可以通过以下方式实现:

  • 对每位说话人分别调用多次 TTS 应用,并使用不同的 voice ID;
  • 为每句台词或每个片段生成独立音频文件;
  • 按技能描述,使用媒体合成工具将这些音频(以及可选的音乐)拼接在一起。

这能完全替代播客编辑器或 DAW 吗?

不能。ai-podcast-creation 的重点是通过 CLI 应用进行生成与拼装,非常适合:

  • 从脚本到音频的自动转换;
  • 多角色配音和 AI 生成音乐;
  • 自动化或批量处理工作流。

但对于精细的波形编辑、混音、母带处理,你仍然需要使用专门的 DAW(如 Audacity、Reaper 等)在生成音频文件之后再处理。

我可以用 ai-podcast-creation 做有声书和配音吗?

可以。技能描述中明确提到 audiobooks、voice content 和 audio newsletters 等场景。你用来制作播客的 TTS 命令,同样适用于长篇文本朗读、培训材料或宣传脚本。只需根据具体格式调整脚本结构和 voice 选择即可。

ai-podcast-creation 和浏览器内的 AI 播客工具相比有什么差别?

浏览器工具通常提供 GUI,而 ai-podcast-creation 是CLI 优先、可脚本化的方案。如果你:

  • 更偏好自动化和可复现的命令行工作流;
  • 想把语音生成集成进现有的流水线、cron 任务或 CI;

就可以选择 ai-podcast-creation。

如果你:

  • 需要点选式界面;
  • 不打算在终端或脚本环境中工作;

那基于浏览器的工具可能更合适。

在哪里可以查看完整的可用声音列表?

Kokoro TTS 的声音列表位于 SKILL.md 中的 Available Voices → Kokoro TTS 部分。打开 inferen-sh/skills 仓库里的该文件,即可查看每个 voice ID 的说明、特点以及推荐用途(例如适合主持人、旁白或新闻节目)。

命令执行失败时该如何排查?

如果 infsh app run 执行失败,可以按以下步骤检查:

  • 根据官方安装指南,确认 inference.sh CLI 已正确安装;
  • 再次运行 infsh login,确保会话仍然有效;
  • 仔细检查 --input 中的 JSON 是否有效(引号、转义是否正确);
  • 确认应用名称(infsh/kokoro-tts)和 voice ID 与 SKILL.md 文档中的一致。

如果问题依然存在,可以查阅 inference.sh 的主文档或到仓库的 issues 区查看与环境相关的解决方案。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...