ai-podcast-creation

作者 inferen-sh

使用 Kokoro TTS、DIA TTS 和 inference.sh CLI，将文本一键生成 AI 播客和语音内容。你可以混合多种声音、添加音乐，并拼接完整的播客节目、有声书和音频简报。

Stars0

收录时间2026年3月27日

分类语音生成

安装命令

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

音频视频 Automation 工作流 Cli Ai

概览

ai-podcast-creation 是什么？

ai-podcast-creation 技能是一套基于 inference.sh CLI 的播客与语音内容生成工作流。它专注于用 Kokoro TTS 和 DIA TTS 将文本提示转换为自然语音，然后配合音乐与媒体合成工具，拼接出完整的播客风格片段。

这个技能适合希望从脚本自动生成音频、而不是手动录音和剪辑声轨的创作者。

核心能力

借助 ai-podcast-creation，你可以：

通过 infsh app run infsh/kokoro-tts 使用 Kokoro TTS 生成高质量文本转语音（TTS）。
使用不同的预设 voice ID（如 af_sarah、af_nicole、am_michael），分别对应主持人、嘉宾或旁白角色。
从书面脚本直接生成播客片段和旁白。
通过多次调用 TTS 应用并更换 voice ID，构建多角色对话与人物声音。
与其他 inference.sh 应用联动，例如 DIA TTS、Chatterbox、AI music generation 和 media merger，添加背景音乐并进行多轨合成（如技能文档所述）。

适合哪些用户？

ai-podcast-creation 特别适合：

希望快速打样或自动化制作节目的播客创作者或制作团队。
想把文章或电子刊转成音频的内容营销人员。
搭建基于 CLI 的媒体工作流的独立开发者或自动化工程师。
需要生成课堂音频或科普讲解内容的研究人员或教育工作者。

如果你更需要以下能力，这个技能可能不太适合：

在浏览器里进行实时互动语音对话（本技能以 CLI 为主）。
在技能内部做 DAW 式手工音频剪辑（你需要先导出音频，再用其他工具编辑）。

什么时候适合用 ai-podcast-creation？

在这些场景下，ai-podcast-creation 会非常合适：

你已经有 脚本、show notes 或长文稿，希望把它们转成语音。
你偏好 基于终端的自动化 和可复现的流水线，而不是 GUI 工具。
你想先快速试验不同声音，再决定是否搭建更复杂的制作环境。

如果你：

只在 DAW 里做深度定制的后期处理；
无法安装或使用 inference.sh CLI（infsh）——这是本技能的前提；

那可以考虑其他方案。

使用指南

前置条件

要运行 ai-podcast-creation，你需要：

在 macOS、Linux 或 WSL/兼容环境中可用的终端访问权限。
已安装 inference.sh CLI（infsh）。
拥有有效的 inference.sh 账号和凭据，以便运行 infsh login。

技能自带的 SKILL.md 明确说明：

Requires inference.sh CLI (infsh). Install instructions

在使用本技能前，请通过该链接完成官方 CLI 安装步骤。

1. 安装 ai-podcast-creation 技能

使用 Agent Skills CLI 从 inferen-sh/skills 仓库添加此技能：

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

这会拉取 ai-podcast-creation 的指南和元数据，方便你的 agent 或工具链引用。

2. 配置 inference.sh CLI

安装好 CLI 后，先完成认证：

infsh login

按照终端提示，使用你的 inference.sh 账号完成登录。

登录后，你可以在终端或脚本工作流中直接调用 infsh/kokoro-tts 等应用。

3. 生成你的第一个播客片段

测试 ai-podcast-creation 最快的方式，是运行 SKILL.md 中的 Kokoro TTS 示例：

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

该命令将会：

把 prompt 文本发送到 infsh/kokoro-tts 应用；
使用 am_michael 声音（美式男性、权威风格，推荐用于纪录片或科技内容）；
返回生成的语音音频。根据你的 CLI 配置，你可以将其保存或继续传入后续处理流程。

4. 选择合适的声音

技能文档在 Available Voices → Kokoro TTS 下提供了一张声音列表表格。示例包括：

af_sarah – American female，温暖，适合主持人和旁白；
af_nicole – American female，专业，适合新闻或商业节目；
am_michael – American male，权威，适合科技或纪录片播客。

你可以在命令中替换 voice：

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

通过多次运行命令、组合不同的 voice 和 prompt，你可以创建多位说话人的片段，再配合技能中提到的其他应用（如 media merger）与音乐或音效合并。

5. 搭建可复用的工作流

当你熟悉单句生成流程后，可以把整个过程封装成脚本。例如：

将整期节目的脚本存为 episode01.txt；
按主持人开场、嘉宾回答、结尾等拆分为多个片段；
对每个片段分别调用 infsh app run infsh/kokoro-tts，并使用不同 voice；
按技能描述，使用其他 inference.sh 应用（AI music generation、media merger）添加片头音乐、背景底音或淡入淡出等效果。

虽然仓库示例主要展示 Kokoro TTS，但 SKILL 描述中提到也支持 DIA TTS 和 Chatterbox。你可以按类似的 infsh app run 调用模式，结合它们各自的参数文档使用。

6. 在仓库中查看技能文档

安装完成后，可以打开技能相关文件获取更详细的说明：

SKILL.md – ai-podcast-creation 的主文档，包括快速上手和可用声音详情；
仓库中引用的其他目录（如 guides/content/ai-podcast-creation）– 提供更多 TTS 与媒体工作流的扩展示例和内容。

借助这些文档，你可以进一步优化：

不同节目类型对应的声音选择；
如何串联 TTS、音乐与媒体合成；
如何把这套工作流接入你现有的自动化或 CI/CD 系统。

常见问题（FAQ）

ai-podcast-creation 实际能做什么？

ai-podcast-creation 是一套文档化的工作流，演示如何结合 inference.sh CLI、Kokoro TTS、DIA TTS、Chatterbox 等应用，将文本生成播客风格音频。它提供了多种声音选项、命令示例，以及如何搭配音乐和编辑工具组装完整节目的指导。

使用这个技能必须安装 inference.sh CLI 吗？

必须。该技能明确要求使用 inference.sh CLI（infsh）。你需要先安装它并完成 infsh login，才能运行类似下面的命令：

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

如果没有 infsh，ai-podcast-creation 的工作流无法执行。

这个技能可以生成多角色对话吗？

可以。虽然代码示例展示的是单一声音，但技能描述特别强调了多角色对话。你可以通过以下方式实现：

对每位说话人分别调用多次 TTS 应用，并使用不同的 voice ID；
为每句台词或每个片段生成独立音频文件；
按技能描述，使用媒体合成工具将这些音频（以及可选的音乐）拼接在一起。

这能完全替代播客编辑器或 DAW 吗？

不能。ai-podcast-creation 的重点是通过 CLI 应用进行生成与拼装，非常适合：

从脚本到音频的自动转换；
多角色配音和 AI 生成音乐；
自动化或批量处理工作流。

但对于精细的波形编辑、混音、母带处理，你仍然需要使用专门的 DAW（如 Audacity、Reaper 等）在生成音频文件之后再处理。

我可以用 ai-podcast-creation 做有声书和配音吗？

可以。技能描述中明确提到 audiobooks、voice content 和 audio newsletters 等场景。你用来制作播客的 TTS 命令，同样适用于长篇文本朗读、培训材料或宣传脚本。只需根据具体格式调整脚本结构和 voice 选择即可。

ai-podcast-creation 和浏览器内的 AI 播客工具相比有什么差别？

浏览器工具通常提供 GUI，而 ai-podcast-creation 是CLI 优先、可脚本化的方案。如果你：

更偏好自动化和可复现的命令行工作流；
想把语音生成集成进现有的流水线、cron 任务或 CI；

就可以选择 ai-podcast-creation。

如果你：

需要点选式界面；
不打算在终端或脚本环境中工作；

那基于浏览器的工具可能更合适。

在哪里可以查看完整的可用声音列表？

Kokoro TTS 的声音列表位于 SKILL.md 中的 Available Voices → Kokoro TTS 部分。打开 inferen-sh/skills 仓库里的该文件，即可查看每个 voice ID 的说明、特点以及推荐用途（例如适合主持人、旁白或新闻节目）。

命令执行失败时该如何排查？

如果 infsh app run 执行失败，可以按以下步骤检查：

根据官方安装指南，确认 inference.sh CLI 已正确安装；
再次运行 infsh login，确保会话仍然有效；
仔细检查 --input 中的 JSON 是否有效（引号、转义是否正确）；
确认应用名称（infsh/kokoro-tts）和 voice ID 与 SKILL.md 文档中的一致。

如果问题依然存在，可以查阅 inference.sh 的主文档或到仓库的 issues 区查看与环境相关的解决方案。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

elevenlabs-tts

作者 inferen-sh

通过 inference.sh CLI 使用 ElevenLabs 文本转语音（text-to-speech），提供 22+ 高品质声音、多语言支持以及适合生产环境的高性能语音生成模型。

语音生成

收藏 0GitHub 0

elevenlabs-dialogue

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，生成精致的多说话人对话音频。将结构化脚本转换为自然流畅的多角色对话，并输出到同一个音频文件，适用于播客、有声书、讲解视频、教程、角色对白和视频脚本等场景。

语音生成

收藏 0GitHub 0

ai-music-generation

作者 inferen-sh

使用 ElevenLabs Music、Diffrythm 和 Tencent Song Generation，通过 inference.sh CLI 从文本提示生成 AI 音乐和完整歌曲。非常适合背景音乐、配乐、社交媒体短视频、播客以及免版税音乐。支持快速歌曲生成、纯伴奏和完整人声歌曲。

语音生成

收藏 0GitHub 0

dialogue-audio

作者 inferen-sh

通过 inference.sh CLI，结合 Dia TTS 和 ElevenLabs，生成逼真的多说话人对话音频。dialogue-audio 技能可精细控制说话人、情绪、节奏和对话流，用于播客、有声书、讲解类内容、角色场景以及其他对话型音频内容。

语音生成

收藏 0GitHub 0

ai-voice-cloning

作者 inferen-sh

ai-voice-cloning 是基于 inference.sh 的技能，用于在 CLI 中进行 AI 语音生成、文本转语音（TTS）和语音克隆。它封装了 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice 等模型，适合用于自然语音、多角色旁白以及为音视频项目做语音变换。

语音生成

收藏 0GitHub 0

elevenlabs-stt

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs Scribe v1/v2 模型，实现高精度语音转文本。支持转写、说话人分离、音频事件标注、逐词时间戳、强制对齐，以及适用于会议、播客和其他音频流程的字幕生成。

音频编辑

收藏 0GitHub 0

elevenlabs-voice-changer

作者 inferen-sh

ElevenLabs voice changer 技能通过 inference.sh CLI（infsh）将录制好的语音转换为另一种合成声音，同时尽可能保留原始内容与情绪表达。支持 eleven_multilingual_sts_v2（70+ 种语言）和 eleven_english_sts_v2，可用于语音转语音、多语言配音、口音变换、声音伪装等内容创作、配音与角色配音场景。

语音生成

收藏 0GitHub 0

elevenlabs-music

作者 inferen-sh

通过 inference.sh CLI 和 ElevenLabs，根据文本提示生成原创 AI 音乐。你可以在终端中直接控制时长、风格和情绪，创作免版税的背景音乐、配乐、jingle、播客底音乐和游戏音频。

音频编辑

收藏 0GitHub 0