ai-podcast-creation
von inferen-shErstellen Sie KI-gestützte Podcasts und Sprachinhalte aus Text mit Kokoro TTS, DIA TTS und der inference.sh CLI. Kombinieren Sie mehrere Stimmen, fügen Sie Musik hinzu und bauen Sie komplette Episoden für Podcasts, Hörbücher und Audio-Newsletter.
Übersicht
Was ist ai-podcast-creation?
Die ai-podcast-creation-Skill ist ein Workflow zur Erstellung KI-basierter Podcasts und Sprachinhalte mit der inference.sh CLI. Im Fokus steht die Umwandlung von Text-Prompts in natürlich klingende Sprache mit Kokoro TTS und DIA TTS, um anschließend mit weiteren Tools für Musik und Medien-Merging komplette Podcast-Segmente zusammenzustellen.
Diese Skill richtet sich an Creator, die einen automatisierten Script-to-Audio-Workflow suchen, statt Sprachspuren manuell aufzunehmen und zu schneiden.
Zentrale Funktionen
Mit ai-podcast-creation können Sie:
- Hochwertiges Text-to-Speech mit Kokoro TTS über
infsh app run infsh/kokoro-ttserzeugen. - Unterschiedliche vordefinierte Voice-IDs nutzen (z. B.
af_sarah,af_nicole,am_michael), passend für Hosts, Gäste oder Sprecher. - Podcast-Segmente und Sprachkommentare direkt aus geschriebenen Skripten produzieren.
- Mehrstimmige Dialoge und Charakterstimmen aufbauen, indem Sie die TTS-App mehrfach mit unterschiedlichen Voice-IDs aufrufen.
- Mit anderen inference.sh Apps wie DIA TTS, Chatterbox, AI music generation und media merger integrieren, um Hintergrundmusik hinzuzufügen und Mehrspur-Layouts zu erstellen (wie in der Skill beschrieben).
Für wen ist diese Skill gedacht?
ai-podcast-creation eignet sich besonders, wenn Sie:
- Podcast-Creator oder Teil eines Produktionsteams sind und Episoden prototypen oder automatisieren möchten.
- Content Marketer sind und Artikel oder Newsletter in Audio verwandeln wollen.
- Indie-Developer oder Automation Engineer sind und CLI-basierte Medien-Workflows aufbauen.
- Forscherin oder Lehrender sind und Vorlesungs- oder Erklär-Audio generieren möchten.
Weniger geeignet ist sie, wenn Sie benötigen:
- Echtzeit-Sprachchat im Browser (diese Skill ist CLI-orientiert).
- Manuelles Editing im DAW-Stil direkt innerhalb der Skill (Sie würden Audio exportieren und in einem separaten Tool bearbeiten).
Wann ai-podcast-creation gut passt
Nutzen Sie diese Skill, wenn:
- Sie bereits Skripte, Shownotes oder Longform-Text schreiben und daraus gesprochene Audios machen wollen.
- Sie terminalbasierte Automatisierung und reproduzierbare Pipelines GUI-Tools vorziehen.
- Sie schnell mit Stimmen experimentieren möchten, bevor Sie sich auf ein komplexeres Produktions-Setup festlegen.
Prüfen Sie andere Optionen, wenn Sie:
- Stark individualisiertes Audio-Postprocessing ausschließlich in einer DAW brauchen.
- Die inference.sh CLI (
infsh) nicht installieren oder verwenden können – sie ist Voraussetzung für diese Skill.
Verwendung
Voraussetzungen
Um ai-podcast-creation auszuführen, benötigen Sie:
- Zugriff auf ein Terminal unter macOS, Linux oder einer WSL/kompatiblen Umgebung.
- Die installierte inference.sh CLI (
infsh). - Ein gültiges inference.sh Konto und Zugangsdaten, um
infsh loginauszuführen.
In der eigenen SKILL.md der Skill steht ausdrücklich:
Requires inference.sh CLI (
infsh). Install instructions
Folgen Sie diesem Link, um die offiziellen Installationsschritte für die CLI abzuschließen, bevor Sie diese Skill verwenden.
1. ai-podcast-creation Skill installieren
Nutzen Sie die Agent Skills CLI, um die Skill aus dem inferen-sh/skills Repository hinzuzufügen:
npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation
Damit werden die ai-podcast-creation Dokumentation und Metadaten eingebunden, sodass Ihr Agent oder Ihre Toolchain darauf verweisen kann.
2. inference.sh CLI einrichten
Sobald die CLI installiert ist, authentifizieren Sie sich:
infsh login
Folgen Sie den Anweisungen, um sich mit Ihrem inference.sh Konto anzumelden.
Nach dem Login können Sie Apps wie infsh/kokoro-tts direkt aus dem Terminal oder aus Skripten heraus aufrufen.
3. Erstes Podcast-Segment erzeugen
Am schnellsten testen Sie ai-podcast-creation mit dem Kokoro TTS Beispiel aus SKILL.md:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
"voice": "am_michael"
}'
Dieser Befehl:
- Sendet den
prompt-Text an die Appinfsh/kokoro-tts. - Verwendet die Stimme
am_michael(US-amerikanisch, männlich, autoritativ – empfohlen für Doku- oder Tech-Content). - Gibt generiertes Sprach-Audio zurück, das Sie speichern oder – abhängig von Ihrer CLI-Konfiguration – direkt in weitere Verarbeitung pipen können.
4. Die passende Stimme auswählen
Die Dokumentation der Skill führt eine Stimm-Tabelle unter Available Voices → Kokoro TTS. Beispiele:
af_sarah– US-amerikanisch, weiblich, warm; geeignet als Host oder Erzählerin.af_nicole– US-amerikanisch, weiblich, professionell; geeignet für News- oder Business-Formate.am_michael– US-amerikanisch, männlich, autoritativ; geeignet für Tech- oder Doku-Podcasts.
Sie können die Stimme im Befehl einfach austauschen:
infsh app run infsh/kokoro-tts --input '{
"prompt": "In today\'s episode, we break down three key trends in machine learning.",
"voice": "af_nicole"
}'
Indem Sie mehrere Befehle mit unterschiedlichen Stimmen und Prompts ausführen, erzeugen Sie mehrstimmige Segmente, die Sie anschließend mithilfe anderer in der Skill beschriebener Apps (z. B. media merger) mit Musik oder Effekten zusammenführen können.
5. Einen wiederholbaren Workflow aufbauen
Sobald Sie sich mit der Erzeugung einzelner Passagen wohlfühlen, kapseln Sie den Prozess in Skripte. Sie können zum Beispiel:
- Ihr Episoden-Skript in einer Datei wie
episode01.txtspeichern. - Es in Segmente für Host-Intro, Antworten von Gästen und Outro aufteilen.
- Für jedes Segment
infsh app run infsh/kokoro-ttsmit unterschiedlichen Stimmen aufrufen. - Weitere inference.sh Apps (AI music generation, media merger) nutzen, um Intro-Musik, Hintergrundbeds oder Crossfades hinzuzufügen, wie in der Skill-Beschreibung vorgeschlagen.
Auch wenn der Repo-Auszug sich vor allem auf Kokoro TTS konzentriert, weist die SKILL-Beschreibung auf Unterstützung für DIA TTS und Chatterbox hin. Für diese Apps folgen Sie denselben infsh app run Mustern und nutzen deren dokumentierte Parameter.
6. Skill-Dokumentation im Repo erkunden
Nach der Installation können Sie die Skill-Dateien für detailliertere Informationen öffnen:
SKILL.md– Hauptanleitung für ai-podcast-creation inklusive Quickstart und Details zu verfügbaren Stimmen.- Weitere referenzierte Ordner im Repository (z. B.
guides/content/ai-podcast-creation) – enthalten vertiefende Inhalte und Beispiele für TTS- und Medien-Workflows.
Nutzen Sie diese Dokumente, um zu optimieren:
- Stimmwahl für verschiedene Show-Formate.
- Wie Sie TTS, Musik und Media Merging kombinieren.
- Wie Sie den Workflow an Ihre bestehende Automatisierung oder CI/CD-Systeme anpassen.
FAQ
Was macht ai-podcast-creation genau?
ai-podcast-creation ist ein dokumentierter Workflow, der zeigt, wie Sie die inference.sh CLI, Kokoro TTS, DIA TTS, Chatterbox und verwandte Apps nutzen, um aus Text Podcast-ähnliches Audio zu generieren. Sie erhalten Stimmoptionen, Befehlsbeispiele und Hinweise, wie Sie komplette Episoden mit Musik und Editing-Tools zusammenstellen.
Brauche ich die inference.sh CLI, um diese Skill zu nutzen?
Ja. Die Skill erfordert ausdrücklich die inference.sh CLI (infsh). Sie müssen sie installieren und infsh login ausführen, bevor Sie Befehle wie den folgenden nutzen können:
infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'
Ohne infsh lässt sich der ai-podcast-creation Workflow nicht ausführen.
Kann ich mit dieser Skill mehrstimmige Dialoge erstellen?
Ja. Auch wenn der Codeauszug ein Einzelstimmen-Beispiel zeigt, hebt die Skill-Beschreibung multi-voice conversations deutlich hervor. Sie setzen das um, indem Sie:
- Die TTS-App mehrfach mit verschiedenen
voiceIDs für jede Sprecherrolle aufrufen. - Separate Audioclips für jede Zeile oder jedes Segment erzeugen.
- Diese Clips (und optional Musik) mit einem Media-Merging-Tool kombinieren, wie in der Skill-Beschreibung angegeben.
Ist das ein vollständiger Podcast-Editor oder Ersatz für eine DAW?
Nein. ai-podcast-creation konzentriert sich auf Generierung und Zusammenstellung mit CLI-Apps. Besonders stark ist die Skill bei:
- Script-to-Audio-Konvertierung.
- Mehrstimmiger und KI-generierter Musikproduktion.
- Automatisierten oder Batch-Workflows.
Für detailliertes Wellenform-Editing, Mixing oder Mastering nutzen Sie weiterhin eine dedizierte DAW (z. B. Audacity, Reaper etc.), nachdem Sie Ihre Audiodateien erzeugt haben.
Kann ich ai-podcast-creation für Hörbücher und Voice-Over nutzen?
Ja. Die Skill-Beschreibung nennt Hörbücher, Sprachinhalte und Audio-Newsletter ausdrücklich als Use Cases. Dieselben TTS-Befehle, die Sie für Podcasts verwenden, können auch Longform-Texte, Trainingsmaterialien oder Werbeskripte einsprechen. Sie passen lediglich Struktur und Stimmwahl an das gewünschte Format an.
Wie unterscheidet sich ai-podcast-creation von browserbasierten KI-Podcast-Tools?
Browserbasierte Tools bieten in der Regel eine GUI, während ai-podcast-creation CLI-first und skriptfähig ist. Wählen Sie ai-podcast-creation, wenn Sie:
- Automatisierung und reproduzierbare Command-Line-Workflows bevorzugen.
- Spracherzeugung in bestehende Pipelines, Cronjobs oder CI integrieren möchten.
Wählen Sie ein Browser-Tool, wenn Sie:
- Eine Point-and-Click-Oberfläche benötigen.
- Nicht mit Terminal oder Skripten arbeiten wollen.
Wo finde ich die Liste der verfügbaren Stimmen?
Die Stimmenliste für Kokoro TTS finden Sie unter Available Voices → Kokoro TTS in SKILL.md. Öffnen Sie diese Datei im inferen-sh/skills Repository, um jede Voice-ID, ihre Beschreibung und Empfehlungen (z. B. Host, Erzähler, News) einzusehen.
Wie gehe ich vor, wenn mein Befehl fehlschlägt?
Wenn infsh app run fehlschlägt:
- Prüfen Sie anhand des offiziellen Install-Guides, ob die inference.sh CLI korrekt installiert ist.
- Führen Sie
infsh loginerneut aus, um sicherzustellen, dass Ihre Session gültig ist. - Überprüfen Sie, ob das JSON in
--inputgültig ist (korrekte Anführungszeichen und Escaping). - Stellen Sie sicher, dass der App-Name (
infsh/kokoro-tts) und die Voice-IDs mit den Angaben inSKILL.mdübereinstimmen.
Wenn die Probleme weiterhin bestehen, ziehen Sie die Hauptdokumentation von inference.sh oder die Issues im Repository zu Rate, um hilfe bei spezifischen Umgebungsproblemen zu erhalten.
