ai-podcast-creation

von inferen-sh

Erstellen Sie KI-gestützte Podcasts und Sprachinhalte aus Text mit Kokoro TTS, DIA TTS und der inference.sh CLI. Kombinieren Sie mehrere Stimmen, fügen Sie Musik hinzu und bauen Sie komplette Episoden für Podcasts, Hörbücher und Audio-Newsletter.

Stars0

Favoriten0

Kommentare0

KategorieVoice Generation

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Audio Video Automation Workflow Cli Ai

Überblick

Übersicht

Was ist ai-podcast-creation?

Die ai-podcast-creation-Skill ist ein Workflow zur Erstellung KI-basierter Podcasts und Sprachinhalte mit der inference.sh CLI. Im Fokus steht die Umwandlung von Text-Prompts in natürlich klingende Sprache mit Kokoro TTS und DIA TTS, um anschließend mit weiteren Tools für Musik und Medien-Merging komplette Podcast-Segmente zusammenzustellen.

Diese Skill richtet sich an Creator, die einen automatisierten Script-to-Audio-Workflow suchen, statt Sprachspuren manuell aufzunehmen und zu schneiden.

Zentrale Funktionen

Mit ai-podcast-creation können Sie:

Hochwertiges Text-to-Speech mit Kokoro TTS über infsh app run infsh/kokoro-tts erzeugen.
Unterschiedliche vordefinierte Voice-IDs nutzen (z. B. af_sarah, af_nicole, am_michael), passend für Hosts, Gäste oder Sprecher.
Podcast-Segmente und Sprachkommentare direkt aus geschriebenen Skripten produzieren.
Mehrstimmige Dialoge und Charakterstimmen aufbauen, indem Sie die TTS-App mehrfach mit unterschiedlichen Voice-IDs aufrufen.
Mit anderen inference.sh Apps wie DIA TTS, Chatterbox, AI music generation und media merger integrieren, um Hintergrundmusik hinzuzufügen und Mehrspur-Layouts zu erstellen (wie in der Skill beschrieben).

Für wen ist diese Skill gedacht?

ai-podcast-creation eignet sich besonders, wenn Sie:

Podcast-Creator oder Teil eines Produktionsteams sind und Episoden prototypen oder automatisieren möchten.
Content Marketer sind und Artikel oder Newsletter in Audio verwandeln wollen.
Indie-Developer oder Automation Engineer sind und CLI-basierte Medien-Workflows aufbauen.
Forscherin oder Lehrender sind und Vorlesungs- oder Erklär-Audio generieren möchten.

Weniger geeignet ist sie, wenn Sie benötigen:

Echtzeit-Sprachchat im Browser (diese Skill ist CLI-orientiert).
Manuelles Editing im DAW-Stil direkt innerhalb der Skill (Sie würden Audio exportieren und in einem separaten Tool bearbeiten).

Wann ai-podcast-creation gut passt

Nutzen Sie diese Skill, wenn:

Sie bereits Skripte, Shownotes oder Longform-Text schreiben und daraus gesprochene Audios machen wollen.
Sie terminalbasierte Automatisierung und reproduzierbare Pipelines GUI-Tools vorziehen.
Sie schnell mit Stimmen experimentieren möchten, bevor Sie sich auf ein komplexeres Produktions-Setup festlegen.

Prüfen Sie andere Optionen, wenn Sie:

Stark individualisiertes Audio-Postprocessing ausschließlich in einer DAW brauchen.
Die inference.sh CLI (infsh) nicht installieren oder verwenden können – sie ist Voraussetzung für diese Skill.

Verwendung

Voraussetzungen

Um ai-podcast-creation auszuführen, benötigen Sie:

Zugriff auf ein Terminal unter macOS, Linux oder einer WSL/kompatiblen Umgebung.
Die installierte inference.sh CLI (infsh).
Ein gültiges inference.sh Konto und Zugangsdaten, um infsh login auszuführen.

In der eigenen SKILL.md der Skill steht ausdrücklich:

Requires inference.sh CLI (infsh). Install instructions

Folgen Sie diesem Link, um die offiziellen Installationsschritte für die CLI abzuschließen, bevor Sie diese Skill verwenden.

1. ai-podcast-creation Skill installieren

Nutzen Sie die Agent Skills CLI, um die Skill aus dem inferen-sh/skills Repository hinzuzufügen:

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Damit werden die ai-podcast-creation Dokumentation und Metadaten eingebunden, sodass Ihr Agent oder Ihre Toolchain darauf verweisen kann.

2. inference.sh CLI einrichten

Sobald die CLI installiert ist, authentifizieren Sie sich:

infsh login

Folgen Sie den Anweisungen, um sich mit Ihrem inference.sh Konto anzumelden.

Nach dem Login können Sie Apps wie infsh/kokoro-tts direkt aus dem Terminal oder aus Skripten heraus aufrufen.

3. Erstes Podcast-Segment erzeugen

Am schnellsten testen Sie ai-podcast-creation mit dem Kokoro TTS Beispiel aus SKILL.md:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

Dieser Befehl:

Sendet den prompt-Text an die App infsh/kokoro-tts.
Verwendet die Stimme am_michael (US-amerikanisch, männlich, autoritativ – empfohlen für Doku- oder Tech-Content).
Gibt generiertes Sprach-Audio zurück, das Sie speichern oder – abhängig von Ihrer CLI-Konfiguration – direkt in weitere Verarbeitung pipen können.

4. Die passende Stimme auswählen

Die Dokumentation der Skill führt eine Stimm-Tabelle unter Available Voices → Kokoro TTS. Beispiele:

af_sarah – US-amerikanisch, weiblich, warm; geeignet als Host oder Erzählerin.
af_nicole – US-amerikanisch, weiblich, professionell; geeignet für News- oder Business-Formate.
am_michael – US-amerikanisch, männlich, autoritativ; geeignet für Tech- oder Doku-Podcasts.

Sie können die Stimme im Befehl einfach austauschen:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

Indem Sie mehrere Befehle mit unterschiedlichen Stimmen und Prompts ausführen, erzeugen Sie mehrstimmige Segmente, die Sie anschließend mithilfe anderer in der Skill beschriebener Apps (z. B. media merger) mit Musik oder Effekten zusammenführen können.

5. Einen wiederholbaren Workflow aufbauen

Sobald Sie sich mit der Erzeugung einzelner Passagen wohlfühlen, kapseln Sie den Prozess in Skripte. Sie können zum Beispiel:

Ihr Episoden-Skript in einer Datei wie episode01.txt speichern.
Es in Segmente für Host-Intro, Antworten von Gästen und Outro aufteilen.
Für jedes Segment infsh app run infsh/kokoro-tts mit unterschiedlichen Stimmen aufrufen.
Weitere inference.sh Apps (AI music generation, media merger) nutzen, um Intro-Musik, Hintergrundbeds oder Crossfades hinzuzufügen, wie in der Skill-Beschreibung vorgeschlagen.

Auch wenn der Repo-Auszug sich vor allem auf Kokoro TTS konzentriert, weist die SKILL-Beschreibung auf Unterstützung für DIA TTS und Chatterbox hin. Für diese Apps folgen Sie denselben infsh app run Mustern und nutzen deren dokumentierte Parameter.

6. Skill-Dokumentation im Repo erkunden

Nach der Installation können Sie die Skill-Dateien für detailliertere Informationen öffnen:

SKILL.md – Hauptanleitung für ai-podcast-creation inklusive Quickstart und Details zu verfügbaren Stimmen.
Weitere referenzierte Ordner im Repository (z. B. guides/content/ai-podcast-creation) – enthalten vertiefende Inhalte und Beispiele für TTS- und Medien-Workflows.

Nutzen Sie diese Dokumente, um zu optimieren:

Stimmwahl für verschiedene Show-Formate.
Wie Sie TTS, Musik und Media Merging kombinieren.
Wie Sie den Workflow an Ihre bestehende Automatisierung oder CI/CD-Systeme anpassen.

FAQ

Was macht ai-podcast-creation genau?

ai-podcast-creation ist ein dokumentierter Workflow, der zeigt, wie Sie die inference.sh CLI, Kokoro TTS, DIA TTS, Chatterbox und verwandte Apps nutzen, um aus Text Podcast-ähnliches Audio zu generieren. Sie erhalten Stimmoptionen, Befehlsbeispiele und Hinweise, wie Sie komplette Episoden mit Musik und Editing-Tools zusammenstellen.

Brauche ich die inference.sh CLI, um diese Skill zu nutzen?

Ja. Die Skill erfordert ausdrücklich die inference.sh CLI (infsh). Sie müssen sie installieren und infsh login ausführen, bevor Sie Befehle wie den folgenden nutzen können:

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

Ohne infsh lässt sich der ai-podcast-creation Workflow nicht ausführen.

Kann ich mit dieser Skill mehrstimmige Dialoge erstellen?

Ja. Auch wenn der Codeauszug ein Einzelstimmen-Beispiel zeigt, hebt die Skill-Beschreibung multi-voice conversations deutlich hervor. Sie setzen das um, indem Sie:

Die TTS-App mehrfach mit verschiedenen voice IDs für jede Sprecherrolle aufrufen.
Separate Audioclips für jede Zeile oder jedes Segment erzeugen.
Diese Clips (und optional Musik) mit einem Media-Merging-Tool kombinieren, wie in der Skill-Beschreibung angegeben.

Ist das ein vollständiger Podcast-Editor oder Ersatz für eine DAW?

Nein. ai-podcast-creation konzentriert sich auf Generierung und Zusammenstellung mit CLI-Apps. Besonders stark ist die Skill bei:

Script-to-Audio-Konvertierung.
Mehrstimmiger und KI-generierter Musikproduktion.
Automatisierten oder Batch-Workflows.

Für detailliertes Wellenform-Editing, Mixing oder Mastering nutzen Sie weiterhin eine dedizierte DAW (z. B. Audacity, Reaper etc.), nachdem Sie Ihre Audiodateien erzeugt haben.

Kann ich ai-podcast-creation für Hörbücher und Voice-Over nutzen?

Ja. Die Skill-Beschreibung nennt Hörbücher, Sprachinhalte und Audio-Newsletter ausdrücklich als Use Cases. Dieselben TTS-Befehle, die Sie für Podcasts verwenden, können auch Longform-Texte, Trainingsmaterialien oder Werbeskripte einsprechen. Sie passen lediglich Struktur und Stimmwahl an das gewünschte Format an.

Wie unterscheidet sich ai-podcast-creation von browserbasierten KI-Podcast-Tools?

Browserbasierte Tools bieten in der Regel eine GUI, während ai-podcast-creation CLI-first und skriptfähig ist. Wählen Sie ai-podcast-creation, wenn Sie:

Automatisierung und reproduzierbare Command-Line-Workflows bevorzugen.
Spracherzeugung in bestehende Pipelines, Cronjobs oder CI integrieren möchten.

Wählen Sie ein Browser-Tool, wenn Sie:

Eine Point-and-Click-Oberfläche benötigen.
Nicht mit Terminal oder Skripten arbeiten wollen.

Wo finde ich die Liste der verfügbaren Stimmen?

Die Stimmenliste für Kokoro TTS finden Sie unter Available Voices → Kokoro TTS in SKILL.md. Öffnen Sie diese Datei im inferen-sh/skills Repository, um jede Voice-ID, ihre Beschreibung und Empfehlungen (z. B. Host, Erzähler, News) einzusehen.

Wie gehe ich vor, wenn mein Befehl fehlschlägt?

Wenn infsh app run fehlschlägt:

Prüfen Sie anhand des offiziellen Install-Guides, ob die inference.sh CLI korrekt installiert ist.
Führen Sie infsh login erneut aus, um sicherzustellen, dass Ihre Session gültig ist.
Überprüfen Sie, ob das JSON in --input gültig ist (korrekte Anführungszeichen und Escaping).
Stellen Sie sicher, dass der App-Name (infsh/kokoro-tts) und die Voice-IDs mit den Angaben in SKILL.md übereinstimmen.

Wenn die Probleme weiterhin bestehen, ziehen Sie die Hauptdokumentation von inference.sh oder die Issues im Repository zu Rate, um hilfe bei spezifischen Umgebungsproblemen zu erhalten.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing ermöglicht es dir, Audio- oder Videoinhalte automatisch in 29 Sprachen zu vertonen und zu übersetzen – direkt über die inference.sh CLI – und dabei die Stimmen der ursprünglichen Sprecher zu erhalten. Ideal für Video-Editoren, Podcaster und Lokalisierungsteams, die schnell hochwertige, mehrsprachige Versionen bestehender Inhalte benötigen.

Video Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Erzeuge realistisch klingende Dialog-Audios mit mehreren Sprecher:innen mit Dia TTS und ElevenLabs über die inference.sh CLI. Das dialogue-audio Skill hilft dir, Sprecherrollen, Emotion, Tempo und Gesprächsverlauf für Podcasts, Hörbücher, Erklärvideos, Charakterszenen und andere dialogbasierte Inhalte präzise zu steuern.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Erzeuge KI-Musik und komplette Songs aus Text-Prompts mit ElevenLabs Music, Diffrythm und Tencent Song Generation über die inference.sh CLI. Ideal für Hintergrundmusik, Soundtracks, Social-Clips, Podcasts und lizenzgebührenfreie Musik. Unterstützt schnelle Song-Generierung, Instrumentals und komplette Vocal-Songs.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Hochpräzise ElevenLabs Speech-to-Text über die inference.sh CLI mit Scribe v1/v2 Modellen. Unterstützt Transkription, Sprecher-Diarisierung, Audio-Event-Tagging, Wortzeitstempel, Forced Alignment und Untertitel-Generierung für Meetings, Podcasts und andere Audio-Workflows.

Audio Editing

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning ist ein auf inference.sh basierendes Skill für KI-Sprachgenerierung, Text-to-Speech und Voice Cloning über die CLI. Es bündelt ElevenLabs-, Kokoro TTS-, DIA-, Chatterbox-, Higgs- und VibeVoice-Modelle für natürliche Sprache, mehrstimmige Vertonung und Stimmtransformation in Audio- und Videoprojekten.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

ElevenLabs Text-to-Speech über die inference.sh CLI, mit über 22 Premiumstimmen, Mehrsprachenunterstützung und schnellen Modelloptionen für produktive Voice-Generation-Workflows.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Erzeuge mit ElevenLabs über die inference.sh CLI hochwertiges, mehrstimmiges Dialog-Audio. Verwandle strukturierte Skripte in natürlich klingende Gespräche mit mehreren Stimmen in einer einzigen Datei – ideal für Podcasts, Hörbücher, Erklärvideos, Tutorials, Charakterdialoge und Videoskripte.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Erzeuge originale KI-Musik aus Textprompts mit der inference.sh CLI und ElevenLabs. Steuere Länge, Stil und Stimmung, um direkt aus deinem Terminal lizenzfreie Hintergrundmusik, Soundtracks, Jingles, Podcast-Betten und Game-Audio zu erstellen.

Audio Editing

Favorites 0GitHub 0