ai-podcast-creation

작성자 inferen-sh

Kokoro TTS, DIA TTS, 그리고 inference.sh CLI를 활용해 텍스트에서 AI 기반 팟캐스트와 음성 콘텐츠를 생성합니다. 여러 보이스를 섞고, 음악을 추가하며, 팟캐스트·오디오북·오디오 뉴스레터용 전체 에피소드를 구성할 수 있습니다.

Stars0

즐겨찾기0

카테고리Voice Generation

설치 명령어

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Audio Video Automation Workflow Cli Ai

개요

ai-podcast-creation이란?

ai-podcast-creation 스킬은 inference.sh CLI를 사용해 AI 기반 팟캐스트와 음성 콘텐츠를 생성하는 워크플로입니다. 텍스트 프롬프트를 Kokoro TTS와 DIA TTS로 자연스러운 음성으로 변환하고, 추가 도구로 음악과 미디어를 합성해 완성도 높은 팟캐스트 스타일 세그먼트를 만드는 데 초점을 맞춥니다.

이 스킬은 음성 트랙을 직접 녹음·편집하기보다는, 스크립트에서 오디오까지 자동으로 이어지는 파이프라인을 만들고 싶은 크리에이터에게 최적화되어 있습니다.

주요 기능

ai-podcast-creation을 사용하면 다음과 같은 작업이 가능합니다.

infsh app run infsh/kokoro-tts를 통해 Kokoro TTS로 고품질 텍스트-투-스피치 오디오를 생성.
af_sarah, af_nicole, am_michael 등 다양한 사전 정의된 voice ID를 활용해 진행자, 게스트, 내레이터 역할에 맞는 음성 선택.
작성된 스크립트에서 바로 팟캐스트 세그먼트와 나레이션 오디오를 생성.
서로 다른 voice ID로 TTS 앱을 여러 번 호출해 다중 화자 대화나 캐릭터 보이스 구성.
DIA TTS, Chatterbox, AI music generation, media merger 등 다른 inference.sh 앱과 통합해, 배경 음악 추가와 멀티 트랙 조합까지 처리(스킬 설명에 명시됨).

이런 분께 적합합니다

ai-podcast-creation은 다음과 같은 경우에 잘 맞습니다.

에피소드를 시제품처럼 빠르게 만들거나 자동화하고 싶은 팟캐스트 제작자·프로덕션 팀.
기사나 뉴스레터를 오디오로 재활용하고 싶은 콘텐츠 마케터.
CLI 기반 미디어 워크플로를 구축하는 인디 개발자 또는 자동화 엔지니어.
강의형 오디오나 설명용 콘텐츠를 만들고 싶은 연구자·교육자.

다음과 같은 경우에는 적합하지 않을 수 있습니다.

브라우저에서 실시간 상호작용 음성 채팅이 필요한 경우(이 스킬은 CLI 중심입니다).
이 스킬 안에서 DAW 수준의 세밀한 수동 편집을 원할 경우(오디오는 내보낸 뒤 별도 툴에서 편집해야 합니다).

ai-podcast-creation을 쓰기 좋은 상황

이 스킬 사용을 고려해볼 만한 상황:

이미 스크립트, 쇼 노트, 장문의 텍스트를 작성해두었고, 이를 자연스러운 음성으로 변환하고 싶은 경우.
GUI 도구보다 터미널 기반 자동화와 재현 가능한 파이프라인을 선호하는 경우.
본격적인 스튜디오 세팅 전에 여러 보이스를 빠르게 시험해 보고 싶은 경우.

다음에 해당하면 다른 옵션을 고려해 보세요.

DAW 안에서만 가능한 고도화된 오디오 후반 작업만 필요한 경우.
이 스킬에 필수인 **inference.sh CLI(infsh)**를 설치하거나 사용할 수 없는 경우.

사용 방법

사전 준비 사항

ai-podcast-creation을 실행하려면 다음이 필요합니다.

macOS, Linux, 또는 WSL/호환 환경의 터미널 접근 권한.
설치된 inference.sh CLI(infsh).
infsh login을 실행할 수 있는 유효한 inference.sh 계정과 자격 증명.

스킬의 SKILL.md에는 다음과 같이 명시되어 있습니다.

Requires inference.sh CLI (infsh). Install instructions

이 스킬을 사용하기 전에 위 링크의 공식 CLI 설치 안내를 먼저 따라 진행하세요.

1. ai-podcast-creation 스킬 설치

inferen-sh/skills 리포지토리에서 Agent Skills CLI를 사용해 스킬을 추가합니다.

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

이 명령어는 ai-podcast-creation 가이드와 메타데이터를 가져와, 사용하는 에이전트나 툴체인이 이를 참조할 수 있게 합니다.

2. inference.sh CLI 설정

CLI 설치 후, 인증을 진행합니다.

infsh login

프롬프트에 따라 진행해 inference.sh 계정으로 로그인을 완료하세요.

로그인 후에는 infsh/kokoro-tts와 같은 앱을 터미널이나 스크립트 워크플로에서 바로 호출할 수 있습니다.

3. 첫 팟캐스트 세그먼트 생성하기

ai-podcast-creation을 가장 빠르게 시험해 보는 방법은 SKILL.md에 있는 Kokoro TTS 예제를 실행해 보는 것입니다.

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

이 명령은 다음을 수행합니다.

prompt 텍스트를 infsh/kokoro-tts 앱에 전송합니다.
am_michael 보이스를 사용합니다(다큐멘터리나 테크 콘텐츠에 적합한, 미국 남성 권위 있는 스타일).
생성된 음성 오디오를 반환하며, CLI 설정에 따라 저장하거나 후속 처리 파이프라인으로 바로 넘길 수 있습니다.

4. 적합한 보이스 선택하기

스킬 문서에는 Available Voices → Kokoro TTS 섹션에 보이스 테이블이 제공됩니다. 예를 들면 다음과 같습니다.

af_sarah – 미국 여성, 따뜻한 톤; 진행자나 내레이터에 적합.
af_nicole – 미국 여성, 프로페셔널한 톤; 뉴스·비즈니스 쇼에 적합.
am_michael – 미국 남성, 권위 있는 톤; 테크·다큐멘터리 팟캐스트에 적합.

명령어에서 보이스를 교체해 사용할 수 있습니다.

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

이처럼 서로 다른 보이스와 프롬프트로 여러 번 명령을 실행해 다중 화자 세그먼트를 만들고, 이후 스킬에서 소개하는 다른 앱(예: media merger)으로 음악이나 효과와 함께 합칠 수 있습니다.

5. 반복 가능한 워크플로 만들기

개별 대사를 만드는 데 익숙해졌다면, 전체 과정을 스크립트로 감싸 자동화할 수 있습니다. 예를 들어:

에피소드 스크립트를 episode01.txt와 같은 파일에 저장.
진행자 오프닝, 게스트 답변, 클로징 등으로 세그먼트 분할.
각 세그먼트마다 다른 보이스를 지정해 infsh app run infsh/kokoro-tts 호출.
inference.sh의 AI music generation, media merger 등 추가 앱을 활용해, 인트로 음악·백그라운드 음악·크로스페이드 등을 스킬 설명에 나온 방법대로 추가.

리포지토리 일부는 Kokoro TTS에 초점을 두고 있지만, SKILL 설명에는 DIA TTS와 Chatterbox 지원도 언급되어 있습니다. 이들 앱 역시 문서화된 파라미터에 따라 비슷한 형태의 infsh app run 패턴으로 사용하면 됩니다.

6. 리포지토리에서 스킬 문서 더 살펴보기

설치가 끝나면, 더 자세한 안내를 위해 스킬 관련 파일을 열어보세요.

SKILL.md – ai-podcast-creation의 기본 가이드로, 퀵 스타트 및 사용 가능한 보이스 정보 수록.
리포지토리의 기타 관련 폴더(예: guides/content/ai-podcast-creation) – TTS 및 미디어 워크플로 예시와 확장 가이드 포함.

이 문서들을 활용해 다음을 다듬을 수 있습니다.

프로그램 형식에 맞는 최적의 보이스 선택.
TTS, 음악, 미디어 머징을 어떤 순서와 방식으로 연결할지.
기존 자동화·CI/CD 시스템에 맞춰 워크플로를 어떻게 통합할지.

FAQ

ai-podcast-creation으로 정확히 무엇을 할 수 있나요?

ai-podcast-creation은 inference.sh CLI, Kokoro TTS, DIA TTS, Chatterbox 및 관련 앱을 활용해 텍스트에서 팟캐스트 스타일 오디오를 생성하는 방법을 정리한 워크플로입니다. 다양한 보이스 옵션과 명령 예시, 음악과 편집 도구를 이용해 전체 에피소드를 구성하는 가이드를 제공합니다.

이 스킬을 쓰려면 inference.sh CLI가 꼭 필요한가요?

네. 이 스킬은 inference.sh CLI(infsh)가 필수입니다. 먼저 CLI를 설치하고 infsh login을 완료해야 다음과 같은 명령을 실행할 수 있습니다.

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

infsh가 없다면 ai-podcast-creation 워크플로는 동작할 수 없습니다.

이 스킬로 다중 화자 대화도 만들 수 있나요?

가능합니다. 코드 예시는 단일 보이스만 보여주지만, 스킬 설명에는 다중 화자 대화가 명확히 강조되어 있습니다. 구현 방법은 다음과 같습니다.

각 화자마다 다른 voice ID로 TTS 앱을 여러 번 호출.
대사·세그먼트별로 별도 오디오 클립 생성.
스킬에서 안내하는 미디어 머징 도구를 이용해, 필요하다면 음악과 함께 이 클립들을 하나로 결합.

이 스킬이 완전한 팟캐스트 편집기나 DAW를 대체하나요?

아니요. ai-podcast-creation은 CLI 앱을 통한 생성 및 조합에 초점을 둡니다. 다음과 같은 용도에 특히 강점이 있습니다.

스크립트 텍스트를 오디오로 변환.
다중 보이스와 AI 생성 음악 활용.
자동화·배치 처리 워크플로 구축.

파형 편집, 정교한 믹싱·마스터링이 필요하다면, 오디오 파일을 생성한 후에도 Audacity, Reaper 등 전용 DAW를 함께 사용하는 것이 좋습니다.

오디오북이나 보이스오버에도 사용할 수 있나요?

네. 스킬 설명에는 오디오북, 음성 콘텐츠, 오디오 뉴스레터가 명시적 사용 사례로 포함되어 있습니다. 팟캐스트에 쓰는 것과 동일한 TTS 명령으로 장문의 텍스트, 교육 자료, 홍보 스크립트 등을 낭독할 수 있으며, 형식에 맞게 스크립트 구조와 보이스 선택만 조정해 주면 됩니다.

ai-podcast-creation과 브라우저 기반 AI 팟캐스트 툴은 어떻게 다르나요?

브라우저 기반 도구는 보통 GUI를 제공하는 반면, ai-podcast-creation은 CLI 중심이며 스크립트로 자동화하기에 적합합니다. 다음과 같은 경우 ai-podcast-creation을 선택하는 것이 좋습니다.

자동화와 재현 가능한 커맨드라인 워크플로를 선호할 때.
기존 파이프라인, cron 잡, CI 등에 음성 생성을 통합하고 싶을 때.

다음에 해당한다면 브라우저 기반 툴이 더 편할 수 있습니다.

클릭으로 조작하는 직관적인 인터페이스가 필요할 때.
터미널이나 스크립트로 작업할 계획이 없을 때.

사용 가능한 보이스 목록은 어디서 볼 수 있나요?

Kokoro TTS용 보이스 목록은 SKILL.md의 Available Voices → Kokoro TTS 섹션에 정리되어 있습니다. inferen-sh/skills 리포지토리에서 해당 파일을 열면 각 voice ID와 설명, 추천 용도(예: 진행자, 내레이터, 뉴스 등)를 확인할 수 있습니다.

명령 실행이 실패하면 어떻게 해결해야 하나요?

infsh app run이 실패할 경우 다음을 순서대로 확인해 보세요.

공식 설치 가이드를 참고해 inference.sh CLI가 올바르게 설치되었는지.
infsh login을 다시 실행해 세션이 유효한지.
--input에 전달하는 JSON이 올바른지(따옴표, 이스케이프 등).
앱 이름(infsh/kokoro-tts)과 voice ID가 SKILL.md 문서와 정확히 일치하는지.

그래도 문제가 해결되지 않으면, inference.sh 메인 문서나 리포지토리 이슈 트래커에서 사용 중인 환경에 맞는 추가 도움을 찾아보세요.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

elevenlabs-dialogue

by inferen-sh

inference.sh CLI를 통해 ElevenLabs로 다중 화자 대화 오디오를 매끄럽게 생성합니다. 구조화된 스크립트를 팟캐스트, 오디오북, 설명 영상, 튜토리얼, 캐릭터 대사, 영상 대본 등에 쓸 수 있는 자연스러운 다인 대화 음성(단일 파일)으로 변환합니다.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

inference.sh CLI를 통해 ElevenLabs Scribe v1/v2 모델을 사용하는 고정확도 음성 인식 스킬입니다. 회의, 팟캐스트 등 다양한 오디오 워크플로에서 전사, 화자 분리, 오디오 이벤트 태깅, 단어 단위 타임스탬프, 강제 정렬, 자막 생성 등을 지원합니다.

Audio Editing

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

inference.sh CLI를 통해 ElevenLabs Music, Diffrythm, Tencent Song Generation을 사용해 텍스트 프롬프트에서 AI 음악과 완성된 곡을 생성합니다. 배경 음악, 사운드트랙, 숏폼 영상, 팟캐스트, 로열티 프리 음악 제작에 적합합니다. 빠른 곡 생성, 연주곡(Instrumental), 보컬이 포함된 풀송을 모두 지원합니다.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning은 CLI에서 사용할 수 있는 AI 음성 생성, 텍스트 음성 변환(TTS), 음성 클로닝 스킬로, inference.sh 기반으로 동작합니다. ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs, VibeVoice 모델을 래핑해 자연스러운 음성, 멀티 보이스 내레이션, 오디오·영상 프로젝트용 음성 변환을 제공합니다.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

inference.sh CLI를 통해 ElevenLabs 텍스트-투-스피치(TTS)를 사용하는 스킬로, 22개 이상 프리미엄 보이스, 다국어 지원, 프로덕션 환경에 적합한 고속 모델 옵션을 제공합니다.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

inference.sh CLI를 통해 Dia TTS 및 ElevenLabs를 사용해 현실감 있는 멀티 스피커 대화 오디오를 생성합니다. dialogue-audio 스킬은 팟캐스트, 오디오북, 설명 영상, 캐릭터 연기 등 대화형 콘텐츠에서 화자, 감정, 속도, 대화 흐름을 세밀하게 제어할 수 있게 도와줍니다.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

inference.sh CLI와 ElevenLabs를 사용해 텍스트 프롬프트만으로 오리지널 AI 음악을 생성하세요. 길이, 스타일, 분위기를 제어해 로열티 프리 배경 음악, 사운드트랙, 징글, 팟캐스트 배경음, 게임 오디오를 터미널에서 바로 만들어낼 수 있습니다.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing은 inference.sh CLI를 사용해 오디오나 비디오를 29개 언어로 자동 더빙 및 번역하면서, 원본 화자의 목소리 특성을 최대한 유지해 줍니다. 기존 콘텐츠를 빠르고 고품질의 다국어 버전으로 제작해야 하는 영상 편집자, 팟캐스터, 로컬라이제이션 팀에 적합합니다.

Video Editing

Favorites 0GitHub 0