dialogue-audio

작성자 inferen-sh

inference.sh CLI를 통해 Dia TTS 및 ElevenLabs를 사용해 현실감 있는 멀티 스피커 대화 오디오를 생성합니다. dialogue-audio 스킬은 팟캐스트, 오디오북, 설명 영상, 캐릭터 연기 등 대화형 콘텐츠에서 화자, 감정, 속도, 대화 흐름을 세밀하게 제어할 수 있게 도와줍니다.

Stars0

즐겨찾기0

카테고리Voice Generation

설치 명령어

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Audio Video Workflow Cli Automation Developer Audience

개요

dialogue-audio 스킬로 할 수 있는 일

dialogue-audio 스킬은 작성한 대사를 Dia TTS와 inference.sh (infsh) CLI를 이용해 자연스럽게 들리는 멀티 스피커 오디오로 변환합니다. 내부적으로는 ElevenLabs급 음성을 활용합니다.

이 스킬은 다음과 같은 용도를 위해 설계되었습니다.

두 인물의 대화
팟캐스트 스타일의 대화 및 인터뷰
화자가 번갈아 등장하는 오디오북 장면
진행자/게스트 형식의 설명형 콘텐츠
캐릭터 대사 및 보이스 액팅 프로토타입

이 스킬이 중점적으로 다루는 부분은 다음과 같습니다.

[S1], [S2]와 같은 간단한 태그를 이용한 화자 분리
세션 내 화자별 일관된 음성 유지
단어 선택과 문장부호를 통한 감정·표현 제어
대화가 주고받는 속도와 흐름 컨트롤
생성된 오디오를 실제 미디어 작업 흐름에 넣기 위한 후반작업 가이드

두 사람 대본을 커맨드라인에서 세련된 대화 오디오로 자동 변환하고 싶다면, dialogue-audio는 그 사용 사례에 맞춰 만들어진 스킬입니다.

이 스킬이 잘 맞는 사용자

다음에 해당한다면 이 스킬이 잘 맞습니다.

대화를 기획하거나 시뮬레이션해 보고 싶은 팟캐스터
타임라인에 보이스 트랙을 얹어야 하는 오디오 프로듀서 또는 영상 편집자
대사가 많은 장면을 쓰는 작가 또는 시나리오 작가
CLI와 재현 가능한 워크플로를 선호하는 개발자 또는 자동화 중심 크리에이터

다음과 같은 경우에는 적합하지 않을 수 있습니다.

한 번에 두 명을 초과하는 화자가 필요한 경우
복잡한 사운드 디자인, 음악, 믹싱을 자동으로 처리하고 싶은 경우
커맨드라인 대신 클릭 위주의 GUI만 사용하고 싶은 경우

이러한 요구가 있다면, 별도의 DAW 도구나 멀티 스피커 TTS 서비스를 함께 사용하고, 핵심이 되는 두 사람 대화 트랙만 dialogue-audio로 생성하는 방식을 추천합니다.

필수 요구사항 한눈에 보기

dialogue-audio를 제대로 활용하려면 다음이 필요합니다.

inference.sh CLI (infsh) 접근 권한
터미널 또는 커맨드라인 환경 (macOS, Linux, 또는 셸이 설치된 Windows)
텍스트 프롬프트를 편집하고 CLI 명령을 실행해 본 기본적인 경험

사용 방법

1. dialogue-audio 스킬 설치하기

npx를 사용해 Agent 환경에 dialogue-audio 스킬을 추가할 수 있습니다.

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

이 명령은 inferen-sh/skills 리포지토리에서 dialogue-audio 설정을 가져와 재사용 가능한 워크플로로 사용할 수 있게 합니다.

다음으로 inference.sh CLI (infsh)가 설치되어 있는지 확인하십시오. 공식 설치 안내를 따르세요.

CLI install instructions: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

설치 후에는 다음으로 인증을 완료합니다.

infsh login

2. 핵심 워크플로 이해하기

dialogue-audio의 핵심은 infsh를 통해 Dia TTS 앱을 호출하는 것입니다.

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

이 명령은 다음을 수행합니다.

falai/dia-tts 앱을 호출
prompt를 담은 JSON 입력 페이로드 전송
[S1], [S2] 태그로 화자가 바뀌는 지점 표시
전체 대화 구간에 대한 대화 오디오 생성 후 반환

dialogue-audio 스킬은 이 패턴을 의견 기반(opinionated) 워크플로로 감싸, 프롬프트 구조화, 두 화자 처리, 표현·속도 조정 반복 작업을 더 쉽게 할 수 있게 도와줍니다.

3. 화자 태그 제대로 사용하기

Dia TTS는 누가 말하는지 파악하기 위해 화자 태그에 의존합니다.

[S1] — 화자 1 (자동으로 Voice A 배정)
[S2] — 화자 2 (자동으로 Voice B 배정)

핵심 규칙은 다음과 같습니다.

각 발화를 시작할 때 항상 해당 화자 태그로 문장을 시작할 것
태그는 반드시 대문자로: [S1], [S2] (예: [s1], [speaker1]는 사용하지 않음)
한 번 생성할 때 최대 2명의 화자만 사용 가능
각 화자는 한 세션 동안 일관된 음성을 유지

깔끔한 2인 대화 프롬프트 예시는 다음과 같습니다.

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. 감정, 톤, 속도 조절하기

dialogue-audio 스킬은 자연스러운 글쓰기 신호를 활용해 생성 오디오의 느낌을 조정하도록 권장합니다.

쉼표, 줄임표, 느낌표 등 문장부호를 활용해 쉼, 멈춤, 강조를 표현
짧은 문장은 빠르고 경쾌한 대화 느낌을 만듭니다.
긴 구문이나 서술형 표현은 차분하고 사색적인 톤에 적합합니다.
필요할 때 괄호 안에 **간단한 무대 지시(stage directions)**를 넣어 감정을 힌트로 줄 수 있습니다.

[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

작게 표현을 바꾸어 보면서 명령을 다시 실행해 보면, 톤과 속도가 어떻게 달라지는지 바로 확인할 수 있습니다.

5. 대화 흐름을 반복 개선하기

dialogue-audio로 더 좋은 결과를 얻으려면 다음을 권장합니다.

전체 대화를 텍스트 에디터에서 먼저 작성
모든 대사가 올바르게 태그되어 있는지, 잘못된 태그가 끼어 있지 않은지 확인
각 발화는 간결하게 유지; 너무 긴 독백은 대화처럼 느껴지지 않을 수 있습니다.
장면이 복잡하다면 필요 시 여러 번에 나누어 생성한 후, 편집기에서 이어 붙이기

infsh app run falai/dia-tts 명령의 프롬프트를 조금씩 조정해 가며 재실행하면, 프로젝트에 맞는 타이밍과 감정선을 맞출 수 있습니다.

6. 후반작업 및 워크플로 통합

Dia TTS 출력은 일반적인 도구에서 불러올 수 있는 오디오 파일입니다. dialogue-audio 스킬의 역할은 음성 생성에 집중되어 있지만, 이후에 다음과 같은 작업을 할 수 있습니다.

생성된 대화를 DAW(예: Audacity, Reaper, Logic Pro)에 임포트
배경 음악, 효과음, 룸 톤 추가
볼륨, EQ, 컴프레션을 조정해 전체 믹스와 맞추기
Premiere Pro, Final Cut, DaVinci Resolve 같은 편집기에서 영상과 싱크 맞추기

이처럼 dialogue-audio는 더 큰 오디오·영상 제작 워크플로 안에서 핵심 멀티 스피커 퍼포먼스를 만들어 주는 빌딩 블록 역할을 하고, 세부적인 믹싱은 기존에 쓰는 도구로 마무리할 수 있습니다.

7. 리포지토리에서 살펴볼 파일

설치 후에는 inferen-sh/skills 리포지토리에서 스킬 정의를 확인해 보다 깊이 있는 내용을 살펴볼 수 있습니다.

SKILL.md — dialogue-audio 워크플로에 대한 기본 설명, 빠른 시작, 사용 노트

이 파일들을 참고해 자신의 자동화나 CI 파이프라인에 맞게 설정을 조정할 수 있습니다.

자주 묻는 질문 (FAQ)

dialogue-audio는 정말 두 명의 화자만 지원하나요?

네. dialogue-audio 스킬은 Dia TTS를 통해 동작하며, 한 번의 생성에서 최대 두 명의 화자만 지원합니다. 이를 위해 [S1], [S2] 태그를 사용합니다. 등장인물이 더 많다면 다음 방법을 고려해 보세요.

한 번에 두 명에 집중해 부분별로 생성하거나,
대본을 여러 구간으로 나눈 뒤 각각 생성하여 후반작업에서 이어 붙이기

dialogue-audio를 쓰려면 inference.sh CLI가 꼭 필요한가요?

네. dialogue-audio 스킬은 **inference.sh CLI (infsh)**에 의존합니다. infsh를 설치하고 infsh login으로 로그인한 후, infsh app run falai/dia-tts 명령에 프롬프트를 넘겨야 합니다. infsh가 없으면 해당 워크플로 안에서 Dia TTS 앱을 호출할 수 없습니다.

ElevenLabs 음성을 화자별로 직접 선택할 수 있나요?

리포지토리 문서에 따르면, 음성은 화자별로 자동 할당됩니다. [S1]은 한 가지 음성에, [S2]는 다른 음성에 매핑되며, 세션 내에서는 일관되게 유지됩니다. 스킬 문서에는 화자별 음성을 ID로 직접 지정하는 방법이 안내되어 있지 않으므로, 음성 선택은 프롬프트가 아니라 Dia TTS / inference.sh 설정에서 관리된다고 이해하는 것이 좋습니다.

대사에서 감정이나 강도를 어떻게 조절하나요?

이 스킬은 별도의 감정 슬라이더 대신 프롬프트 설계와 문장부호에 의존합니다. 예를 들어 다음과 같이 할 수 있습니다.

"shouted", "whispered", "nervously"와 같은 표현을 사용해 말투를 암시
..., !, ? 등 문장부호를 조절해 멈춤 길이와 강조를 조정
필요할 때 (whispering), (frustrated) 같은 짧은 괄호 속 지시를 추가

작게 바꾼 버전을 여러 번 실행해 보면서 모델의 반응을 듣고, 프로젝트에 어울리는 스타일을 찾아가는 방식이 좋습니다.

dialogue-audio는 장편 오디오북에도 적합한가요?

두 명의 대화가 중심인 구간이라면 장편 오디오북에서도 충분히 활용할 수 있습니다. 분량이 길다면 다음을 권장합니다.

대본을 장면이나 챕터 단위로 나누기
구간별로 오디오를 생성해 DAW에서 정리·관리
구간마다 태그와 톤이 일관되도록 관리

화자가 많거나, 내레이션 스타일이 복잡한 오디오북이라면 이 두 화자 중심 스킬 외에 추가 TTS 구성도 함께 고려해야 합니다.

dialogue-audio를 더 큰 자동화 워크플로에 통합할 수 있나요?

가능합니다. dialogue-audio는 infsh CLI 기반이기 때문에 스크립트나 자동화 환경과 궁합이 좋습니다.

infsh app run falai/dia-tts 명령을 셸 스크립트에 통합
CI/CD 파이프라인이나 스케줄 작업에서 자동으로 생성 실행
inferen-sh/skills의 다른 스킬들과 조합해 더 큰 콘텐츠 파이프라인 구성

재현 가능한 텍스트 기반 오디오 생성 워크플로를 원하는 개발자 및 기술 사용자에게 특히 유용합니다.

dialogue-audio를 쓰지 않는 것이 좋은 경우는 언제인가요?

다음과 같은 경우에는 다른 방법을 고려하는 것이 좋습니다.

한 번에 두 명을 초과하는 목소리가 필요한 경우
커맨드라인을 사용하지 않고 GUI만으로 작업하고 싶은 경우
대사 생성뿐 아니라 음악, 효과음, 믹싱까지 자동으로 처리되는 올인원 도구를 원하는 경우

이럴 때는 멀티 스피커 TTS 서비스나 전문 오디오 도구를 DAW와 함께 사용하고, 깔끔한 두 사람 대화가 핵심일 때에만 dialogue-audio를 사용하는 구성이 더 적합합니다.

전체 설정은 어디에서 확인할 수 있나요?

inferen-sh/skills 리포지토리에서 dialogue-audio 섹션을 열어보세요.

Repo: https://github.com/inferen-sh/skills
Skill path: tools/audio/dialogue-audio

Dia TTS 연동 방식과 CLI 명령에 대한 최신 안내를 이해하려면 먼저 SKILL.md부터 살펴보는 것을 추천합니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

elevenlabs-music

by inferen-sh

inference.sh CLI와 ElevenLabs를 사용해 텍스트 프롬프트만으로 오리지널 AI 음악을 생성하세요. 길이, 스타일, 분위기를 제어해 로열티 프리 배경 음악, 사운드트랙, 징글, 팟캐스트 배경음, 게임 오디오를 터미널에서 바로 만들어낼 수 있습니다.

Audio Editing

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

inference.sh CLI(`infsh`)를 사용하는 ElevenLabs 음성 변조 스킬로, 녹음된 음성을 내용과 감정은 그대로 유지한 채 다른 합성 음성으로 변환합니다. eleven_multilingual_sts_v2(70개+ 언어)와 eleven_english_sts_v2를 지원하며, 음성-대-음성 변환, 억양 변경, 음성 변조를 이용한 콘텐츠 제작, 더빙, 캐릭터 보이스에 활용할 수 있습니다.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

inference.sh CLI를 통해 ElevenLabs Scribe v1/v2 모델을 사용하는 고정확도 음성 인식 스킬입니다. 회의, 팟캐스트 등 다양한 오디오 워크플로에서 전사, 화자 분리, 오디오 이벤트 태깅, 단어 단위 타임스탬프, 강제 정렬, 자막 생성 등을 지원합니다.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

inference.sh CLI를 통해 ElevenLabs로 다중 화자 대화 오디오를 매끄럽게 생성합니다. 구조화된 스크립트를 팟캐스트, 오디오북, 설명 영상, 튜토리얼, 캐릭터 대사, 영상 대본 등에 쓸 수 있는 자연스러운 다인 대화 음성(단일 파일)으로 변환합니다.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

inference.sh CLI를 통해 ElevenLabs Music, Diffrythm, Tencent Song Generation을 사용해 텍스트 프롬프트에서 AI 음악과 완성된 곡을 생성합니다. 배경 음악, 사운드트랙, 숏폼 영상, 팟캐스트, 로열티 프리 음악 제작에 적합합니다. 빠른 곡 생성, 연주곡(Instrumental), 보컬이 포함된 풀송을 모두 지원합니다.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning은 CLI에서 사용할 수 있는 AI 음성 생성, 텍스트 음성 변환(TTS), 음성 클로닝 스킬로, inference.sh 기반으로 동작합니다. ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs, VibeVoice 모델을 래핑해 자연스러운 음성, 멀티 보이스 내레이션, 오디오·영상 프로젝트용 음성 변환을 제공합니다.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing은 inference.sh CLI를 사용해 오디오나 비디오를 29개 언어로 자동 더빙 및 번역하면서, 원본 화자의 목소리 특성을 최대한 유지해 줍니다. 기존 콘텐츠를 빠르고 고품질의 다국어 버전으로 제작해야 하는 영상 편집자, 팟캐스터, 로컬라이제이션 팀에 적합합니다.

Video Editing

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Kokoro TTS, DIA TTS, 그리고 inference.sh CLI를 활용해 텍스트에서 AI 기반 팟캐스트와 음성 콘텐츠를 생성합니다. 여러 보이스를 섞고, 음악을 추가하며, 팟캐스트·오디오북·오디오 뉴스레터용 전체 에피소드를 구성할 수 있습니다.

Voice Generation

Favorites 0GitHub 0