dialogue-audio
작성자 inferen-shinference.sh CLI를 통해 Dia TTS 및 ElevenLabs를 사용해 현실감 있는 멀티 스피커 대화 오디오를 생성합니다. dialogue-audio 스킬은 팟캐스트, 오디오북, 설명 영상, 캐릭터 연기 등 대화형 콘텐츠에서 화자, 감정, 속도, 대화 흐름을 세밀하게 제어할 수 있게 도와줍니다.
개요
dialogue-audio 스킬로 할 수 있는 일
dialogue-audio 스킬은 작성한 대사를 Dia TTS와 inference.sh (infsh) CLI를 이용해 자연스럽게 들리는 멀티 스피커 오디오로 변환합니다. 내부적으로는 ElevenLabs급 음성을 활용합니다.
이 스킬은 다음과 같은 용도를 위해 설계되었습니다.
- 두 인물의 대화
- 팟캐스트 스타일의 대화 및 인터뷰
- 화자가 번갈아 등장하는 오디오북 장면
- 진행자/게스트 형식의 설명형 콘텐츠
- 캐릭터 대사 및 보이스 액팅 프로토타입
이 스킬이 중점적으로 다루는 부분은 다음과 같습니다.
[S1],[S2]와 같은 간단한 태그를 이용한 화자 분리- 세션 내 화자별 일관된 음성 유지
- 단어 선택과 문장부호를 통한 감정·표현 제어
- 대화가 주고받는 속도와 흐름 컨트롤
- 생성된 오디오를 실제 미디어 작업 흐름에 넣기 위한 후반작업 가이드
두 사람 대본을 커맨드라인에서 세련된 대화 오디오로 자동 변환하고 싶다면, dialogue-audio는 그 사용 사례에 맞춰 만들어진 스킬입니다.
이 스킬이 잘 맞는 사용자
다음에 해당한다면 이 스킬이 잘 맞습니다.
- 대화를 기획하거나 시뮬레이션해 보고 싶은 팟캐스터
- 타임라인에 보이스 트랙을 얹어야 하는 오디오 프로듀서 또는 영상 편집자
- 대사가 많은 장면을 쓰는 작가 또는 시나리오 작가
- CLI와 재현 가능한 워크플로를 선호하는 개발자 또는 자동화 중심 크리에이터
다음과 같은 경우에는 적합하지 않을 수 있습니다.
- 한 번에 두 명을 초과하는 화자가 필요한 경우
- 복잡한 사운드 디자인, 음악, 믹싱을 자동으로 처리하고 싶은 경우
- 커맨드라인 대신 클릭 위주의 GUI만 사용하고 싶은 경우
이러한 요구가 있다면, 별도의 DAW 도구나 멀티 스피커 TTS 서비스를 함께 사용하고, 핵심이 되는 두 사람 대화 트랙만 dialogue-audio로 생성하는 방식을 추천합니다.
필수 요구사항 한눈에 보기
dialogue-audio를 제대로 활용하려면 다음이 필요합니다.
- inference.sh CLI (
infsh) 접근 권한 - 터미널 또는 커맨드라인 환경 (macOS, Linux, 또는 셸이 설치된 Windows)
- 텍스트 프롬프트를 편집하고 CLI 명령을 실행해 본 기본적인 경험
사용 방법
1. dialogue-audio 스킬 설치하기
npx를 사용해 Agent 환경에 dialogue-audio 스킬을 추가할 수 있습니다.
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
이 명령은 inferen-sh/skills 리포지토리에서 dialogue-audio 설정을 가져와 재사용 가능한 워크플로로 사용할 수 있게 합니다.
다음으로 inference.sh CLI (infsh)가 설치되어 있는지 확인하십시오. 공식 설치 안내를 따르세요.
- CLI install instructions:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
설치 후에는 다음으로 인증을 완료합니다.
infsh login
2. 핵심 워크플로 이해하기
dialogue-audio의 핵심은 infsh를 통해 Dia TTS 앱을 호출하는 것입니다.
infsh app run falai/dia-tts --input '{
"prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'
이 명령은 다음을 수행합니다.
falai/dia-tts앱을 호출prompt를 담은 JSON 입력 페이로드 전송[S1],[S2]태그로 화자가 바뀌는 지점 표시- 전체 대화 구간에 대한 대화 오디오 생성 후 반환
dialogue-audio 스킬은 이 패턴을 의견 기반(opinionated) 워크플로로 감싸, 프롬프트 구조화, 두 화자 처리, 표현·속도 조정 반복 작업을 더 쉽게 할 수 있게 도와줍니다.
3. 화자 태그 제대로 사용하기
Dia TTS는 누가 말하는지 파악하기 위해 화자 태그에 의존합니다.
[S1]— 화자 1 (자동으로 Voice A 배정)[S2]— 화자 2 (자동으로 Voice B 배정)
핵심 규칙은 다음과 같습니다.
- 각 발화를 시작할 때 항상 해당 화자 태그로 문장을 시작할 것
- 태그는 반드시 대문자로:
[S1],[S2](예:[s1],[speaker1]는 사용하지 않음) - 한 번 생성할 때 최대 2명의 화자만 사용 가능
- 각 화자는 한 세션 동안 일관된 음성을 유지
깔끔한 2인 대화 프롬프트 예시는 다음과 같습니다.
[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.
4. 감정, 톤, 속도 조절하기
dialogue-audio 스킬은 자연스러운 글쓰기 신호를 활용해 생성 오디오의 느낌을 조정하도록 권장합니다.
- 쉼표, 줄임표, 느낌표 등 문장부호를 활용해 쉼, 멈춤, 강조를 표현
- 짧은 문장은 빠르고 경쾌한 대화 느낌을 만듭니다.
- 긴 구문이나 서술형 표현은 차분하고 사색적인 톤에 적합합니다.
- 필요할 때 괄호 안에 **간단한 무대 지시(stage directions)**를 넣어 감정을 힌트로 줄 수 있습니다.
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.
작게 표현을 바꾸어 보면서 명령을 다시 실행해 보면, 톤과 속도가 어떻게 달라지는지 바로 확인할 수 있습니다.
5. 대화 흐름을 반복 개선하기
dialogue-audio로 더 좋은 결과를 얻으려면 다음을 권장합니다.
- 전체 대화를 텍스트 에디터에서 먼저 작성
- 모든 대사가 올바르게 태그되어 있는지, 잘못된 태그가 끼어 있지 않은지 확인
- 각 발화는 간결하게 유지; 너무 긴 독백은 대화처럼 느껴지지 않을 수 있습니다.
- 장면이 복잡하다면 필요 시 여러 번에 나누어 생성한 후, 편집기에서 이어 붙이기
infsh app run falai/dia-tts 명령의 프롬프트를 조금씩 조정해 가며 재실행하면, 프로젝트에 맞는 타이밍과 감정선을 맞출 수 있습니다.
6. 후반작업 및 워크플로 통합
Dia TTS 출력은 일반적인 도구에서 불러올 수 있는 오디오 파일입니다. dialogue-audio 스킬의 역할은 음성 생성에 집중되어 있지만, 이후에 다음과 같은 작업을 할 수 있습니다.
- 생성된 대화를 DAW(예: Audacity, Reaper, Logic Pro)에 임포트
- 배경 음악, 효과음, 룸 톤 추가
- 볼륨, EQ, 컴프레션을 조정해 전체 믹스와 맞추기
- Premiere Pro, Final Cut, DaVinci Resolve 같은 편집기에서 영상과 싱크 맞추기
이처럼 dialogue-audio는 더 큰 오디오·영상 제작 워크플로 안에서 핵심 멀티 스피커 퍼포먼스를 만들어 주는 빌딩 블록 역할을 하고, 세부적인 믹싱은 기존에 쓰는 도구로 마무리할 수 있습니다.
7. 리포지토리에서 살펴볼 파일
설치 후에는 inferen-sh/skills 리포지토리에서 스킬 정의를 확인해 보다 깊이 있는 내용을 살펴볼 수 있습니다.
SKILL.md— dialogue-audio 워크플로에 대한 기본 설명, 빠른 시작, 사용 노트
이 파일들을 참고해 자신의 자동화나 CI 파이프라인에 맞게 설정을 조정할 수 있습니다.
자주 묻는 질문 (FAQ)
dialogue-audio는 정말 두 명의 화자만 지원하나요?
네. dialogue-audio 스킬은 Dia TTS를 통해 동작하며, 한 번의 생성에서 최대 두 명의 화자만 지원합니다. 이를 위해 [S1], [S2] 태그를 사용합니다. 등장인물이 더 많다면 다음 방법을 고려해 보세요.
- 한 번에 두 명에 집중해 부분별로 생성하거나,
- 대본을 여러 구간으로 나눈 뒤 각각 생성하여 후반작업에서 이어 붙이기
dialogue-audio를 쓰려면 inference.sh CLI가 꼭 필요한가요?
네. dialogue-audio 스킬은 **inference.sh CLI (infsh)**에 의존합니다. infsh를 설치하고 infsh login으로 로그인한 후, infsh app run falai/dia-tts 명령에 프롬프트를 넘겨야 합니다. infsh가 없으면 해당 워크플로 안에서 Dia TTS 앱을 호출할 수 없습니다.
ElevenLabs 음성을 화자별로 직접 선택할 수 있나요?
리포지토리 문서에 따르면, 음성은 화자별로 자동 할당됩니다. [S1]은 한 가지 음성에, [S2]는 다른 음성에 매핑되며, 세션 내에서는 일관되게 유지됩니다. 스킬 문서에는 화자별 음성을 ID로 직접 지정하는 방법이 안내되어 있지 않으므로, 음성 선택은 프롬프트가 아니라 Dia TTS / inference.sh 설정에서 관리된다고 이해하는 것이 좋습니다.
대사에서 감정이나 강도를 어떻게 조절하나요?
이 스킬은 별도의 감정 슬라이더 대신 프롬프트 설계와 문장부호에 의존합니다. 예를 들어 다음과 같이 할 수 있습니다.
- "shouted", "whispered", "nervously"와 같은 표현을 사용해 말투를 암시
...,!,?등 문장부호를 조절해 멈춤 길이와 강조를 조정- 필요할 때
(whispering),(frustrated)같은 짧은 괄호 속 지시를 추가
작게 바꾼 버전을 여러 번 실행해 보면서 모델의 반응을 듣고, 프로젝트에 어울리는 스타일을 찾아가는 방식이 좋습니다.
dialogue-audio는 장편 오디오북에도 적합한가요?
두 명의 대화가 중심인 구간이라면 장편 오디오북에서도 충분히 활용할 수 있습니다. 분량이 길다면 다음을 권장합니다.
- 대본을 장면이나 챕터 단위로 나누기
- 구간별로 오디오를 생성해 DAW에서 정리·관리
- 구간마다 태그와 톤이 일관되도록 관리
화자가 많거나, 내레이션 스타일이 복잡한 오디오북이라면 이 두 화자 중심 스킬 외에 추가 TTS 구성도 함께 고려해야 합니다.
dialogue-audio를 더 큰 자동화 워크플로에 통합할 수 있나요?
가능합니다. dialogue-audio는 infsh CLI 기반이기 때문에 스크립트나 자동화 환경과 궁합이 좋습니다.
infsh app run falai/dia-tts명령을 셸 스크립트에 통합- CI/CD 파이프라인이나 스케줄 작업에서 자동으로 생성 실행
inferen-sh/skills의 다른 스킬들과 조합해 더 큰 콘텐츠 파이프라인 구성
재현 가능한 텍스트 기반 오디오 생성 워크플로를 원하는 개발자 및 기술 사용자에게 특히 유용합니다.
dialogue-audio를 쓰지 않는 것이 좋은 경우는 언제인가요?
다음과 같은 경우에는 다른 방법을 고려하는 것이 좋습니다.
- 한 번에 두 명을 초과하는 목소리가 필요한 경우
- 커맨드라인을 사용하지 않고 GUI만으로 작업하고 싶은 경우
- 대사 생성뿐 아니라 음악, 효과음, 믹싱까지 자동으로 처리되는 올인원 도구를 원하는 경우
이럴 때는 멀티 스피커 TTS 서비스나 전문 오디오 도구를 DAW와 함께 사용하고, 깔끔한 두 사람 대화가 핵심일 때에만 dialogue-audio를 사용하는 구성이 더 적합합니다.
전체 설정은 어디에서 확인할 수 있나요?
inferen-sh/skills 리포지토리에서 dialogue-audio 섹션을 열어보세요.
- Repo:
https://github.com/inferen-sh/skills - Skill path:
tools/audio/dialogue-audio
Dia TTS 연동 방식과 CLI 명령에 대한 최신 안내를 이해하려면 먼저 SKILL.md부터 살펴보는 것을 추천합니다.
