I

dialogue-audio

작성자 inferen-sh

inference.sh CLI를 통해 Dia TTS 및 ElevenLabs를 사용해 현실감 있는 멀티 스피커 대화 오디오를 생성합니다. dialogue-audio 스킬은 팟캐스트, 오디오북, 설명 영상, 캐릭터 연기 등 대화형 콘텐츠에서 화자, 감정, 속도, 대화 흐름을 세밀하게 제어할 수 있게 도와줍니다.

Stars0
즐겨찾기0
댓글0
카테고리Voice Generation
설치 명령어
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
개요

개요

dialogue-audio 스킬로 할 수 있는 일

dialogue-audio 스킬은 작성한 대사를 Dia TTSinference.sh (infsh) CLI를 이용해 자연스럽게 들리는 멀티 스피커 오디오로 변환합니다. 내부적으로는 ElevenLabs급 음성을 활용합니다.

이 스킬은 다음과 같은 용도를 위해 설계되었습니다.

  • 두 인물의 대화
  • 팟캐스트 스타일의 대화 및 인터뷰
  • 화자가 번갈아 등장하는 오디오북 장면
  • 진행자/게스트 형식의 설명형 콘텐츠
  • 캐릭터 대사 및 보이스 액팅 프로토타입

이 스킬이 중점적으로 다루는 부분은 다음과 같습니다.

  • [S1], [S2]와 같은 간단한 태그를 이용한 화자 분리
  • 세션 내 화자별 일관된 음성 유지
  • 단어 선택과 문장부호를 통한 감정·표현 제어
  • 대화가 주고받는 속도와 흐름 컨트롤
  • 생성된 오디오를 실제 미디어 작업 흐름에 넣기 위한 후반작업 가이드

두 사람 대본을 커맨드라인에서 세련된 대화 오디오로 자동 변환하고 싶다면, dialogue-audio는 그 사용 사례에 맞춰 만들어진 스킬입니다.

이 스킬이 잘 맞는 사용자

다음에 해당한다면 이 스킬이 잘 맞습니다.

  • 대화를 기획하거나 시뮬레이션해 보고 싶은 팟캐스터
  • 타임라인에 보이스 트랙을 얹어야 하는 오디오 프로듀서 또는 영상 편집자
  • 대사가 많은 장면을 쓰는 작가 또는 시나리오 작가
  • CLI와 재현 가능한 워크플로를 선호하는 개발자 또는 자동화 중심 크리에이터

다음과 같은 경우에는 적합하지 않을 수 있습니다.

  • 한 번에 두 명을 초과하는 화자가 필요한 경우
  • 복잡한 사운드 디자인, 음악, 믹싱을 자동으로 처리하고 싶은 경우
  • 커맨드라인 대신 클릭 위주의 GUI만 사용하고 싶은 경우

이러한 요구가 있다면, 별도의 DAW 도구나 멀티 스피커 TTS 서비스를 함께 사용하고, 핵심이 되는 두 사람 대화 트랙만 dialogue-audio로 생성하는 방식을 추천합니다.

필수 요구사항 한눈에 보기

dialogue-audio를 제대로 활용하려면 다음이 필요합니다.

  • inference.sh CLI (infsh) 접근 권한
  • 터미널 또는 커맨드라인 환경 (macOS, Linux, 또는 셸이 설치된 Windows)
  • 텍스트 프롬프트를 편집하고 CLI 명령을 실행해 본 기본적인 경험

사용 방법

1. dialogue-audio 스킬 설치하기

npx를 사용해 Agent 환경에 dialogue-audio 스킬을 추가할 수 있습니다.

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

이 명령은 inferen-sh/skills 리포지토리에서 dialogue-audio 설정을 가져와 재사용 가능한 워크플로로 사용할 수 있게 합니다.

다음으로 inference.sh CLI (infsh)가 설치되어 있는지 확인하십시오. 공식 설치 안내를 따르세요.

  • CLI install instructions: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

설치 후에는 다음으로 인증을 완료합니다.

infsh login

2. 핵심 워크플로 이해하기

dialogue-audio의 핵심은 infsh를 통해 Dia TTS 앱을 호출하는 것입니다.

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

이 명령은 다음을 수행합니다.

  • falai/dia-tts 앱을 호출
  • prompt를 담은 JSON 입력 페이로드 전송
  • [S1], [S2] 태그로 화자가 바뀌는 지점 표시
  • 전체 대화 구간에 대한 대화 오디오 생성 후 반환

dialogue-audio 스킬은 이 패턴을 의견 기반(opinionated) 워크플로로 감싸, 프롬프트 구조화, 두 화자 처리, 표현·속도 조정 반복 작업을 더 쉽게 할 수 있게 도와줍니다.

3. 화자 태그 제대로 사용하기

Dia TTS는 누가 말하는지 파악하기 위해 화자 태그에 의존합니다.

  • [S1] — 화자 1 (자동으로 Voice A 배정)
  • [S2] — 화자 2 (자동으로 Voice B 배정)

핵심 규칙은 다음과 같습니다.

  • 각 발화를 시작할 때 항상 해당 화자 태그로 문장을 시작할 것
  • 태그는 반드시 대문자로: [S1], [S2] (예: [s1], [speaker1]는 사용하지 않음)
  • 한 번 생성할 때 최대 2명의 화자만 사용 가능
  • 각 화자는 한 세션 동안 일관된 음성을 유지

깔끔한 2인 대화 프롬프트 예시는 다음과 같습니다.

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. 감정, 톤, 속도 조절하기

dialogue-audio 스킬은 자연스러운 글쓰기 신호를 활용해 생성 오디오의 느낌을 조정하도록 권장합니다.

  • 쉼표, 줄임표, 느낌표 등 문장부호를 활용해 쉼, 멈춤, 강조를 표현
  • 짧은 문장은 빠르고 경쾌한 대화 느낌을 만듭니다.
  • 긴 구문이나 서술형 표현은 차분하고 사색적인 톤에 적합합니다.
  • 필요할 때 괄호 안에 **간단한 무대 지시(stage directions)**를 넣어 감정을 힌트로 줄 수 있습니다.
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

작게 표현을 바꾸어 보면서 명령을 다시 실행해 보면, 톤과 속도가 어떻게 달라지는지 바로 확인할 수 있습니다.

5. 대화 흐름을 반복 개선하기

dialogue-audio로 더 좋은 결과를 얻으려면 다음을 권장합니다.

  • 전체 대화를 텍스트 에디터에서 먼저 작성
  • 모든 대사가 올바르게 태그되어 있는지, 잘못된 태그가 끼어 있지 않은지 확인
  • 각 발화는 간결하게 유지; 너무 긴 독백은 대화처럼 느껴지지 않을 수 있습니다.
  • 장면이 복잡하다면 필요 시 여러 번에 나누어 생성한 후, 편집기에서 이어 붙이기

infsh app run falai/dia-tts 명령의 프롬프트를 조금씩 조정해 가며 재실행하면, 프로젝트에 맞는 타이밍과 감정선을 맞출 수 있습니다.

6. 후반작업 및 워크플로 통합

Dia TTS 출력은 일반적인 도구에서 불러올 수 있는 오디오 파일입니다. dialogue-audio 스킬의 역할은 음성 생성에 집중되어 있지만, 이후에 다음과 같은 작업을 할 수 있습니다.

  • 생성된 대화를 DAW(예: Audacity, Reaper, Logic Pro)에 임포트
  • 배경 음악, 효과음, 룸 톤 추가
  • 볼륨, EQ, 컴프레션을 조정해 전체 믹스와 맞추기
  • Premiere Pro, Final Cut, DaVinci Resolve 같은 편집기에서 영상과 싱크 맞추기

이처럼 dialogue-audio는 더 큰 오디오·영상 제작 워크플로 안에서 핵심 멀티 스피커 퍼포먼스를 만들어 주는 빌딩 블록 역할을 하고, 세부적인 믹싱은 기존에 쓰는 도구로 마무리할 수 있습니다.

7. 리포지토리에서 살펴볼 파일

설치 후에는 inferen-sh/skills 리포지토리에서 스킬 정의를 확인해 보다 깊이 있는 내용을 살펴볼 수 있습니다.

  • SKILL.md — dialogue-audio 워크플로에 대한 기본 설명, 빠른 시작, 사용 노트

이 파일들을 참고해 자신의 자동화나 CI 파이프라인에 맞게 설정을 조정할 수 있습니다.


자주 묻는 질문 (FAQ)

dialogue-audio는 정말 두 명의 화자만 지원하나요?

네. dialogue-audio 스킬은 Dia TTS를 통해 동작하며, 한 번의 생성에서 최대 두 명의 화자만 지원합니다. 이를 위해 [S1], [S2] 태그를 사용합니다. 등장인물이 더 많다면 다음 방법을 고려해 보세요.

  • 한 번에 두 명에 집중해 부분별로 생성하거나,
  • 대본을 여러 구간으로 나눈 뒤 각각 생성하여 후반작업에서 이어 붙이기

dialogue-audio를 쓰려면 inference.sh CLI가 꼭 필요한가요?

네. dialogue-audio 스킬은 **inference.sh CLI (infsh)**에 의존합니다. infsh를 설치하고 infsh login으로 로그인한 후, infsh app run falai/dia-tts 명령에 프롬프트를 넘겨야 합니다. infsh가 없으면 해당 워크플로 안에서 Dia TTS 앱을 호출할 수 없습니다.

ElevenLabs 음성을 화자별로 직접 선택할 수 있나요?

리포지토리 문서에 따르면, 음성은 화자별로 자동 할당됩니다. [S1]은 한 가지 음성에, [S2]는 다른 음성에 매핑되며, 세션 내에서는 일관되게 유지됩니다. 스킬 문서에는 화자별 음성을 ID로 직접 지정하는 방법이 안내되어 있지 않으므로, 음성 선택은 프롬프트가 아니라 Dia TTS / inference.sh 설정에서 관리된다고 이해하는 것이 좋습니다.

대사에서 감정이나 강도를 어떻게 조절하나요?

이 스킬은 별도의 감정 슬라이더 대신 프롬프트 설계문장부호에 의존합니다. 예를 들어 다음과 같이 할 수 있습니다.

  • "shouted", "whispered", "nervously"와 같은 표현을 사용해 말투를 암시
  • ..., !, ? 등 문장부호를 조절해 멈춤 길이와 강조를 조정
  • 필요할 때 (whispering), (frustrated) 같은 짧은 괄호 속 지시를 추가

작게 바꾼 버전을 여러 번 실행해 보면서 모델의 반응을 듣고, 프로젝트에 어울리는 스타일을 찾아가는 방식이 좋습니다.

dialogue-audio는 장편 오디오북에도 적합한가요?

두 명의 대화가 중심인 구간이라면 장편 오디오북에서도 충분히 활용할 수 있습니다. 분량이 길다면 다음을 권장합니다.

  • 대본을 장면이나 챕터 단위로 나누기
  • 구간별로 오디오를 생성해 DAW에서 정리·관리
  • 구간마다 태그와 톤이 일관되도록 관리

화자가 많거나, 내레이션 스타일이 복잡한 오디오북이라면 이 두 화자 중심 스킬 외에 추가 TTS 구성도 함께 고려해야 합니다.

dialogue-audio를 더 큰 자동화 워크플로에 통합할 수 있나요?

가능합니다. dialogue-audio는 infsh CLI 기반이기 때문에 스크립트나 자동화 환경과 궁합이 좋습니다.

  • infsh app run falai/dia-tts 명령을 셸 스크립트에 통합
  • CI/CD 파이프라인이나 스케줄 작업에서 자동으로 생성 실행
  • inferen-sh/skills의 다른 스킬들과 조합해 더 큰 콘텐츠 파이프라인 구성

재현 가능한 텍스트 기반 오디오 생성 워크플로를 원하는 개발자 및 기술 사용자에게 특히 유용합니다.

dialogue-audio를 쓰지 않는 것이 좋은 경우는 언제인가요?

다음과 같은 경우에는 다른 방법을 고려하는 것이 좋습니다.

  • 한 번에 두 명을 초과하는 목소리가 필요한 경우
  • 커맨드라인을 사용하지 않고 GUI만으로 작업하고 싶은 경우
  • 대사 생성뿐 아니라 음악, 효과음, 믹싱까지 자동으로 처리되는 올인원 도구를 원하는 경우

이럴 때는 멀티 스피커 TTS 서비스나 전문 오디오 도구를 DAW와 함께 사용하고, 깔끔한 두 사람 대화가 핵심일 때에만 dialogue-audio를 사용하는 구성이 더 적합합니다.

전체 설정은 어디에서 확인할 수 있나요?

inferen-sh/skills 리포지토리에서 dialogue-audio 섹션을 열어보세요.

  • Repo: https://github.com/inferen-sh/skills
  • Skill path: tools/audio/dialogue-audio

Dia TTS 연동 방식과 CLI 명령에 대한 최신 안내를 이해하려면 먼저 SKILL.md부터 살펴보는 것을 추천합니다.

평점 및 리뷰

아직 평점이 없습니다
리뷰 남기기
이 스킬의 평점과 리뷰를 남기려면 로그인하세요.
G
0/10000
최신 리뷰
저장 중...