elevenlabs-dialogue
작성자 inferen-shinference.sh CLI를 통해 ElevenLabs로 다중 화자 대화 오디오를 매끄럽게 생성합니다. 구조화된 스크립트를 팟캐스트, 오디오북, 설명 영상, 튜토리얼, 캐릭터 대사, 영상 대본 등에 쓸 수 있는 자연스러운 다인 대화 음성(단일 파일)으로 변환합니다.
개요
elevenlabs-dialogue란?
elevenlabs-dialogue 스킬은 구조화된 스크립트를 ElevenLabs 보이스를 활용한 자연스러운 다중 화자 대화 오디오로 바꿔주는 특화 오디오 생성 도구입니다. inference.sh (infsh) CLI를 통해 동작하며, 터미널에서 직접, 혹은 Bash를 호출할 수 있는 에이전트에서 곧바로 완성도 높은 대화 음성을 만들 수 있습니다.
단일 대사나 단일 보이스 클립을 손으로 이어 붙이는 대신, 간단한 JSON 구조(각 라인별 text + voice)로 대화 세그먼트를 정의하면 됩니다. 이 스킬은 해당 JSON을 infsh를 통해 elevenlabs/text-to-dialogue 앱으로 보내고, 하나로 믹스된 대화 오디오 파일을 반환합니다.
elevenlabs-dialogue는 누구를 위한 스킬인가?
이 스킬은 반복 가능하고 스크립트 기반의 대화 오디오가 필요할 때, 특히 하나의 트랙 안에 여러 캐릭터나 화자가 등장해야 하는 작업을 위한 도구입니다.
- 빠르게 대화 초안이나 합성 Q&A 보이스가 필요한 팟캐스트 / 인터뷰 제작자
- 두 명 이상의 화자가 등장하는 설명 영상, 워크스루, 튜토리얼을 만드는 영상·강의 제작자
- 서로 다른 캐릭터 목소리가 필요한 오디오북, 소설, 게임 작가
- 대화형 데모나 제품 투어를 제작하는 제품·마케팅 팀
- ElevenLabs 대화 생성을 CLI 기반으로 CI, 에이전트, 배치 워크플로에 통합하고 싶은 개발자 및 자동화 중심 사용자
이미 커맨드라인 중심으로 작업하거나 Bash(infsh *)를 실행할 수 있는 에이전트 스킬을 쓰고 있다면, elevenlabs-dialogue는 전체 대화를 스크립트로 관리하는 깨끗한 방법을 제공합니다.
elevenlabs-dialogue는 어떤 문제를 해결하나요?
이 스킬은 다음과 같은 점에서 도움을 줍니다.
- 한 번에 여러 보이스 대화 생성 – 여러 화자를 지정하면, 바로 사용 가능한 단일 오디오 파일로 반환합니다.
- 스크립트 기반 워크플로 유지 – 모든 대화를 구조화된 JSON으로 정의할 수 있어 버전 관리와 자동화에 적합합니다.
- 보이스 캐스팅 제어 – 22개 이상의 ElevenLabs 보이스 중에서 상황에 맞게 조합해 쓸 수 있습니다.
- 빠른 반복 작업 – 대사, 보이스, 순서만 바꾸고 전체 대화를 재생성해 빠르게 수정·반복할 수 있습니다.
특히 일회성 대사가 아니라, 일관되고 반복 가능한 대화 자산이 필요할 때 강력합니다.
언제 elevenlabs-dialogue를 쓰는 게 적합할까요?
다음과 같은 경우에 elevenlabs-dialogue를 사용하는 것이 좋습니다.
- CLI 사용에 익숙하거나 에이전트를 통해 커맨드를 실행할 수 있을 때
- 한 명의 내레이터가 아니라 여러 화자가 등장하는 오디오가 필요할 때
- 대화가 스크립트로 준비된 콘텐츠일 때 (팟캐스트, 설명/교육 콘텐츠, 스토리 씬 등)
- inference.sh를 통해 ElevenLabs 프리미엄 보이스를 활용하고 싶을 때
다음과 같은 경우에는 적합하지 않을 수 있습니다.
- 한 명의 보이스가 긴 텍스트를 읽어 주기만 하면 되는 경우 (더 단순한 TTS 도구면 충분할 수 있음)
- inference.sh CLI를 설치하고 인증할 수 없는 환경인 경우
- 강도 높은 포스트 프로덕션 편집이 필요한 경우 (생성된 오디오는 최종 다듬기를 위해 어차피 DAW에 가져와 편집하는 게 일반적입니다.)
사용 방법
선행 조건
elevenlabs-dialogue 스킬을 사용하기 전에 다음을 준비해야 합니다.
- 정상 동작하는 inference.sh CLI (
infsh) 설치 - inference.sh를 통해 ElevenLabs 기반 앱
elevenlabs/text-to-dialogue에 접근할 수 있는 권한 - **Bash에서
infsh**를 실행할 수 있는 환경(로컬 또는 에이전트)
업스트림 SKILL 정의에는 다음과 같이 명시되어 있습니다.
allowed-tools: Bash(infsh *)– 즉, Bash에서infsh커맨드를 중심으로 사용하도록 설계되어 있다는 의미입니다.
1. elevenlabs-dialogue 스킬 설치
inferen-sh/skills 리포지토리에서 이 스킬을 추가하려면 표준 스킬 설치 명령을 사용합니다.
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dialogue
이 명령은 elevenlabs-dialogue 설정과 메타데이터를 스킬 환경으로 가져와, 이 레지스트리를 이해하는 에이전트나 워크플로에서 스킬을 호출할 수 있게 합니다.
설치 후, 업스트림 퀵 스타트와 보이스 관련 추가 정보를 보고 싶다면 스킬 디렉터리의 SKILL.md 파일을 열어보세요.
2. inference.sh (infsh) 설정
이 스킬은 infsh CLI를 사용해 ElevenLabs 대화 앱을 호출합니다.
- 공식 안내에 따라 inference.sh CLI를 설치합니다.
- SKILL 파일에 언급된
cli-install.md를 참고하세요 (URL:https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md).
- SKILL 파일에 언급된
- 터미널에서 로그인해
infsh가 계정과 앱에 접근할 수 있도록 합니다.
infsh login
대화 앱을 실행하기 전에 이 로그인 과정이 정상적으로 완료됐는지 확인하세요.
3. 기본 대화 생성 실행
infsh 설정이 끝나면 단일 커맨드로 다중 화자 대화를 생성할 수 있습니다. 업스트림 퀵 스타트 예시는 다음과 같습니다.
infsh app run elevenlabs/text-to-dialogue --input '{
"segments": [
{"text": "Have you tried the new feature?", "voice": "george"},
{"text": "Not yet, but I heard it is amazing.", "voice": "aria"},
{"text": "You should check it out today.", "voice": "george"}
]
}'
핵심 포인트는 다음과 같습니다.
elevenlabs/text-to-dialogue가 elevenlabs-dialogue를 구동하는 앱입니다.segments는 대화 턴(turn)들의 배열입니다.- 각 segment에는 다음이 포함됩니다.
text: 화자가 말하는 내용voice: 사용할 ElevenLabs 보이스 이름
출력 결과는 모든 세그먼트가 순서대로 이어진 하나의 합성 대화 오디오 파일입니다.
4. 나만의 대화 스크립트 구성하기
실제 프로젝트에서 elevenlabs-dialogue를 효율적으로 사용하려면 아래 순서를 따르세요.
- 텍스트 에디터에서 대화를 먼저 작성합니다.
- 이를 JSON
segments구조로 변환합니다. - 각 캐릭터/화자를 사용할 보이스 이름에 매핑합니다.
- 위 예시처럼
infsh app run으로 실행합니다.
간단한 제품 데모 대화 예시는 다음과 같습니다.
infsh app run elevenlabs/text-to-dialogue --input '{
"segments": [
{"text": "Welcome to the analytics dashboard.", "voice": "aria"},
{"text": "Here you can track your key performance metrics.", "voice": "brian"},
{"text": "Let me show you how to create a new report.", "voice": "aria"}
]
}'
이 패턴은 스크립트, CI, JSON을 구성하고 Bash를 호출할 수 있는 모든 에이전트에서 잘 동작합니다.
5. 보이스 선택 및 조합
SKILL 문서에는 각 화자에 사용할 수 있는 22개+ 프리미엄 보이스와 함께 다음과 같은 인기 조합이 소개되어 있습니다.
- 인터뷰: 전문적인 Q&A 톤을 위한
george+aria - 캐주얼 대화: 편안한 분위기의
brian+sarah
elevenlabs-dialogue를 최대한 잘 활용하려면 다음을 참고하세요.
- 각 캐릭터에 일관된 보이스를 고정해 청자가 누가 말하는지 쉽게 따라갈 수 있게 합니다.
- 콘텐츠 유형에 따라 서로 다른 조합을 사용합니다. (예: B2B 설명에는 조금 더 포멀한 보이스, 스토리텔링에는 더 따뜻한 보이스 등)
- 프로젝트 안에 작은 매핑 파일(예:
voices.json)을 두고, 캐릭터별로 어떤 보이스를 쓸지 정의해 두면 관리가 편합니다.
6. 워크플로에 통합하기
elevenlabs-dialogue는 CLI 기반이기 때문에 자동화된 오디오 워크플로에 자연스럽게 녹아듭니다.
- 오디오·영상 제작 – 대화 트랙을 생성한 뒤, DAW 또는 영상 편집기에 가져와 음악, 사운드 디자인, 타이밍 작업을 진행합니다.
- 문서·튜토리얼 제작 – 제품 워크스루를 스크립트로 작성하고, 대화형 내레이션으로 생성합니다.
- 에이전트 통합 – 에이전트가 컨텍스트나 사용자 프롬프트를 기반으로
segmentsJSON을 구성한 뒤,infsh app run을 호출해 필요할 때마다 대화를 생성하도록 할 수 있습니다.
이 스킬 자체는 편집, 레이어링, 배포 기능을 제공하지 않고 생성에만 집중합니다. 믹싱, 자르기, 내보내기 등 후속 작업은 다운스트림 도구에서 맡는 구조입니다.
자주 묻는 질문 (FAQ)
elevenlabs-dialogue 스킬은 정확히 무엇을 하나요?
elevenlabs-dialogue 스킬은 inference.sh CLI를 통해 ElevenLabs 보이스로 다중 화자 대화 생성을 오케스트레이션합니다. 텍스트와 보이스 정보가 들어 있는 대화 세그먼트 목록을 입력하면, 각 라인이 지정된 보이스로 순서대로 재생되는 단일 믹스 오디오 파일을 생성해 돌려줍니다.
elevenlabs-dialogue는 일반 텍스트-투-스피치와 무엇이 다른가요?
일반적인 텍스트-투-스피치 도구는 보통 한 명의 화자 혹은 하나의 텍스트 블록에 대해 오디오를 생성합니다. elevenlabs-dialogue는 대화를 위해 설계되었습니다. 여러 줄의 대사, 여러 보이스, 그리고 하나의 최종 오디오 트랙을 목표로 합니다. 그래서 인터뷰, 캐릭터 대사, 스크립트 기반 대화, 두 명의 진행자가 있는 설명 영상 등에 훨씬 더 잘 맞습니다.
elevenlabs-dialogue를 쓰려면 inference.sh를 꼭 설치해야 하나요?
네. 이 스킬은 inference.sh (infsh) CLI에 의존합니다. 다음 단계를 반드시 거쳐야 합니다.
- 공식
cli-install.md안내에 따라 CLI를 설치합니다. infsh login을 실행해 인증을 완료합니다.
infsh가 없으면 elevenlabs-dialogue 관련 커맨드와, 이를 사용하는 에이전트는 동작하지 않습니다.
ElevenLabs 보이스는 아무거나 선택해서 쓸 수 있나요?
SKILL 문서에는 사용할 수 있는 22개 이상의 프리미엄 보이스가 언급되어 있습니다. 각 세그먼트에서 보이스 이름을 직접 지정해 사용합니다. 예를 들어 "voice": "george"나 "voice": "aria"처럼 입력합니다. 실제 보이스 종류와 이름은 elevenlabs/text-to-dialogue 뒤편의 ElevenLabs 연동에서 관리합니다.
elevenlabs-dialogue는 어떤 프로젝트에 가장 잘 맞나요?
다음과 같은 용도에 특히 잘 어울립니다.
- 합성 팟캐스트 세그먼트나 인터뷰 모의 녹음
- 두 명 이상의 진행자가 나오는 영상 설명 콘텐츠
- 여러 캐릭터가 등장하는 오디오북 장면
- 서로 다른 화자가 사용자를 안내하는 튜토리얼·제품 투어
- 프로토타입, 데모, 게임 디자인용 캐릭터 대화
한 명의 내레이터만 필요하다면 더 단순한 텍스트-투-스피치 도구가 충분할 수 있습니다. elevenlabs-dialogue는 여러 보이스가 상호작용하는 상황에서 진가를 발휘합니다.
생성된 오디오는 나중에 편집할 수 있나요?
네. elevenlabs-dialogue는 대화 트랙 생성에 집중합니다. 생성된 오디오 파일은 어떤 오디오 편집기나 영상 편집기에나 가져와 다음과 같이 작업할 수 있습니다.
- 타이밍과 말 속도 조정
- 음악, 효과음, 앰비언스 추가
- EQ, 컴프레션, 마스터링 적용
이 스킬 자체에는 편집 기능이 포함되어 있지 않으며, 기존 오디오/영상 제작 워크플로에 조합해 쓰는 것을 전제로 합니다.
elevenlabs-dialogue를 빠르게 시작하려면 어떻게 하면 되나요?
- 스킬을 설치합니다.
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-dialogue - inference.sh CLI를 설치하고
infsh login으로 로그인합니다. - 위의 퀵 스타트 예제를 복사해
infsh app run으로 실행합니다. - 샘플
segments를 자신의 스크립트와 보이스 설정으로 교체합니다.
이후에는 대화 구조를 계속 다듬으면서, 스크립트나 에이전트, 빌드 파이프라인 등에 이 커맨드를 통합해 사용할 수 있습니다.
elevenlabs-dialogue에 대한 더 자세한 정보는 어디에서 볼 수 있나요?
가장 정확하고 최신의 사용 안내는 inferen-sh/skills 리포지토리의 tools/audio/elevenlabs-dialogue 경로에 있는 업스트림 SKILL.md 파일에서 확인할 수 있습니다. 이 파일에는 공식 설명, 퀵 스타트 스니펫, 보이스 조합 가이드 등이 포함되어 있으며, 이 개요 문서의 기반이 되는 내용입니다.
