elevenlabs-voice-changer

작성자 inferen-sh

inference.sh CLI(`infsh`)를 사용하는 ElevenLabs 음성 변조 스킬로, 녹음된 음성을 내용과 감정은 그대로 유지한 채 다른 합성 음성으로 변환합니다. eleven_multilingual_sts_v2(70개+ 언어)와 eleven_english_sts_v2를 지원하며, 음성-대-음성 변환, 억양 변경, 음성 변조를 이용한 콘텐츠 제작, 더빙, 캐릭터 보이스에 활용할 수 있습니다.

Stars0

즐겨찾기0

카테고리Voice Generation

설치 명령어

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

Audio Video Marketing Social Media Ai

개요

elevenlabs-voice-changer란?

elevenlabs-voice-changer는 ElevenLabs 음성-대-음성(voice changer) 기능을 inference.sh 커맨드라인 인터페이스(infsh)와 연결해 주는 스킬입니다. 이미 가지고 있는 오디오 녹음을 보내면, 동일한 발화 내용과 표현 방식은 유지한 채 다른 합성 음성으로 변환된 결과를 받을 수 있습니다.

내부적으로는 infsh app run elevenlabs/voice-changer를 통해 ElevenLabs voice-changer 앱을 호출하므로, 별도로 API를 직접 연동할 필요가 없습니다. 입력 오디오와 목표 음성을 지정하면, 서비스가 변환된 오디오를 반환합니다.

주요 기능

Speech-to-speech 변환 – 기존 음성을 다시 녹음할 필요 없이 새로운 목소리로 바꿉니다.
다국어 지원(70개+ 언어) – eleven_multilingual_sts_v2 모델 사용.
영어 최적화 모델 – eleven_english_sts_v2로 더 높은 품질의 영어 음성을 생성.
억양·스타일 변경 – ElevenLabs의 프리미엄 보이스로 억양, 톤, 페르소나를 바꿀 수 있습니다.
음성 위장 및 프라이버시 보호 – 실제 음성을 익명화하거나 마스킹해 공개 콘텐츠에 활용할 수 있습니다.

어떤 사용자에게 적합한가요?

다음과 같은 경우에 특히 잘 맞는 스킬입니다.

YouTube, TikTok, 기타 소셜 미디어 콘텐츠에서 내레이션 목소리를 바꾸거나 업그레이드하고 싶을 때
팟캐스트나 보이스오버를 제작하면서 언어, 억양, 목소리를 빠르게 교체해야 할 때
마케팅 영상·제품 설명 영상에서 여러 브랜드 보이스를 쓰고 싶지만 각기 다른 성우를 고용하기 어려울 때
AI 캐릭터나 데모를 만들면서 일관되고 재사용 가능한 목소리가 필요할 때

반대로, 다음과 같은 경우에는 덜 적합합니다.

타임라인 편집이 가능한 GUI 기반 워크플로만 필요할 때(이 스킬은 CLI 중심입니다).
완전한 오프라인 처리 환경이 필요할 때(inference.sh와 ElevenLabs 클라우드에 의존합니다).
EQ, 믹싱, 멀티트랙 편집 같은 세밀한 오디오 엔지니어링 도구가 필요할 때 – 이 스킬의 초점은 음성 변환이며, 전체 DAW 기능은 제공하지 않습니다.

모델 및 음성 옵션

elevenlabs-voice-changer 스킬은 레포지토리에서 설명된 것과 동일한 모델을 제공합니다.

Multilingual STS v2 – 모델 ID: eleven_multilingual_sts_v2 (기본값, 70개+ 언어 지원).
English STS v2 – 모델 ID: eleven_english_sts_v2 (영어 음성에 최적화).

또한 ElevenLabs TTS 제품에서 제공하는 22개+ 프리미엄 보이스를 사용할 수 있으며, 대표적인 기본 보이스는 다음과 같습니다.

george – 영국식, 권위 있는 톤(문서의 기본 보이스).
aria – 미국식, 대화체.

앱을 호출할 때 voice 파라미터를 넘겨 이 보이스들을 선택합니다.

사용 방법

1. 사전 준비 및 설치

elevenlabs-voice-changer를 사용하기 전에 inference.sh CLI를 설치하고 인증을 완료해야 합니다.

inference.sh CLI(infsh) 설치
레포지토리의 공식 안내를 따라 설치합니다:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
inference.sh 로그인 – 계정으로 로그인합니다.
```
infsh login
```
스킬 추가(Agent Skills Finder / skills registry)
이 스킬을 skills 컬렉션 내에서 사용한다면 다음 명령으로 추가합니다.
```
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
```

위 단계를 완료하면, infsh를 통해 ElevenLabs voice changer 앱을 호출할 준비가 됩니다.

2. 기본 음성 변환 실행

elevenlabs-voice-changer를 가장 빠르게 체험하는 방법은 스킬 문서에 제공된 예제를 실행하는 것입니다.

infsh login

# Transform voice
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

이 예제에서:

audio는 입력 녹음 파일을 가리키는 URL입니다(예: 온라인에 호스팅된 .mp3 파일).
voice는 목표 ElevenLabs 보이스 ID입니다(여기서는 aria).

앱은 이 녹음을 처리해, 동일한 발화 내용을 유지한 채 aria 목소리로 변환된 새 오디오 파일을 반환합니다.

3. 모델 및 언어 선택

기본적으로 이 스킬은 다음 모델을 사용하도록 구성되어 있습니다.

eleven_multilingual_sts_v2 – 70개+ 언어를 폭넓게 지원하는 모델.

사용 목적이 영어에 한정되어 있고, 영어 특화 모델을 쓰고 싶다면 앱 입력 또는 워크플로 설정에서 다음 모델을 사용하도록 구성하세요.

eleven_english_sts_v2 – 영어 발음 및 운율(프로소디)에 최적화된 모델.

모델 선택에 사용되는 필드는 ElevenLabs 앱 설정 내부에서 처리되지만, 모델을 지정할 때는 스킬 문서에 나와 있는 위 ID들을 그대로 사용하면 됩니다.

4. 다양한 목소리와 억양 실험하기

다른 억양이나 스타일을 테스트하려면, --input JSON의 voice 파라미터만 바꾸면 됩니다.

예시(패턴):

# British, authoritative
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'

# American, conversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

같은 원본 오디오를 여러 번 실행하면서 voice ID만 바꿔 보면, 프로젝트에 어울리는 보이스를 빠르게 비교·시청할 수 있습니다.

5. 기존 워크플로에 통합하기

elevenlabs-voice-changer는 전부 CLI를 통해 동작하기 때문에 스크립트나 자동화 파이프라인에 자연스럽게 통합할 수 있습니다.

배치 처리 – 오디오 URL 목록이나 사전 업로드된 녹음 파일을 루프 돌리면서 infsh app run을 반복 호출.
콘텐츠 현지화 – 한 번만 녹음한 내레이션을 서로 다른 시장에 맞춰 억양이나 목소기를 바꿔 배포.
음성 익명화 – 통화 녹음, 인터뷰, 사용자 제출 음성 등을 공개 전에 후처리해 개인정보를 보호.

더 큰 에이전트 프레임워크나 오케스트레이션 레이어를 사용 중이라면, 이 스킬을 파이프라인 내 "voice conversion" 또는 "dubbing" 단계로 호출해 사용할 수 있습니다.

6. 레포지토리에서 살펴볼 파일

inferen-sh/skills 레포지토리에서 이 스킬을 열면, 다음 파일부터 확인하는 것이 좋습니다.

SKILL.md – 스킬의 상위 개념 설명, 주요 기능, 바로 사용할 수 있는 빠른 시작 커맨드가 정리되어 있습니다.

skills 레포지토리의 다른 도구들에서 볼 수 있는 AGENTS.md, metadata.json, rules/, scripts/ 등의 파일은 스킬이 더 큰 에이전트 워크플로에서 어떻게 사용되는지 보여줍니다. elevenlabs-voice-changer의 경우에는 SKILL.md가 핵심 문서입니다.

자주 묻는 질문(FAQ)

elevenlabs-voice-changer는 실제로 무엇을 하나요?

elevenlabs-voice-changer는 inference.sh CLI를 통해 ElevenLabs 음성-대-음성 모델을 호출하여, 기존 음성 녹음을 다른 AI 생성 목소리로 변환합니다. 원본의 문장 내용과 감정은 유지하면서, 목소리의 톤과 캐릭터만 바꿔 줍니다.

elevenlabs-voice-changer는 어떻게 설치하나요?

이 스킬은 별도의 독립 실행 앱으로 설치하는 방식이 아닙니다. 대신, 다음 순서로 사용 준비를 합니다.

안내에 따라 infsh CLI를 설치합니다:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
infsh login을 실행해 인증합니다.

필요하다면, 다음 명령으로 skills 환경에 이 스킬을 등록합니다.

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer

이후에는 infsh app run elevenlabs/voice-changer 명령으로 ElevenLabs voice changer 앱을 호출해 사용할 수 있습니다.

ElevenLabs 계정이 꼭 필요하나요?

이 스킬은 inference.sh를 통해 실행되는 ElevenLabs 모델에 대한 래퍼 역할을 합니다. ElevenLabs 이용에 필요한 계정, 크레딧, 쿼터 등의 조건은 inference.sh 및 ElevenLabs 설정에 따라 적용됩니다. 최신 접근 정책과 요금 정책은 inference.sh와 ElevenLabs 공식 문서를 참고하세요.

클라우드 없이 로컬에서만 elevenlabs-voice-changer를 사용할 수 있나요?

레포지토리 문서에서는 infsh를 통해 온라인 ElevenLabs 앱에 접근하는 방식만 설명합니다. 완전한 오프라인 모드에 대한 안내는 제공되지 않습니다. inference.sh와 ElevenLabs 백엔드에 접속하기 위해 네트워크 연결이 필요하다고 보는 것이 좋습니다.

어떤 오디오 포맷을 입력으로 사용할 수 있나요?

예시에서는 HTTP로 제공되는 .mp3 파일("https://recording.mp3")을 사용합니다. 실제 지원 포맷과 파일 크기 제한은 ElevenLabs 앱 설정에 의해 결정됩니다. 일반적으로는 안정적인 URL에 호스팅된 mp3 같은 웹 표준 오디오 포맷을 사용하는 것이 좋습니다.

내가 만든 커스텀 보이스도 사용할 수 있나요?

스킬 설명은 george, aria 등 22개+ ElevenLabs 프리미엄 기본 보이스를 중심으로 하고 있으며, 커스텀 보이스 학습 플로우에 대해서는 다루지 않습니다. 자체 보이스를 훈련해 사용하고 싶다면 ElevenLabs 공식 문서를 참고해, 해당 커스텀 보이스가 speech-to-speech 앱과 어떻게 연동되는지 확인해야 합니다.

실시간 음성 변조에도 적합한가요?

레포지토리에서는 CLI를 통한 파일 기반 음성-대-음성 사용 예시만 제공하며, 녹음 파일 URL을 입력하면 처리된 파일을 돌려받는 구조입니다. 실시간 통화나 라이브 스트리밍용 음성 변환에 대해서는 설명되어 있지 않으므로, 이 스킬은 비동기 파일 기반 도구로 생각하는 것이 좋습니다.

어떤 경우에는 elevenlabs-voice-changer를 쓰지 않는 것이 좋을까요?

다음과 같은 경우에는 다른 도구를 고려하는 편이 낫습니다.

세밀한 오디오 믹싱·마스터링이 가능한 풀 기능 DAW나 논리니어 편집기가 필요한 경우
스트리밍이나 게임용 실시간·저지연 음성 효과가 필요한 경우
어떤 이유로든 클라우드 서비스를 전혀 사용할 수 없고, 모든 처리를 완전 오프라인으로 해야 하는 경우

CLI 기반으로 스크립트화·자동화 가능한 speech-to-speech 음성 변환이 필요하다면, elevenlabs-voice-changer는 매우 적합한 선택입니다.

설정을 어디에서 보고 수정할 수 있나요?

inferen-sh/skills GitHub 레포지토리에서 이 스킬은 다음 경로에 있습니다.

tools/audio/elevenlabs-voice-changer/

해당 디렉터리의 SKILL.md를 열어 공식 빠른 시작 예제, 지원 모델, 보이스 옵션을 확인하고, 예제 커맨드를 자신의 환경에 맞게 수정해 사용할 수 있습니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

elevenlabs-stt

by inferen-sh

inference.sh CLI를 통해 ElevenLabs Scribe v1/v2 모델을 사용하는 고정확도 음성 인식 스킬입니다. 회의, 팟캐스트 등 다양한 오디오 워크플로에서 전사, 화자 분리, 오디오 이벤트 태깅, 단어 단위 타임스탬프, 강제 정렬, 자막 생성 등을 지원합니다.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

inference.sh CLI를 통해 ElevenLabs로 다중 화자 대화 오디오를 매끄럽게 생성합니다. 구조화된 스크립트를 팟캐스트, 오디오북, 설명 영상, 튜토리얼, 캐릭터 대사, 영상 대본 등에 쓸 수 있는 자연스러운 다인 대화 음성(단일 파일)으로 변환합니다.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Kokoro TTS, DIA TTS, 그리고 inference.sh CLI를 활용해 텍스트에서 AI 기반 팟캐스트와 음성 콘텐츠를 생성합니다. 여러 보이스를 섞고, 음악을 추가하며, 팟캐스트·오디오북·오디오 뉴스레터용 전체 에피소드를 구성할 수 있습니다.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

inference.sh CLI를 통해 Dia TTS 및 ElevenLabs를 사용해 현실감 있는 멀티 스피커 대화 오디오를 생성합니다. dialogue-audio 스킬은 팟캐스트, 오디오북, 설명 영상, 캐릭터 연기 등 대화형 콘텐츠에서 화자, 감정, 속도, 대화 흐름을 세밀하게 제어할 수 있게 도와줍니다.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning은 CLI에서 사용할 수 있는 AI 음성 생성, 텍스트 음성 변환(TTS), 음성 클로닝 스킬로, inference.sh 기반으로 동작합니다. ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs, VibeVoice 모델을 래핑해 자연스러운 음성, 멀티 보이스 내레이션, 오디오·영상 프로젝트용 음성 변환을 제공합니다.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

inference.sh CLI와 ElevenLabs를 사용해 텍스트 프롬프트만으로 오리지널 AI 음악을 생성하세요. 길이, 스타일, 분위기를 제어해 로열티 프리 배경 음악, 사운드트랙, 징글, 팟캐스트 배경음, 게임 오디오를 터미널에서 바로 만들어낼 수 있습니다.

Audio Editing

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

inference.sh CLI를 통해 ElevenLabs 텍스트-투-스피치(TTS)를 사용하는 스킬로, 22개 이상 프리미엄 보이스, 다국어 지원, 프로덕션 환경에 적합한 고속 모델 옵션을 제공합니다.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

inference.sh CLI를 통해 ElevenLabs Music, Diffrythm, Tencent Song Generation을 사용해 텍스트 프롬프트에서 AI 음악과 완성된 곡을 생성합니다. 배경 음악, 사운드트랙, 숏폼 영상, 팟캐스트, 로열티 프리 음악 제작에 적합합니다. 빠른 곡 생성, 연주곡(Instrumental), 보컬이 포함된 풀송을 모두 지원합니다.

Voice Generation

Favorites 0GitHub 0