ai-voice-cloning
작성자 inferen-shai-voice-cloning은 CLI에서 사용할 수 있는 AI 음성 생성, 텍스트 음성 변환(TTS), 음성 클로닝 스킬로, inference.sh 기반으로 동작합니다. ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs, VibeVoice 모델을 래핑해 자연스러운 음성, 멀티 보이스 내레이션, 오디오·영상 프로젝트용 음성 변환을 제공합니다.
개요
ai-voice-cloning이란?
ai-voice-cloning은 inference.sh 플랫폼 위에 구축된, CLI 중심의 AI 음성 생성 및 음성 클로닝 스킬입니다. ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs, VibeVoice를 포함한 텍스트 음성 변환(TTS) 및 음성 변환 모델을 커맨드라인에서 바로 호출할 수 있게 해줍니다.
이 스킬은 inferen-sh/skills 리포지토리 안에 정의되어 있으며, infsh(inference.sh CLI)를 통해 Bash를 호출할 수 있는 에이전트 워크플로에 포함되도록 설계되었습니다. 모델 학습이나 데이터셋 관리보다는, 자연스러운 음성을 생성하고 기존 음성 녹음을 변환하는 데 초점을 맞춥니다.
주요 기능
infsh app run ...을 사용하는 CLI 기반 텍스트 음성 변환(TTS)- 하나의 인터페이스에서 사용하는 여러 AI 음성 모델(예:
elevenlabs/tts,infsh/kokoro-tts) - ElevenLabs Voice Changer를 통한 기존 녹음 파일의 음성 클로닝 / 음성 변경
- ElevenLabs 모델(업스트림 설명 기준)을 통한 다양한 음색과 언어 지원
- 보이스오버, 오디오북, 팟캐스트에 적합한 롱폼 내레이션
- 자연스러운 발화를 위해 튜닝된 모델을 활용한 대화 스타일 및 감정 표현 읽기
ai-voice-cloning은 독립 실행 앱이 아니라 스킬 정의이므로, inference.sh CLI와 Bash 명령 실행이 허용된 에이전트·도구를 통해 상호작용하게 됩니다.
ai-voice-cloning을 사용할 만한 사람
다음에 해당된다면 이 스킬이 잘 맞을 수 있습니다:
- 오디오나 영상 작업을 하며 빠르고 스크립트 기반의 음성 생성이 필요할 때
- AI 에이전트, CLI, 자동화 워크플로에 음성 안내나 내레이션을 넣고 싶을 때
- 보이스오버, 설명 영상, 튜토리얼, 교육용 영상을 제작할 때
- 하나의 CLI 뒤에서 ElevenLabs 수준의 음성과 특화된 TTS 모델들을 함께 쓰고 싶을 때
- 웹 GUI보다는 커맨드라인 중심 워크플로를 선호할 때
다음과 같은 경우에는 적합하지 않을 수 있습니다:
- CLI 없이 완전히 그래픽 기반 UI만을 원할 때
- 원시 오디오 데이터셋으로 커스텀 모델을 직접 학습하려는 경우(이 스킬 범위 밖)
- inference.sh 서비스를 호출하지 않고, 브라우저 내 또는 온디바이스에서만 동작해야 할 때
대표적인 활용 사례
- YouTube나 마케팅 영상용 내레이션 트랙 생성
- 텍스트 스크립트에서 오디오북·팟캐스트용 음성 생성
- 대화·콘텐츠용 여러 캐릭터 보이스 제작
- ElevenLabs Voice Changer로 기존 녹음에 음성 변경 효과 적용
- 에이전트, 봇, 인터랙티브 도구에 오디오 프롬프트 및 시스템 음성 추가
사용 방법
1. 선행 조건과 설치 옵션
ai-voice-cloning을 사용하려면 다음이 필요합니다:
- inference.sh CLI(
infsh) 접근 권한 - inference.sh API에 대한 네트워크 연결
- Bash 명령 실행이 가능한 셸 환경
에이전트 환경에 이 스킬을 통합하려면 다음 명령을 사용합니다:
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
위 명령은 inferen-sh/skills에서 스킬 정의를 가져와 등록하며, 이를 통해 에이전트가 관련 도구(특히 infsh로 Bash 호출)를 사용할 수 있게 됩니다.
에이전트 밖에서 직접 CLI로 사용하려면 inference.sh CLI 자체를 설치해야 합니다. 스킬의 SKILL.md에는 CLI 설치 가이드가 다음 경로로 연결되어 있습니다:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
해당 문서를 참고해 시스템에 infsh를 설치하세요.
2. inference.sh 로그인
infsh 설치 후에는 인증을 진행합니다:
infsh login
프롬프트에 따라 로그인하거나, CLI 설치 가이드에 설명된 대로 자격 증명을 설정하세요.
3. 빠른 시작: Kokoro TTS로 음성 생성하기
SKILL.md에는 간단한 Kokoro TTS 예제가 포함되어 있습니다. 로그인 후 다음 명령으로 음성을 생성할 수 있습니다:
infsh app run infsh/kokoro-tts --input '{
"prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
"voice": "af_sarah"
}'
이 명령이 하는 일:
infsh/kokoro-tts앱을 호출합니다.- 읽을 텍스트인
prompt와 사용할voice를 JSON 입력으로 전달합니다. - 합성된 음성을 출력합니다(출력 경로나 스트리밍 방식은 CLI 문서를 참고하세요).
이 패턴을 바탕으로 프롬프트 문구와 지원 음성을 바꿔가며 활용할 수 있습니다.
4. 다른 모델 사용하기(ElevenLabs, DIA 등)
SKILL.md에는 Available Models 테이블로 사용 가능한 모델이 정리되어 있습니다. 확인 가능한 항목은 대략 다음과 같습니다:
- ElevenLabs TTS – App ID:
elevenlabs/tts - ElevenLabs Voice Changer – App ID:
elevenlabs/voice-changer - Kokoro TTS – App ID:
infsh/kokoro-tts - DIA – App ID는
infsh/dia-...형태로 시작 - 그 외 Chatterbox, Higgs, VibeVoice와 같은 모델도 스킬 설명에 언급되어 있습니다.
다른 앱을 호출하려면 CLI 명령에서 App ID만 바꾸면 됩니다. 예를 들어 ElevenLabs로 TTS를 사용할 때의 전형적인 패턴은 다음과 같습니다:
infsh app run elevenlabs/tts --input '{
"text": "This audio was generated using the ai-voice-cloning skill.",
"voice": "some_voice_id"
}'
각 앱마다 prompt, text, voice_id처럼 필드명이 다를 수 있으므로, 리포지토리 문서와 모델별 README가 있다면 참고해 정확한 입력 스키마를 확인하세요.
5. ElevenLabs Voice Changer로 음성 변경 / 음성 클로닝
스킬 설명에는 기존 녹음 파일을 변환하기 위한 ElevenLabs Voice Changer(App ID elevenlabs/voice-changer)가 명시되어 있습니다. 일반적인 CLI 호출 흐름은 다음과 같습니다:
- 입력 오디오 파일(원본 녹음)을 지정합니다.
- 대상 음성 또는 관련 설정을 지정합니다.
- 변환된 오디오 파일을 출력합니다.
대표적인 패턴은 다음과 비슷합니다:
infsh app run elevenlabs/voice-changer --input '{
"audio_url": "https://.../your-input-audio.wav",
"voice": "target_voice_id"
}'
정확한 필드명과 지원 포맷은 inference.sh 앱 문서를 확인하세요.
6. 에이전트에 ai-voice-cloning 통합하기
npx skills add로 ai-voice-cloning을 추가하면, inferen-sh/skills 포맷을 이해하는 에이전트 플랫폼은 다음을 수행할 수 있습니다:
- **Bash(
infsh *)**가 허용된 도구라는 사실을 인식합니다. SKILL.md에 있는 예제와 설명을 가이드로 활용합니다.- 오디오 생성·변환을 위해 적절한
infsh app run ...명령을 자동으로 생성합니다.
에이전트 동작을 더 세밀하게 조정하려면:
tools/audio/ai-voice-cloning디렉터리의SKILL.md를 엽니다.- 예제, 사용 가능한 모델 테이블, 활용 노트 등을 검토합니다.
- 에이전트 설정이나 오케스트레이션 레이어에 자주 쓰는 프롬프트 패턴, 음성 선택, 후처리 단계 등을 추가합니다.
7. 리포지토리에서 확인할 파일
스킬 정의 구조와 권장 사용 방식을 더 깊이 이해하려면 다음 파일을 확인하세요:
tools/audio/ai-voice-cloning/SKILL.md– 스킬 핵심 설명, 빠른 시작, 모델 목록- 루트 레벨의
README.md,cli-install.md– inference.sh와 CLI 설치·설정 전반 가이드
추가로 tools 폴더 내에서 더 넓은 도구 생태계에 대한 문서를 찾아볼 수 있습니다.
자주 묻는 질문(FAQ)
ai-voice-cloning은 독립 실행 앱인가요, 아니면 스킬 정의인가요?
ai-voice-cloning은 inferen-sh/skills 리포지토리 안에 있는 스킬 정의입니다. 에이전트가 inference.sh CLI(infsh)를 사용해 AI 음성 생성과 음성 클로닝을 수행하도록 방법을 기술해 둔 것입니다. 별도의 GUI 애플리케이션을 제공하는 것이 아니라, 커맨드라인이나 Bash를 실행할 수 있는 에이전트 워크플로에서 TTS와 Voice Changer 모델을 명확한 방식으로 호출할 수 있게 해줍니다.
ai-voice-cloning을 쓰려면 무엇을 설치해야 하나요?
필수 요건은 다음과 같습니다:
- 셸에서 실행 가능한 inference.sh CLI(
infsh) - inference.sh용 유효한 인증 정보(
infsh login으로 설정) - Bash 명령 실행이 가능한 환경(예: 로컬 터미널, Bash를 노출하는 에이전트 런타임 등)
선택적으로, skills 포맷을 지원하는 에이전트 플랫폼에 통합하고 싶다면, 다음 명령으로 스킬을 설치할 수 있습니다:
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
어떤 AI 음성 모델들을 지원하나요?
스킬 설명과 SKILL.md 기준으로, ai-voice-cloning은 inference.sh에서 제공하는 여러 모델을 대상으로 동작하도록 설계되어 있으며, 대표적으로 다음을 포함합니다:
- ElevenLabs TTS –
elevenlabs/tts - ElevenLabs Voice Changer –
elevenlabs/voice-changer - Kokoro TTS –
infsh/kokoro-tts - DIA TTS 앱(App ID는
infsh/dia-...로 시작) - 설명에 언급된 Chatterbox, Higgs, VibeVoice 등의 추가 모델
최신 전체 목록과 각 모델 파라미터는 SKILL.md의 Available Models 테이블과 inference.sh 문서를 참고하세요.
롱폼 내레이션도 처리할 수 있나요?
가능합니다. 이 스킬은 롱폼 내레이션 및 오디오북, 팟캐스트, 영상 내레이션과 같은 사용 사례에 적합한 것으로 명시되어 있습니다. 다만 실제로 긴 텍스트를 어떻게 나누어 처리하는지(청크 처리, 최대 텍스트 길이, 구간 연결 방식 등)는 각 모델의 제한과 inference.sh 런타임에 따라 달라집니다. 매우 긴 스크립트를 처리할 계획이라면, 먼저 짧은 분량으로 테스트하고 모델 문서를 함께 참고하는 것이 좋습니다.
ElevenLabs나 다른 제공사의 API를 직접 쓰는 것과 무엇이 다른가요?
ai-voice-cloning의 특징은 다음과 같습니다:
- inference.sh CLI를 단일 인터페이스로 사용합니다.
- 비슷한
infsh app run ...명령 패턴으로 여러 TTS·Voice Changer 모델을 손쉽게 전환할 수 있습니다. - 에이전트 스킬, Bash 스크립트, 자동화 워크플로에 자연스럽게 통합됩니다.
이미 특정 제공사의 네이티브 API를 직접 사용하고 있더라도, 다음이 필요하다면 ai-voice-cloning이 유용할 수 있습니다:
- 여러 제공사·모델을 아우르는 단일 CLI 추상화 계층
skills포맷을 이해하는 에이전트 프레임워크와의 쉬운 연동
실시간 스트리밍 오디오도 지원하나요?
제공된 SKILL.md 발췌 내용은 infsh app run ... 형태의 배치 처리 예제에 초점이 맞춰져 있으며, 실시간 스트리밍에 대해서는 구체적으로 언급하지 않습니다. 실시간 또는 저지연 옵션은 스킬 래퍼가 아니라 각각의 inference.sh 앱 기능에 따라 결정됩니다. 실시간 출력이 중요한 경우 사용하려는 모델의 inference.sh 문서를 확인해 주세요.
ai-voice-cloning으로 어떤 형식의 오디오를 받게 되나요?
출력 포맷(wav, mp3 등)과 전달 방식(로컬 파일, URL 등)은 infsh/kokoro-tts, elevenlabs/tts와 같은 개별 inference.sh 앱이 결정합니다. 이 스킬은 특정 오디오 포맷을 강제하지 않고, 에이전트가 해당 모델들을 어떻게 호출할지만 정의합니다. 기본 출력 방식은 각 앱 문서를 확인하거나 테스트 명령을 실행해 직접 확인할 수 있습니다.
언제 ai-voice-cloning이 적합하지 않을 수 있나요?
다음 상황이라면 다른 솔루션을 고려하는 편이 좋습니다:
- CLI 없이 브라우저 기반 UI만으로 작업해야 할 때
- 외부 API 호출 없이 완전 오프라인·온디바이스 TTS가 필요할 때
- 미리 준비된 음성 대신, 거대 데이터셋으로 커스텀 모델 학습이 우선 목표일 때
이런 경우에는 TTS 플러그인을 통합한 데스크톱 DAW나 온디바이스 TTS 라이브러리를 찾아보는 것이 더 적합할 수 있습니다. 반대로, CLI나 에이전트를 통한 스크립트 기반·자동화된 AI 음성 생성이 목적이라면 ai-voice-cloning은 강력한 선택지가 됩니다.
구성 및 고급 옵션은 어디에서 더 알아볼 수 있나요?
다음 자료부터 살펴보는 것을 추천합니다:
inferen-sh/skills리포지토리의tools/audio/ai-voice-cloning/SKILL.mdSKILL.md에서 참조하는 CLI 설치 문서cli-install.mdinfsh/kokoro-tts,elevenlabs/tts등 앱에 대해 inference.sh에서 링크하는 모델별 문서
이 리소스들은 여기 소개한 빠른 시작 예제보다 더 많은 샘플 명령, 파라미터 목록, 활용 팁을 최신 상태로 제공해 줍니다.
