elevenlabs-stt
작성자 inferen-shinference.sh CLI를 통해 ElevenLabs Scribe v1/v2 모델을 사용하는 고정확도 음성 인식 스킬입니다. 회의, 팟캐스트 등 다양한 오디오 워크플로에서 전사, 화자 분리, 오디오 이벤트 태깅, 단어 단위 타임스탬프, 강제 정렬, 자막 생성 등을 지원합니다.
개요
elevenlabs-stt란?
elevenlabs-stt는 inference.sh (infsh) CLI를 통해 에이전트 또는 CLI 워크플로를 ElevenLabs Scribe 모델에 연결하는 음성 인식(speech-to-text) 스킬입니다.
일반적인 메모 용도보다는 고정확도, 시간 정렬 기반 오디오 전사에 초점을 맞추고 있습니다. 이 스킬은 다음과 같은 미디어 워크플로에 적합하게 설계되었습니다.
- 오디오·영상 편집을 위한 음성 녹음 정리
- 타이밍이 정확한 자막·캡션 생성
- 팟캐스트·인터뷰 전사본 제작
- 단어 단위 정렬을 활용한 립싱크·노래방 스타일 타이밍 생성
- 녹음 내 오디오 이벤트 태깅 및 서로 다른 화자 식별
주요 기능
ElevenLabs Scribe v1/v2 모델(inference.sh의 elevenlabs/stt 앱)을 기반으로, elevenlabs-stt는 다음을 제공합니다.
- 오디오를 구조화된 텍스트로 변환하는 전사(Transcription)
- 화자 분리(Speaker diarization) 및 화자 식별(누가 언제 말했는지)
- 오디오 이벤트 태깅 (예: 음악, 무음, 배경 소음 등)
- 단어 단위 타임스탬프 및 기존 텍스트에 대한 강제 정렬(forced alignment)
- 캡션·후반 작업에 적합한 자막 친화적 출력
- 90개 이상 언어를 자동 감지하는 다국어 지원
지원 조건에서 모델은 98% 이상 전사 정확도를 제공하는 것으로 소개되어 있으며, 제작용 오디오·영상 프로젝트에 사용하기 적합한 수준입니다.
누구에게 적합한가?
elevenlabs-stt는 다음과 같은 경우 특히 잘 맞습니다.
- 오디오·영상 후반 작업에서 신뢰할 수 있는 전사가 필요한 경우
- 팟캐스트, 웨비나, 인터뷰, 강의 등에서 자동 텍스트 출력이 필요한 경우
- 워크플로상 시간 정렬된 자막·캡션 파일이 필요한 경우
- 스크립트에서 ElevenLabs STT를 호출해야 하는 개발자 도구, 에이전트, 파이프라인을 만드는 경우
- 모든 것을 CLI·JSON 중심 환경에서 다루고 싶은 경우
다음과 같은 경우에는 적합하지 않을 수 있습니다.
- CLI 없이 브라우저 기반의 비기술적 UI만 필요할 때
- 타이밍, 화자 분리, 데이터 구조에 관심이 없고 단순 메모용 전사만 원할 때
- 에이전트가 실행되는 환경에
infshCLI를 설치하거나 사용할 수 없을 때
기존 툴체인에서의 위치
elevenlabs-stt는 스택에서 오디오 편집 및 보이스 도구 레이어에 위치합니다.
- 업스트림: 오디오 캡처(Zoom 녹화, OBS, 전화 녹음, 원본 WAV/MP3 등)
- 코어: elevenlabs-stt +
infsh로 전사, 화자 분리, 정렬, 태깅 수행 - 다운스트림: NLE 타임라인(Premiere, Resolve), 자막 워크플로, 검색 인덱스, AI 요약, QA 에이전트 등
이 스킬은 inferen-sh/skills 리포지토리에서 정의되므로, Bash(infsh *)를 내부적으로 사용하는 다른 inference.sh 기반 도구들과도 자연스럽게 연동됩니다.
사용 방법
1. 사전 준비 및 환경 설정
elevenlabs-stt를 스킬로 사용하려면 다음이 필요합니다.
- 에이전트 또는 사용자가 실행되는 머신에 inference.sh CLI (
infsh)가 설치되어 있을 것 - 정상 동작하는 inference.sh 계정과 유효한 로그인 상태
infsh가elevenlabs/stt앱을 호출하고 (선택적으로) 제공한 원격 오디오 URL에 접근할 수 있는 네트워크 환경
CLI 설치는 스킬에서 참조하는 공식 문서를 따라 진행합니다.
- CLI 설치 문서:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
설치 후, 다음으로 인증을 완료합니다.
infsh login
이 과정을 통해 스킬에서 수행하는 infsh app run 호출에 필요한 자격 증명이 설정됩니다.
2. elevenlabs-stt 스킬 설치
npx skills를 지원하는 스킬 지원 환경을 사용 중이라면, inferen-sh/skills 리포지토리에서 elevenlabs-stt를 바로 추가할 수 있습니다.
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt
이 명령은 다음을 수행합니다.
elevenlabs-stt스킬을 해당 슬러그로 등록- 허용된 도구와 워크플로 로직을 포함한 스킬 설정을 에이전트 런타임에서 사용할 수 있게 함
환경에서 스킬을 다른 방식으로 관리한다면, 동일한 리포지토리와 스킬 슬러그를 참조하고, 스킬 메타데이터(SKILL.md, 필요 시 metadata.json)가 올바르게 로드되도록 구성하면 됩니다.
3. 기본 전사 워크플로
스킬과 CLI 설치가 끝나면, 핵심 동작은 infsh를 통해 elevenlabs/stt 앱을 호출하는 것입니다.
스킬이 자동화하는 동작을 수동으로 실행한 예시는 다음과 같습니다.
# 원격 오디오 파일 전사
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
이 패턴이 elevenlabs-stt가 에이전트 내부에서 동작하는 기본 방식입니다. 스킬은 다음을 수행합니다.
- 오디오 입력(URL 또는 경로 — 통합 방식에 따라 상이)을 받고
- JSON 입력을 사용해
infsh app run elevenlabs/stt를 호출하며 - 전사 텍스트와 타이밍 정보가 포함된 구조화된 JSON을 반환합니다.
스킬을 둘러싼 프롬프트, 도구, 파이프라인을 설계할 때 이 동작 모델을 기준으로 생각하면 편합니다.
4. 모델 선택: Scribe v1 vs Scribe v2
스킬은 ElevenLabs의 Scribe v1과 Scribe v2 모델을 노출합니다.
- Scribe v2 (
scribe_v2) – 최신 및 최고 정확도(기본값). 새로운 프로젝트에 가장 적합. - Scribe v1 (
scribe_v1) – 검증된 안정 버전. 기존 워크플로와의 일관성이 필요하거나, 이미 동작을 검증해 둔 경우 유용.
환경 또는 에이전트에서 모델 파라미터를 전달할 수 있다면, 해당 모델 ID를 선택적으로 지정할 수 있습니다. 모델을 명시하지 않으면 문서 기준으로 Scribe v2가 기본 사용된다고 보는 것이 좋습니다.
5. 실전 활용 패턴
설치 후 elevenlabs-stt를 활용하는 대표적인 패턴은 다음과 같습니다.
기본 전사
회의록, 팟캐스트, 강의처럼 단순 전사가 필요할 때:
infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'
이 호출을 에이전트 워크플로에 감싸서, 사용자가 다음과 같이 요청할 수 있게 만들 수 있습니다.
- “elevenlabs-stt로 이 회의 녹음을 전사해 줘.”
- “elevenlabs-stt를 사용해서 이 MP3를 텍스트 전사본으로 만들어 줘.”
결과는 저장·색인·요약에 활용할 수 있는 구조화된 전사본입니다.
화자 분리 및 식별
상위 elevenlabs/stt 앱에서 화자 분리를 활성화하면, 출력 JSON에는 화자별로 라벨링된 토큰 또는 세그먼트가 포함됩니다.
에이전트 프롬프트에서는 예를 들어 다음과 같이 지시할 수 있습니다.
- “elevenlabs-stt를 실행해서 화자별로 분리된 전사 세그먼트를 반환해 줘.”
- “elevenlabs-stt의 타임스탬프를 유지하면서, 화자 기준으로 전사를 그룹화해 줘.”
패널 토론, 고객 상담 콜, 인터뷰 형식 콘텐츠에서 특히 유용합니다.
자막·캡션 생성
elevenlabs-stt는 타임스탬프와 단어 단위 강제 정렬을 지원하므로, 다음과 같이 활용할 수 있습니다.
- 세그먼트를 SRT 또는 VTT 자막 파일로 변환
- 후반 제작 도구에서 비디오 트랙과 텍스트를 동기화
- 노래방 스타일 하이라이팅이나 립싱크 기준 정보로 활용
전형적인 워크플로는 다음과 같습니다.
- 오디오 트랙에 대해 elevenlabs-stt를 호출합니다.
- 반환된 타이밍 데이터를 자막 블록에 매핑합니다.
- 자막을 NLE 또는 스트리밍 플랫폼으로 내보내거나 전달합니다.
오디오 이벤트 태깅
elevenlabs/stt 호출에서 오디오 이벤트 태깅을 활성화하면, 출력에 음악, 무음, 잡음 등의 구간이 표시될 수 있습니다.
이를 통해 다음을 할 수 있습니다.
- 편집자가 사용할 컷 포인트 표시
- 요약 시 음성이 없는 구간 건너뛰기
- 주요 화자가 말하는 구간을 자동 감지
6. 파일 및 리포지토리 구조
inferen-sh/skills 리포지토리에서 elevenlabs-stt 스킬은 다음 경로에 위치합니다.
tools/audio/elevenlabs-stt/
스킬을 커스터마이즈하거나 자체 호스팅하려는 경우 확인할 핵심 파일은 다음과 같습니다.
SKILL.md– 스킬의 목적, 트리거, 동작을 정의한 기준 문서- 보조 로직이 포함될 수 있는
rules/,resources/,scripts/디렉터리(존재할 경우)
이 파일들은 스킬이 infsh CLI와 어떻게 연결되어 있는지, 어떤 프롬프트와 제약을 기대하는지에 대해 문서화하고 있습니다.
FAQ
단순한 음성 인식 도구 대신 elevenlabs-stt를 써야 하는 경우는 언제인가요?
고정확도, 타임스탬프, 구조화된 출력이 필요할 때 elevenlabs-stt를 사용하는 것이 좋습니다. 단순히 대략적인 텍스트만 있으면 되는 경우와는 목적이 다릅니다.
특히 다음과 같은 업무라면 잘 맞습니다.
- 오디오 또는 영상 편집
- 팟캐스트나 토크 콘텐츠 발행
- 자막 및 캡션 제작
- 화자 라벨과 타이밍을 포함해 대화를 분석하는 작업
단순 참고용 전사만 필요하고 타이밍·화자 정보가 중요하지 않다면, 더 가벼운 도구로도 충분할 수 있습니다.
어느 정도 정확도와 언어 커버리지를 기대할 수 있나요?
스킬 설명에 따르면 ElevenLabs Scribe 모델은 다음과 같습니다.
- 지원 환경에서 98% 이상 전사 정확도
- 자동 언어 감지를 포함한 90개 이상 언어 지원
실제 성능은 녹음 품질, 억양, 배경 소음, 마이크 위치 등에 따라 달라지지만, 제작용으로 사용할 수 있는 고정확도 옵션으로 포지셔닝되어 있습니다.
elevenlabs-stt를 사용하려면 inference.sh CLI가 필수인가요?
그렇습니다. elevenlabs-stt는 inference.sh (infsh) CLI와 elevenlabs/stt 앱을 중심으로 구현되어 있습니다. 스킬의 허용 도구 목록에도 infsh 명령을 사용하는 Bash가 명시되어 있습니다.
환경에 infsh를 설치하거나 실행할 수 없다면, 설계된 방식으로 elevenlabs-stt를 사용할 수 없습니다. 이 경우 이 리포지토리 밖에서 다른 스킬을 사용하거나 직접 API 통합을 구현해야 합니다.
elevenlabs-stt는 로컬 오디오 파일도 처리할 수 있나요, 아니면 URL만 가능한가요?
문서 예시는 원격 URL을 사용합니다.
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
일반적으로 inference.sh는 다양한 입력 패턴을 지원하지만, 로컬 파일을 어떻게 처리하는지는 infsh 환경 설정(업로드 방식, 마운트된 경로 등)에 따라 달라집니다.
에이전트 내에서는 보통 다음과 같이 할 수 있습니다.
- 호스팅된 오디오 파일의 직접 URL을 제공하거나
- 런타임의 파일 처리 방식을 이용해 로컬 파일을
infsh에서 접근 가능하게 만들거나
로컬 파일만 다룬 워크플로가 필요한 경우, 사용 중인 환경의 파일 전달 규칙을 확인하는 것이 좋습니다.
elevenlabs-stt가 SRT나 VTT 파일을 직접 만들어 주나요?
이 스킬은 elevenlabs/stt 앱과 연동되며, 타임스탬프와 정렬 정보가 포함된 구조화된 JSON을 반환합니다. 리포지토리 증거상, JSON 출력에 초점이 맞춰져 있고 SRT/VTT를 직접 내보내는 기능은 언급되어 있지 않습니다.
다만, 다음과 같은 방식으로 쉽게 자막 파일을 만들 수 있습니다.
- elevenlabs-stt에서 JSON 출력을 받습니다.
- 세그먼트와 타임스탬프를 SRT 또는 VTT 블록으로 매핑합니다.
- 파이프라인에서 자막 파일로 저장합니다.
많은 사용자가 이를 간단한 스크립트나 에이전트 후처리 단계로 구현해 사용합니다.
elevenlabs-stt에서 강제 정렬(forced alignment)은 어떻게 동작하나요?
강제 정렬은 Scribe 모델을 사용해 오디오와 텍스트를 단어 수준에서 정렬하고, 토큰 또는 단어별로 정밀한 타임스탬프를 반환하는 기능입니다.
다음과 같은 경우에 유용합니다.
- 이미 스크립트나 쇼 노트가 있고, 실제 녹음과 정확히 맞춰보고 싶을 때
- 더빙, 노래방, 캡션 하이라이트 등 정확한 립싱크 타이밍이 필요할 때
- 각 문장이 실제로 어느 시점에서 말해졌는지 빠르게 찾고 싶을 때
정렬 결과의 세부 형식은 elevenlabs/stt 앱에서 정의하며, elevenlabs-stt는 이를 에이전트·CLI 워크플로에서 사용할 수 있도록 연결해 주는 스킬입니다.
elevenlabs-stt는 실시간 스트리밍 전사에도 적합한가요?
스킬 문서와 예시는 파일 기반 전사에 초점을 두고 있으며, audio 입력 참조와 함께 infsh app run을 사용하는 방식을 보여줍니다. 제공된 증거에는 실시간 스트리밍에 대한 명시적 언급이 없습니다.
따라서 elevenlabs-stt는 저장된 녹음 파일을 대상으로 하는 배치 전사 도구로 보는 것이 적절하며, 저지연 실시간 자막 솔루션으로 쓰기에는 적합하지 않습니다.
elevenlabs-stt 설정은 어디에서 보고 수정할 수 있나요?
inferen-sh/skills GitHub 리포지토리에서 스킬 구성을 확인할 수 있습니다.
- 기본 리포지토리:
https://github.com/inferen-sh/skills - 스킬 경로:
tools/audio/elevenlabs-stt/
트리거, 설명, 사용법을 이해하려면 SKILL.md부터 살펴보세요. 플랫폼에서 커스텀 스킬을 지원한다면, 리포지토리를 포크한 뒤 환경에 맞게 스킬의 설정, 프롬프트, 허용 도구 등을 수정해 사용할 수 있습니다.
