baoyu-youtube-transcript
작성자 JimLiubaoyu-youtube-transcript는 URL 또는 비디오 ID에서 YouTube 자막, 스크립트, 커버 이미지를 추출할 수 있게 도와주는 스킬입니다. 언어 선택과 번역을 지원하며, markdown 또는 SRT 출력, 캐시 기반 재포맷, 그리고 더 안정적인 스크립트 수집을 위해 InnerTube API에서 yt-dlp로 폴백하는 방식까지 제공합니다.
이 스킬은 84/100점으로, 범용 프롬프트보다 시행착오를 줄이면서 안정적으로 YouTube 스크립트를 추출하려는 사용자에게 충분히 매력적인 디렉터리 등재 후보입니다. 저장소에는 실제로 실행 가능한 워크플로, 명확한 트리거, CLI 사용법, 폴백 동작, 테스트가 갖춰져 있어 에이전트가 올바르게 호출하고 스크립트, 자막, 커버 이미지를 비교적 높은 확신으로 생성할 가능성이 큽니다.
- 트리거 적합성이 높습니다. 설명에 YouTube URL, 스크립트/자막 요청, 커버 이미지 요청처럼 구체적인 사용자 의도와 입력 패턴이 분명하게 제시되어 있습니다.
- 운영 측면의 실체가 충분합니다. SKILL.md에 사용 방법이 문서화되어 있고, 저장소에는 스크립트 가져오기, 파싱, 캐싱, 포맷팅을 처리하는 7개의 보조 스크립트와 함께 동작하는 TypeScript/Bun CLI가 포함되어 있습니다.
- 에이전트 활용 가치가 뚜렷합니다. YouTube InnerTube를 직접 사용하고 차단 시 yt-dlp로 폴백하며, 언어 선택/번역, 챕터, 화자 처리용 프롬프트, 재포맷을 위한 캐싱까지 지원합니다.
- 설치 및 런타임 설정은 일부만 명확합니다. SKILL.md에는 Bun/npx 요구 사항과 런타임 해석 방식이 언급되지만, 스킬 파일 안에 바로 실행할 수 있는 간단한 설치 명령은 없습니다.
- 일부 고급 동작은 여전히 에이전트의 해석이 필요합니다. 특히 화자 식별과 챕터 처리는 엄격하게 강제되는 엔드투엔드 워크플로라기보다 프롬프트 안내에 의존하는 부분이 있습니다.
baoyu-youtube-transcript 스킬 개요
baoyu-youtube-transcript가 특히 잘하는 일
baoyu-youtube-transcript는 화면에 자막만 띄워 보는 용도가 아니라, 실제로 재사용 가능한 텍스트 파일이 필요한 사람을 위한 YouTube transcript 추출 스킬입니다. YouTube URL 또는 동영상 ID로 transcript, subtitle, 커버 이미지를 내려받을 수 있고, 언어 선택과 번역도 지원합니다. 한 번 받아 둔 캐시 데이터는 다시 가져오지 않고도 markdown이나 SRT로 재포맷할 수 있습니다. 실무에서 가장 큰 장점은 안정성입니다. 먼저 YouTube의 InnerTube API를 사용하고, 직접 접근이 막히면 yt-dlp로 우회하는 폴백 경로가 준비되어 있습니다.
잘 맞는 사용자와 실제 해결 과제
이 스킬은 연구자, 메모 정리 사용자, 아카이브 담당자, 콘텐츠 재가공 작업자, 그리고 영상을 markdown·subtitle·transcript 자산으로 바꾸는 Format Conversion 작업을 하는 에이전트에 특히 잘 맞습니다. 실제로 해결하려는 일은 대체로 이렇습니다. “이 영상에서 transcript를 내가 필요한 언어로 가져오고, 필요하면 타임스탬프나 챕터도 유지한 뒤, 나중에 다시 활용할 수 있는 파일 구조로 저장하자.”
설치 전에 봐야 할 핵심 차별점
일반적인 “이 YouTube 영상 요약해줘” 프롬프트와 비교하면, baoyu-youtube-transcript는 파일 기반 결과물, 캐싱, 언어 인식 트랙 선택, 더 예측 가능한 추출 경로를 제공합니다. 또한 repo에는 prompts/speaker-transcript.md라는 화자 처리용 프롬프트도 포함되어 있습니다. 최종 목표가 원시 자막 줄이 아니라, 더 읽기 좋은 편집용 transcript라면 이 차이는 꽤 중요합니다.
baoyu-youtube-transcript 스킬 사용 방법
설치 환경과 런타임 요구사항
baoyu-youtube-transcript를 설치하고 실행하려면 bun 또는 npx를 사용할 수 있어야 합니다. 스킬 스크립트는 skills/baoyu-youtube-transcript/scripts/ 아래에 있고, SKILL.md에는 런타임을 bun 우선, 그다음 npx -y bun 순으로 해석한다고 명시되어 있습니다. 도입 전에 적합성을 판단하려면 다음 파일부터 먼저 읽는 것이 좋습니다:
SKILL.mdscripts/main.tsscripts/youtube.tsprompts/speaker-transcript.mdscripts/main.test.ts
이 경로로 보면 repo 전체를 훑는 것보다 실제 CLI 동작, 폴백 로직, 후처리 워크플로를 훨씬 빠르게 파악할 수 있습니다.
실제로 baoyu-youtube-transcript 사용이 어떻게 돌아가는가
일반적인 baoyu-youtube-transcript 사용 방식은 메인 스크립트에 YouTube URL 또는 11자리 동영상 ID를 넘기는 것입니다. 이 스크립트는 다음을 수행할 수 있습니다:
- transcript 트랙 가져오기
json3같은 더 나은 subtitle 포맷 우선 선택- 수동 자막과 자동 생성 자막 중 선택
- 가능할 경우 번역 적용
- markdown 또는 SRT로 출력
- 메타데이터와 transcript payload를 output 디렉터리 아래에 캐시
여기서 가장 중요한 입력 품질은 긴 프롬프트가 아니라, 추출 의도를 얼마나 정확히 지정했는가입니다. 좋은 요청에는 보통 다음이 포함됩니다:
- 동영상 URL 또는 ID
- 선호 언어 우선순위
- 자동 생성 자막 허용 여부
- 원하는 출력 형식: markdown 또는 SRT
- 타임스탬프, 챕터, 화자 정보 필요 여부
더 좋은 요청 예시는 다음과 같습니다. “이 YouTube URL에 baoyu-youtube-transcript를 사용하고, en 우선 다음 zh-Hans를 선호하며, 자동 생성 자막도 허용하고, 타임스탬프가 있는 markdown으로 출력한 뒤, 재사용 가능한 output 디렉터리에 저장해줘.”
추측을 줄여 주는 프롬프트와 워크플로
AI 에이전트를 통해 이 스킬을 호출한다면, 막연한 목표를 바로 실행 가능한 지시로 바꾸는 것이 좋습니다. 예를 들어:
- 추출: “이 video ID의 transcript를
en으로 가져오고, 없으면 다른 트랙에서 번역된en을 사용해.” - 포맷팅: “검토용으로 타임스탬프가 포함된 markdown으로 반환해.”
- 향상: “그다음
prompts/speaker-transcript.md를 사용해 번역 없이, 원시 transcript를 챕터와 화자 라벨이 있는 transcript로 바꿔.”
이 2단계 워크플로가 중요한 이유는 화자 라벨링이 원시 자막 다운로드와 같은 작업이 아니라, 별도의 후처리 단계이기 때문입니다. 해당 프롬프트 파일은 축어적 정확성과 일관된 화자 이름 유지를 강조하는데, 인터뷰, 팟캐스트, 강의 transcript에 특히 유용합니다.
출력 구조, 캐싱, 실전 팁
baoyu-youtube-transcript 스킬은 메타데이터와 transcript 캐시를 저장해 두기 때문에, 같은 영상에서 형식만 바꿔 다시 출력할 때 훨씬 빠릅니다. 하나의 영상에서 원본 버전과 다듬은 버전을 모두 뽑고 싶을 때 특히 유용합니다. 실전 팁은 다음과 같습니다:
- 같은 영상을 자주 다시 볼 예정이라면 안정적인
outputDir를 사용하세요. - 화자 정리 같은 후처리를 적용하기 전에 원시 transcript 출력본을 보관하세요.
- 타이밍 정확도가 중요하면 SRT를, 읽기 편의성이 중요하면 markdown을 선택하세요.
- 챕터 추출이 중요하다면 동영상 설명란에 타임스탬프 챕터가 있는지 확인하세요. 스크립트는 설명란과 재생 길이를 함께 보고 챕터를 파싱합니다.
baoyu-youtube-transcript 스킬 FAQ
baoyu-youtube-transcript는 일반 프롬프트보다 더 나은가?
네. “적당히 해보는” 추론보다 재현 가능한 추출이 필요할 때는 분명히 더 낫습니다. 일반 프롬프트는 subtitle 트랙을 안정적으로 내려받거나, 사용 가능한 언어를 확인하거나, 원본 자산을 캐시하거나, yt-dlp로 폴백하는 일을 믿고 맡기기 어렵습니다. 작업의 핵심이 요약이 아니라 수집과 변환이라면 baoyu-youtube-transcript 쪽이 더 강합니다.
어떤 경우에는 이 스킬이 잘 맞지 않나?
접근 가능한 transcript 트랙이 전혀 없는데, 오디오만으로 완전한 speech-to-text 전사를 기대한다면 적합하지 않습니다. 이 repo는 YouTube transcript/subtitle 가져오기를 중심으로 설계되어 있으며, 독립적인 ASR 파이프라인은 아닙니다. 저장 파일은 필요 없고 빠른 사람용 요약만 원한다면 오히려 과한 선택일 수도 있습니다.
baoyu-youtube-transcript는 초보자도 쓰기 쉬운가?
중간 정도입니다. 클릭형 도구라기보다 스크립트 중심 스킬이기 때문에 bun, npx, 경로, output 폴더에 대한 기본적인 감각이 있으면 훨씬 수월합니다. 다행히 repo는 구현 중심이라서, scripts/main.test.ts를 보면 선택 로직을 이해할 수 있고, SKILL.md에는 안전하게 시작하는 데 필요한 명령 패턴이 정리되어 있습니다.
baoyu-youtube-transcript 스킬을 더 잘 활용하는 방법
더 좋은 출력을 원하면 입력부터 구체적으로
baoyu-youtube-transcript 결과를 가장 빨리 개선하는 방법은 transcript 선택 조건을 명확히 쓰는 것입니다. 언어 우선순위, 수동 자막 우선 여부, 자동 생성 자막 허용 여부를 분명히 적으세요. 이 부분을 생략하면 사용은 가능하지만 품질이 낮은 트랙이나, 예상과 다른 번역 트랙이 선택될 수 있습니다.
흔한 실패 패턴을 초기에 처리하기
자주 생기는 문제는 잘못된 동영상 식별자, 직접 가져오기가 차단된 경우, 목표 언어 자막 부재, 그리고 “subtitle 번역”과 “transcript 요약”을 혼동하는 경우입니다. 추출이 실패했다면 scripts/youtube.ts의 동작을 개념적으로 먼저 점검하세요. 이 스킬에는 이미 폴백 경로가 있으므로, 다음 대응은 대개 프롬프트를 통째로 다시 쓰는 것이 아니라 언어 제약을 조정하거나 자동 생성 자막을 허용하는 쪽입니다.
첫 transcript 이후에 반복 개선하기
Format Conversion 용도의 baoyu-youtube-transcript는 한 번에 끝내기보다 반복적으로 다듬는 워크플로가 가장 잘 맞습니다:
- 원시 transcript 가져오기
- 언어와 누락 여부 확인
- 필요하면 다른 형식으로 다시 실행
- 화자/챕터 후처리 적용
첫 markdown 결과가 다소 지저분해 보여도 스킬 자체를 버릴 필요는 없습니다. 대신 캐시된 원본 파일을 유지한 채 포맷팅만 다시 돌리거나, prompts/speaker-transcript.md를 적용해 더 깔끔한 최종 문서를 만드세요. 이 지점에서 baoyu-youtube-transcript는 일회성 다운로드 스크립트보다 훨씬 더 가치 있어집니다.
