scanpy
작성자 K-Dense-AIPython에서 단일세포 RNA-seq 데이터를 분석하는 scanpy 스킬입니다. QC, 정규화, PCA, UMAP/t-SNE, 군집화, 마커 유전자 탐색, 궤적 분석, 출판용 품질의 플롯에 활용하세요. AnnData를 중심으로 구성된 탐색적 scRNA-seq 워크플로에 가장 적합하며, scanpy 사용법과 설치 안내도 함께 제공합니다.
이 스킬은 78/100점으로, 일반적인 프롬프트 대신 바로 쓸 수 있는 Scanpy 워크플로를 원하는 디렉터리 사용자에게 충분히 매력적인 후보입니다. 저장소에는 플레이스홀더가 아닌 실질적인 단일세포 RNA-seq 스킬이 담겨 있고, 사용 사례가 분명하며, 워크플로 단계도 구체적이라 에이전트가 적은 추측으로 적용하기에 좋습니다.
- QC, 정규화, PCA/UMAP/t-SNE, 군집화, 마커 유전자, 궤적 분석 등 표준 scRNA-seq 작업에 명확히 범위가 맞춰져 있습니다.
- 유효한 frontmatter, 긴 본문, 많은 섹션 제목, 코드 예시를 갖춘 충분한 분량의 SKILL.md로 실사용에 필요한 구조를 제공합니다.
- 사용 범위와 관련 스킬 안내가 포함되어 있어, 에이전트가 탐색적 단일세포 분석에는 Scanpy를 선택하고 딥러닝이나 AnnData 특화 질문은 다른 곳으로 넘기도록 돕습니다.
- 설치 명령, 지원 파일, 외부 참조가 제공되지 않아 실제 도입은 문서에 적힌 스킬 안내에 크게 의존합니다.
- 저장소가 문서 중심으로 보이므로, 패키지된 자동화나 검증된 스크립트보다 워크플로 안내를 기대하는 편이 맞습니다.
scanpy 스킬 개요
scanpy는 어떤 용도인가
scanpy 스킬은 Python에서 단일세포 RNA-seq 분석을 할 때 쓰입니다. 품질 관리, 정규화, 특징 선택, PCA, UMAP/t-SNE, 클러스터링, 마커 유전자 탐색, 궤적(trajectory)식 탐색 분석까지 다룹니다. 이미 AnnData 객체를 가지고 있거나 만들 수 있고, 딥러닝 모델 워크플로가 아니라 Data Analysis 중심의 실용적인 scanpy 가이드가 필요할 때 가장 잘 맞습니다.
누가 사용하면 좋은가
scRNA-seq 데이터를 다루고 있거나, 원시 카운트를 분석 가능한 객체로 바꾸고 있거나, 해석이나 논문용으로 그림과 클러스터 주석을 준비하는 경우 scanpy 스킬을 쓰면 좋습니다. 표준 탐색 파이프라인이 필요하고, 범용 바이오인포매틱스 입문서가 아니라 scanpy 설치와 사용 절차가 필요한 분석가에게 잘 맞습니다.
무엇이 다른가
이 저장소는 넓은 이론 개요보다 흔한 Scanpy 워크플로에 초점을 맞춥니다. 데이터 로딩, 전처리, 임베딩, 클러스터링, 시각화가 중심입니다. 경계도 더 분명합니다. 딥 생성 모델이 필요하면 scvi-tools를 보세요. 핵심 문제가 AnnData 구조나 파일 형식이라면 anndata가 더 나은 출발점입니다.
scanpy 스킬 사용 방법
스킬 설치와 확인
일반적인 디렉터리 워크플로에 따라 scanpy 스킬을 설치한 뒤, 프롬프트를 넣기 전에 스킬 파일을 먼저 여세요:
npx skills add K-Dense-AI/claude-scientific-skills --skill scanpy
설치 후에는 먼저 scientific-skills/scanpy/SKILL.md를 읽고, 파일 안에서 연결된 섹션이 있으면 그다음에 따라가세요. 여기에는 별도의 헬퍼 스크립트나 참고 폴더가 없으므로, 스킬 본문 자체가 가장 중요한 기준입니다.
분석 가능한 입력을 정확히 알려주기
scanpy를 가장 잘 쓰는 프롬프트는 데이터 형태, 포맷, 목표를 분명하게 적습니다. 입력이 .h5ad인지, 10X 출력인지, 카운트 행렬인지 적고, 샘플이나 배치가 몇 개인지, QC 기준이 필요한지, 통합이 필요한지, 클러스터링이나 플로팅이 필요한지, 어떤 결과를 원하는지도 함께 넣으세요. “scRNA-seq 데이터를 분석해줘”는 약한 프롬프트입니다. “scanpy로 두 개의 10X 데이터를 불러와 저품질 세포를 걸러내고, 정규화한 뒤 PCA/UMAP을 계산하고, 여러 해상도로 클러스터링하고, 각 클러스터의 마커 유전자를 찾아줘”처럼 구체적으로 써야 합니다.
실용적인 워크플로를 따르기
대부분의 작업은 다음 순서가 좋습니다. 데이터 로드, obs/var 점검, 저품질 세포와 유전자 필터링, 정규화/로그 변환, 고변동 유전자 선택, 스케일링과 PCA, 이웃 그래프 구성, UMAP 계산, 클러스터링, 그다음 마커 유전자 순위화나 유전자 세트 시각화. 이미 처리된 AnnData가 있다면 그 사실을 분명히 적으세요. 그래야 스킬이 설정 단계를 반복하지 않고, 빠진 분석 결정에 집중할 수 있습니다.
먼저 읽어야 할 부분을 고르기
SKILL.md의 맨 위부터 시작한 다음, 설정, 로딩, 전처리, 플로팅, 하위 분석을 다루는 사용 섹션으로 바로 넘어가세요. 저장소에 특정 입력 형식이나 관례가 적혀 있다면 프롬프트에서도 그것을 정확히 맞추는 것이 좋습니다. 목적은 모델이 코드나 분석 단계를 작성하기 전에 추측을 줄이는 데 있습니다.
scanpy 스킬 FAQ
scanpy는 scRNA-seq 전용인가?
네, 주로 그렇습니다. scanpy 스킬은 단일세포 전사체 워크플로, 특히 유전자 발현 행렬의 탐색 분석에 맞춰져 있습니다. bulk RNA-seq나, 특화된 단일세포 딥러닝 도구로 더 잘 처리되는 모델링 작업에는 적합하지 않습니다.
이미 모델에게 질문을 잘할 수 있어도 스킬이 필요한가?
전체 워크플로와 정확한 객체를 이미 알고 있다면 일반 프롬프트만으로도 충분할 수 있습니다. 하지만 일관된 분석 경로가 필요하고, 빠뜨리는 단계가 적고, QC·전처리·클러스터링·시각화에 대한 기본값이 더 나은 쪽이 필요하다면 scanpy 스킬이 더 유용합니다.
초보자도 쓰기 쉬운가?
파이프라인이 표준적이고, 스킬이 실용적인 scanpy 사용에 집중한다는 점에서 초보자 친화적입니다. 다만 기본적인 Python, 단일세포 개념, 원시 카운트와 정규화 데이터, 주석 메타데이터의 차이는 알고 있다고 가정합니다.
언제는 쓰지 말아야 하나?
문제가 주로 파일 변환, AnnData 스키마 설계, 세포 상태 추론용 신경망 모델 구축이라면 scanpy를 मुख्य 스킬로 쓰지 마세요. 그런 경우에는 다른 스킬이나 도구가 워크플로 전체를 억지로 scanpy에 맞추는 것보다 훨씬 좋은 결과를 줍니다.
scanpy 스킬 개선 방법
결정을 바꾸는 입력을 제공하기
품질을 가장 크게 높이는 방법은 데이터셋 크기, 생물종, 플랫폼, 배치 구조, 그리고 현재 어디까지 진행했는지를 분명히 말하는 것입니다. scanpy 사용에서는 ambient RNA 문제, doublet 필터링 필요 여부, 이미 알고 있는 마커 유전자 집합이 있는지도 함께 적으세요. 이런 정보가 QC와 해석에 직접 영향을 줍니다.
단계만 묻지 말고 결과물도 요청하기
“scanpy 분석”처럼 막연하게 묻기보다, 전처리 노트북, 클러스터링 워크플로, 마커 유전자 표, UMAP과 violin plot이 포함된 플로팅 블록처럼 구체적인 산출물을 요청하세요. 출력 목표가 분명할수록 모델이 적절한 scanpy 가이드 구조를 고르고, 필요 없는 기초 설명을 줄일 수 있습니다.
흔한 실패 모드를 점검하기
가장 흔한 실수는 QC 맥락을 생략하고, raw layer와 normalized layer를 섞고, neighbors와 scaling 선택을 확인하기 전에 클러스터링하고, 생물학적 질문을 정의하지 않은 채 결과를 요구하는 것입니다. 첫 시도가 너무 일반적이었다면, 정확한 입력 객체, 변수명, 그리고 분석이 뒷받침해야 하는 결정을 다시 넣어 수정하세요.
한 번에 한 가지 제약만 추가하기
첫 초안 이후에는 제약을 하나씩만 추가해 scanpy 스킬 출력을 다듬는 것이 좋습니다. 예를 들어 “h5ad만 사용”, “integration은 하지 않음”, “publication-quality plots로 작성”, “obs에 batch label 보존”처럼요. 이렇게 하면 워크플로는 안정적으로 유지하면서도 scanpy for Data Analysis 작업에서 중요한 부분만 더 정확하게 조일 수 있습니다.
