pytdc

작성자 K-Dense-AI

pytdc는 Therapeutics Data Commons를 위한 스킬로, ADME, 독성, DTI, DDI, 생성, scaffold 분할, 약리 예측에 바로 사용할 수 있는 약물 발견 데이터셋과 벤치마크를 제공합니다.

Stars0

즐겨찾기0

추가됨2026년 5월 14일

카테고리Data Analysis

설치 명령어

npx skills add K-Dense-AI/claude-scientific-skills --skill pytdc

큐레이션 점수

이 스킬은 100점 만점에 78점으로, 치료제 ML에 필요한 실용적인 PyTDC 워크플로를 찾는 디렉터리 사용자에게 충분히 유력한 후보입니다. 저장소에는 에이전트가 언제 이 도구를 써야 하는지, 어떻게 설치하고, 핵심 데이터셋/벤치마크 작업을 어떻게 다뤄야 하는지 판단하는 데 도움이 되는 운영 정보가 담겨 있어, 일반적인 프롬프트보다 훨씬 적은 시행착오로 접근할 수 있습니다.

78/100

강점

ADME, 독성, 약물-표적 상호작용, 분자 생성, 벤치마크 평가까지 구체적인 활용 사례가 명시돼 있습니다.
설치 및 업그레이드 명령이 `pip`/`uv` 경로와 함께 제시되어 있어, 트리거 가능성과 도입성이 높습니다.
여러 헤딩과 워크플로 섹션으로 구성된 긴 `SKILL.md`는 단순 자리표시자가 아닌 실질적인 운영 가이드를 제공함을 시사합니다.

주의점

저장소 트리에는 `SKILL.md` 외에 스크립트, 레퍼런스, 리소스, 설치 명령 메타데이터가 보이지 않아, 일부 워크플로는 서술형 안내에만 의존할 수 있습니다.
발췌본에는 범위는 넓게 보이지만 완전한 엔드투엔드 퀵스타트가 다 보이지 않으므로, 특정 작업에서는 여전히 약간의 시행착오가 필요할 수 있습니다.

Python Dataset Benchmarking Machine Learning Drug Discovery Therapeutic

개요

pytdc 스킬 개요

pytdc는 무엇을 위한 스킬인가

pytdc는 AI 기반 신약 개발 워크플로에서 Therapeutics Data Commons를 활용할 때 쓰는 스킬입니다. ADME, 독성, 생물활성, drug-target interaction, drug-drug interaction, 생성, 그리고 관련 평가 작업에 필요한 정제된 AI-ready 데이터셋과 벤치마크에 자체 데이터 스키마를 새로 만들지 않고도 접근할 수 있게 해줍니다.

누가 설치해야 하나

표준화된 split과 metric으로 치료제 ML, 약리 예측, 또는 모델 벤치마킹을 하고 있다면 pytdc 스킬을 설치하세요. 재현 가능한 데이터셋 접근이 필요한 데이터 과학자에게는 잘 맞지만, 데이터 로딩이나 평가 단계 없이 단순히 범용 화학 프롬프트만 필요한 경우에는 적합도가 떨어집니다.

왜 중요한가

pytdc 스킬의 핵심 가치는 단순한 데이터셋 접근이 아니라 그 둘레에 있는 구조에 있습니다. 작업별 로더, scaffold split이나 cold split 같은 표준 분할 방식, 벤치마크 친화적인 평가 선택지가 함께 제공됩니다. 덕분에 비일관적인 전처리와 즉흥적인 split 때문에 결과를 신뢰하기 어려워지는 신약 개발 작업의 흔한 도입 장벽을 줄일 수 있습니다.

pytdc 스킬 사용 방법

환경에 pytdc 설치하기

먼저 스킬 안내에 나온 설치 명령을 사용하세요:
uv pip install PyTDC

기존 설정을 업데이트하려면 다음을 사용합니다:
uv pip install PyTDC --upgrade

워크플로에서 다른 패키지 관리자를 사용한다면, 스킬의 가정을 바꾸지 말고 같은 패키지 이름을 해당 환경에 맞게 매핑하세요.

올바른 파일부터 시작하기

먼저 SKILL.md를 열고, 코드로 바로 넘어가기 전에 overview, when to use, installation, quick start 섹션을 읽으세요. 더 넓은 프로젝트 맥락이 필요하다면, repo가 skill file tree를 통해 노출하는 주변 문서도 살펴보세요. 이 저장소에서는 스킬 내용 자체가 가장 중요한 기준입니다.

대략적인 목표를 쓸 수 있는 프롬프트로 바꾸기

pytdc usage는 프롬프트에 task, dataset family, split strategy, output goal을 분명히 적을수록 가장 잘 작동합니다. 예를 들어 “PyTDC 좀 도와줘”라고 묻기보다 다음처럼 요청하세요:

“pytdc에서 ADME 데이터셋을 불러오고, scaffold split을 사용해서 baseline regression workflow를 준비해줘.”
“train/validation/test split과 metric reporting이 포함된 DTI benchmarking용 pytdc guide를 보여줘.”
“독성 데이터셋에서 pytdc for Data Analysis를 설정하고 label balance, missingness, split design를 요약해줘.”

이런 세부 정보가 있어야 스킬이 올바른 task path를 선택하고, 실험과 맞지 않는 일반적인 코드로 흐르는 일을 막을 수 있습니다.

보통 가장 잘 통하는 워크플로

먼저 치료 과제를 정하고, 그다음 dataset class와 split policy를 확인한 뒤, 데이터를 불러와 label을 살펴본 후 모델링으로 넘어가세요. 벤치마킹이 목적이라면 scaffold split, cold split, 또는 다른 사전 정의된 평가 설정 중 무엇이 필요한지 초기에 정해야 합니다. 이 선택은 모델 선택보다 비교 가능성에 더 큰 영향을 주기 때문입니다.

pytdc 스킬 FAQ

pytdc는 drug discovery 모델에만 쓰이나요?

대체로 그렇습니다. pytdc 스킬은 범용 표 형식 분석보다 치료제 ML과 약리학 사용 사례, 특히 데이터셋과 벤치마크를 중심으로 만들어졌습니다. 프로젝트가 화합물, 단백질, drug interaction 작업과 무관하다면 다른 스킬이 더 나은 선택일 가능성이 큽니다.

스킬을 쓰기 전에 PyTDC 경험이 꼭 필요한가요?

아니요. 이 스킬은 데이터셋 목표를 평이한 언어로 설명할 수 있는 초보자에게도 유용합니다. 가장 중요한 것은 대상 task, 원하는 split, 그리고 분석인지 예측인지 생성인지 를 구체적으로 말하는 것입니다.

일반적인 프롬프트와 무엇이 다른가요?

일반적인 프롬프트는 일회성 로딩이나 모델링 단계를 설명할 수 있지만, pytdc 스킬은 반복 가능한 데이터 접근과 벤치마크 규율이 필요할 때 더 큰 가치를 냅니다. 특히 결과를 비교하기 쉬운 표준 split과 평가 관례가 필요할 때 중요합니다.

언제 pytdc를 쓰지 말아야 하나요?

TDC 데이터셋이나 치료제 벤치마크가 필요하지 않거나, 약물화학 개념의 고수준 개요만 원한다면 pytdc를 쓰지 마세요. 또한 데이터가 비공개이며 지원되는 치료 task family와도 무관하다면 이 스킬은 최선의 선택이 아닙니다.

pytdc 스킬 개선 방법

모델 아이디어보다 task를 먼저 제시하기

pytdc 요청을 더 좋게 만드는 가장 효과적인 개선은 문제 정의를 더 분명하게 쓰는 것입니다. 아키텍처나 metric을 언급하기 전에 property prediction, DTI, DDI, molecule generation, retrosynthesis 중 무엇이 필요한지 말하세요. 그래야 스킬이 올바른 dataset과 전처리 가정을 선택할 수 있습니다.

split과 metric 기대치를 명시하기

실패의 상당수는 evaluation이 충분히 구체적이지 않아서 생깁니다. scaffold split, cold split, ROC-AUC, PR-AUC, RMSE, ranking metrics가 중요하다면 pytdc 프롬프트에서 미리 분명히 적으세요. split strategy와 metric이 modeling discussion보다 먼저 고정될수록 결과가 훨씬 좋아집니다.

제약 조건과 데이터 형태를 공유하기

notebook-ready code, 가벼운 data audit, 특정 stack과의 호환성이 필요하다면 요청에 함께 적으세요. pytdc for Data Analysis를 쓸 때는 class balance, missing-value checks, descriptor summaries, train/test leakage risk checks 중 무엇이 필요한지 명시하면 출력이 올바른 진단에 집중합니다.

데이터셋 타깃을 더 좁혀가며 반복하기

첫 답변이 너무 넓다면 dataset family, task type, output format으로 범위를 더 줄이세요. 더 나은 후속 요청은 이런 식일 수 있습니다: “같은 pytdc workflow를 유지하되, toxicity classification으로 바꾸고 scaffold split을 사용한 뒤, data-loading과 evaluation 단계만 반환해줘.”

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

clickhouse-best-practices

작성자 ClickHouse

clickhouse-best-practices는 Database Engineering을 위한 ClickHouse 모범 사례 skill입니다. 스키마 설계, 쿼리 튜닝, insert 전략, 에이전트 연결성을 규칙 기반 권장사항으로 안내해, ClickHouse 워크플로에서 clickhouse-best-practices 사용을 더 쉽게 트리거하고 검토하며 인용할 수 있게 합니다.

Database Engineering

즐겨찾기 0GitHub 412

chdb-datastore

작성자 ClickHouse

chdb-datastore는 ClickHouse 기반 DataStore API를 활용해 빠른 데이터 분석을 지원하는 pandas 호환 skill입니다. 파일, 데이터베이스, 클라우드 커넥터를 지원하고, 서로 다른 소스 간 조인도 가능하며, pandas 스타일 워크플로우에 최소한의 코드 수정만으로 적용할 수 있습니다. 더 큰 데이터셋을 바로 분석할 수 있는 드롭인 분석 계층이 필요할 때 이 chdb-datastore 가이드를 사용하세요.

Data Analysis

즐겨찾기 0GitHub 0

sympy

작성자 K-Dense-AI

sympy 스킬로 Python에서 대수, 미적분, 행렬, 물리 공식, 수론, 기하, 코드 생성까지 정확한 기호 수학을 처리하세요. 식을 정확하게 유지하고, 적절한 SymPy 모듈을 고르며, 부동소수점 위주의 오류를 피하는 데 도움이 됩니다. 기호 워크플로와 데이터 분석용 sympy를 실용적으로 다루려는 사용자에게 특히 적합합니다.

Data Analysis

즐겨찾기 0GitHub 21.4k

interpreting-culture-index

작성자 trailofbits

interpreting-culture-index는 Culture Index 설문, 프로필 내보내기 파일, 그리고 관련 채용·코칭 메모를 해석하는 데 도움을 줍니다. 역할 적합도, 팀 역학, 번아웃 위험, 지원자 피드백, 온보딩 계획, 갈등 중재에 이 interpreting-culture-index 스킬을 활용하세요. 화살표 상대 해석, 안티패턴 점검, 그리고 데이터 분석과 의사결정 지원에 유용한 실용적 결과물에 중점을 둡니다.

Data Analysis

즐겨찾기 0GitHub 5k

azure-search-documents-py

작성자 microsoft

azure-search-documents-py는 Python용 Azure AI Search 스킬로, 백엔드 개발에 필요한 설치, 인증, 인덱스 설계, 벡터 검색, 하이브리드 검색, 시맨틱 랭킹, 에이전틱 검색까지 다룹니다. 설정부터 실제 쿼리 패턴까지 실무 중심의 안내가 필요할 때 azure-search-documents-py 스킬을 사용하세요.

Backend Development

즐겨찾기 0GitHub 2.3k

gget

작성자 K-Dense-AI

gget은 CLI 또는 Python에서 20개 이상의 유전체 데이터베이스와 분석 도구에 빠르고 통합적으로 접근할 수 있는 생물정보학 스킬입니다. 유전자 정보, BLAST 관련 조회, AlphaFold 구조, 발현 데이터, 질병 연관성, enrichment 스타일 분석에 활용할 수 있습니다. 빠른 탐색과 gget 기반 데이터 분석 워크플로에 잘 맞습니다.

Data Analysis

즐겨찾기 0GitHub 0

torch-geometric

작성자 K-Dense-AI

PyTorch Geometric 그래프 신경망을 위한 torch-geometric 스킬 가이드입니다. torch-geometric 설치 도움, 사용법, 그래프 분류, 노드 분류, 링크 예측, 이종 그래프, 커스텀 MessagePassing 레이어, 그리고 머신러닝 워크플로에서 GNN 확장까지 다룰 때 활용하세요.

Machine Learning

즐겨찾기 0GitHub 21.4k

rdkit

작성자 K-Dense-AI

RDKit 스킬은 정밀한 화학정보학 워크플로를 지원합니다. SMILES, SDF, MOL, PDB, InChI 파싱부터 descriptor 계산, fingerprint 생성, substructure search, 반응 처리, 2D/3D 좌표 생성까지 다룹니다. 이 RDKit 가이드는 고급 제어, 사용자 정의 sanitization, 그리고 Data Analysis 워크플로에서의 RDKit 활용에 적합합니다.

Data Analysis

즐겨찾기 0GitHub 21.4k

huggingface-vision-trainer

작성자 huggingface

huggingface-vision-trainer는 객체 탐지, 이미지 분류, SAM/SAM2 세그멘테이션 같은 비전 학습 작업에 사용할 Hugging Face 스킬을 설치하고 활용하는 데 도움을 줍니다. 데이터셋 준비, 클라우드 GPU 설정, 평가, Trackio 로깅, 결과를 Hub에 푸시하는 과정까지 다루며, 백엔드 자동화와 반복 가능한 학습 워크플로에 적합합니다.

Backend Development

즐겨찾기 0GitHub 10.4k

seo-dataforseo

작성자 AgriciDaniel

seo-dataforseo는 DataForSEO MCP 서버를 통해 Claude를 실시간 SEO 데이터와 연결합니다. SERP 확인, 키워드 리서치, 백링크, 온페이지 분석, 경쟁사 조사, 비즈니스 등록정보, AI 가시성 추적까지 지원합니다. 실제 검색 근거가 필요하고, 명확한 설치 안내와 실용적인 seo-dataforseo 사용법이 중요한 데이터 기반 워크플로에 가장 적합합니다.

Keyword Research

즐겨찾기 0GitHub 6.2k

pymc

작성자 K-Dense-AI

PyMC는 Python에서 확률적 모델을 구축, 적합, 점검, 비교하는 데 쓰는 베이지안 모델링 스킬입니다. pymc는 계층적 회귀, 다층 분석, 시계열, 결측값, 측정 오차, 그리고 LOO 또는 WAIC를 활용한 모델 비교에 사용하세요.

Data Analysis

즐겨찾기 0GitHub 0

pymatgen

작성자 K-Dense-AI

pymatgen은 결정 구조, 상평형도, 전자 구조, 파일 변환을 다루는 Python 재료과학 툴킷입니다. 이 pymatgen 스킬은 CIF, POSCAR, VASP, Materials Project 데이터를 활용하는 과학 워크플로를 지원합니다.

Scientific

즐겨찾기 0GitHub 0

geopandas

작성자 K-Dense-AI

Python 지리공간 벡터 데이터 분석을 위한 geopandas 스킬로, shapefiles, GeoJSON, GeoPackage 파일을 다룹니다. 공간 데이터를 읽고, 정리하고, 결합하고, 버퍼를 만들고, 자르고, 재투영하고, 내보내는 작업을 더 적은 추측으로 수행할 때 유용합니다.

Data Analysis

즐겨찾기 0GitHub 0

analyzing-threat-intelligence-feeds

작성자 mukul975

analyzing-threat-intelligence-feeds는 CTI 피드를 수집하고, 지표를 정규화하며, 피드 품질을 평가하고, STIX 2.1 워크플로를 위한 IOC를 보강하는 데 도움을 줍니다. 이 analyzing-threat-intelligence-feeds 스킬은 위협 인텔 운영과 데이터 분석에 맞춰 설계되었으며, TAXII, MISP, 상용 피드를 실무적으로 다루는 방법을 제공합니다.

Data Analysis

즐겨찾기 0GitHub 0

azure-ai-textanalytics-py

작성자 microsoft

azure-ai-textanalytics-py는 Python용 Azure AI Text Analytics 스킬입니다. 감성 분석, 개체 인식, 핵심 구문 추출, 언어 감지, PII 탐지, 의료 NLP에 도움이 됩니다. 앱, 노트북, 데이터 분석 워크플로에서 Azure 클라이언트 설정, 인증, 실전 텍스트 분석을 빠르게 시작해야 할 때 적합합니다.

Data Analysis

즐겨찾기 0GitHub 0

chdb-sql

작성자 ClickHouse

chdb-sql은 서버 없이 Python에서 ClickHouse SQL을 실행할 수 있게 해주는 GitHub 스킬입니다. `chdb.query()`, `Session`, DB-API 연결, `file()`과 `s3()` 같은 테이블 함수, 매개변수화 쿼리, 로컬 파일과 외부 데이터 소스를 다루는 백엔드 개발 워크플로를 폭넓게 다룹니다.

Backend Development

즐겨찾기 0GitHub 0