pytdc는 Therapeutics Data Commons를 위한 스킬로, ADME, 독성, DTI, DDI, 생성, scaffold 분할, 약리 예측에 바로 사용할 수 있는 약물 발견 데이터셋과 벤치마크를 제공합니다.

Stars0
즐겨찾기0
댓글0
추가됨2026년 5월 14일
카테고리Data Analysis
설치 명령어
npx skills add K-Dense-AI/claude-scientific-skills --skill pytdc
큐레이션 점수

이 스킬은 100점 만점에 78점으로, 치료제 ML에 필요한 실용적인 PyTDC 워크플로를 찾는 디렉터리 사용자에게 충분히 유력한 후보입니다. 저장소에는 에이전트가 언제 이 도구를 써야 하는지, 어떻게 설치하고, 핵심 데이터셋/벤치마크 작업을 어떻게 다뤄야 하는지 판단하는 데 도움이 되는 운영 정보가 담겨 있어, 일반적인 프롬프트보다 훨씬 적은 시행착오로 접근할 수 있습니다.

78/100
강점
  • ADME, 독성, 약물-표적 상호작용, 분자 생성, 벤치마크 평가까지 구체적인 활용 사례가 명시돼 있습니다.
  • 설치 및 업그레이드 명령이 `pip`/`uv` 경로와 함께 제시되어 있어, 트리거 가능성과 도입성이 높습니다.
  • 여러 헤딩과 워크플로 섹션으로 구성된 긴 `SKILL.md`는 단순 자리표시자가 아닌 실질적인 운영 가이드를 제공함을 시사합니다.
주의점
  • 저장소 트리에는 `SKILL.md` 외에 스크립트, 레퍼런스, 리소스, 설치 명령 메타데이터가 보이지 않아, 일부 워크플로는 서술형 안내에만 의존할 수 있습니다.
  • 발췌본에는 범위는 넓게 보이지만 완전한 엔드투엔드 퀵스타트가 다 보이지 않으므로, 특정 작업에서는 여전히 약간의 시행착오가 필요할 수 있습니다.
개요

pytdc 스킬 개요

pytdc는 무엇을 위한 스킬인가

pytdc는 AI 기반 신약 개발 워크플로에서 Therapeutics Data Commons를 활용할 때 쓰는 스킬입니다. ADME, 독성, 생물활성, drug-target interaction, drug-drug interaction, 생성, 그리고 관련 평가 작업에 필요한 정제된 AI-ready 데이터셋과 벤치마크에 자체 데이터 스키마를 새로 만들지 않고도 접근할 수 있게 해줍니다.

누가 설치해야 하나

표준화된 split과 metric으로 치료제 ML, 약리 예측, 또는 모델 벤치마킹을 하고 있다면 pytdc 스킬을 설치하세요. 재현 가능한 데이터셋 접근이 필요한 데이터 과학자에게는 잘 맞지만, 데이터 로딩이나 평가 단계 없이 단순히 범용 화학 프롬프트만 필요한 경우에는 적합도가 떨어집니다.

왜 중요한가

pytdc 스킬의 핵심 가치는 단순한 데이터셋 접근이 아니라 그 둘레에 있는 구조에 있습니다. 작업별 로더, scaffold split이나 cold split 같은 표준 분할 방식, 벤치마크 친화적인 평가 선택지가 함께 제공됩니다. 덕분에 비일관적인 전처리와 즉흥적인 split 때문에 결과를 신뢰하기 어려워지는 신약 개발 작업의 흔한 도입 장벽을 줄일 수 있습니다.

pytdc 스킬 사용 방법

환경에 pytdc 설치하기

먼저 스킬 안내에 나온 설치 명령을 사용하세요:
uv pip install PyTDC

기존 설정을 업데이트하려면 다음을 사용합니다:
uv pip install PyTDC --upgrade

워크플로에서 다른 패키지 관리자를 사용한다면, 스킬의 가정을 바꾸지 말고 같은 패키지 이름을 해당 환경에 맞게 매핑하세요.

올바른 파일부터 시작하기

먼저 SKILL.md를 열고, 코드로 바로 넘어가기 전에 overview, when to use, installation, quick start 섹션을 읽으세요. 더 넓은 프로젝트 맥락이 필요하다면, repo가 skill file tree를 통해 노출하는 주변 문서도 살펴보세요. 이 저장소에서는 스킬 내용 자체가 가장 중요한 기준입니다.

대략적인 목표를 쓸 수 있는 프롬프트로 바꾸기

pytdc usage는 프롬프트에 task, dataset family, split strategy, output goal을 분명히 적을수록 가장 잘 작동합니다. 예를 들어 “PyTDC 좀 도와줘”라고 묻기보다 다음처럼 요청하세요:

  • pytdc에서 ADME 데이터셋을 불러오고, scaffold split을 사용해서 baseline regression workflow를 준비해줘.”
  • “train/validation/test split과 metric reporting이 포함된 DTI benchmarking용 pytdc guide를 보여줘.”
  • “독성 데이터셋에서 pytdc for Data Analysis를 설정하고 label balance, missingness, split design를 요약해줘.”

이런 세부 정보가 있어야 스킬이 올바른 task path를 선택하고, 실험과 맞지 않는 일반적인 코드로 흐르는 일을 막을 수 있습니다.

보통 가장 잘 통하는 워크플로

먼저 치료 과제를 정하고, 그다음 dataset class와 split policy를 확인한 뒤, 데이터를 불러와 label을 살펴본 후 모델링으로 넘어가세요. 벤치마킹이 목적이라면 scaffold split, cold split, 또는 다른 사전 정의된 평가 설정 중 무엇이 필요한지 초기에 정해야 합니다. 이 선택은 모델 선택보다 비교 가능성에 더 큰 영향을 주기 때문입니다.

pytdc 스킬 FAQ

pytdc는 drug discovery 모델에만 쓰이나요?

대체로 그렇습니다. pytdc 스킬은 범용 표 형식 분석보다 치료제 ML과 약리학 사용 사례, 특히 데이터셋과 벤치마크를 중심으로 만들어졌습니다. 프로젝트가 화합물, 단백질, drug interaction 작업과 무관하다면 다른 스킬이 더 나은 선택일 가능성이 큽니다.

스킬을 쓰기 전에 PyTDC 경험이 꼭 필요한가요?

아니요. 이 스킬은 데이터셋 목표를 평이한 언어로 설명할 수 있는 초보자에게도 유용합니다. 가장 중요한 것은 대상 task, 원하는 split, 그리고 분석인지 예측인지 생성인지 를 구체적으로 말하는 것입니다.

일반적인 프롬프트와 무엇이 다른가요?

일반적인 프롬프트는 일회성 로딩이나 모델링 단계를 설명할 수 있지만, pytdc 스킬은 반복 가능한 데이터 접근과 벤치마크 규율이 필요할 때 더 큰 가치를 냅니다. 특히 결과를 비교하기 쉬운 표준 split과 평가 관례가 필요할 때 중요합니다.

언제 pytdc를 쓰지 말아야 하나요?

TDC 데이터셋이나 치료제 벤치마크가 필요하지 않거나, 약물화학 개념의 고수준 개요만 원한다면 pytdc를 쓰지 마세요. 또한 데이터가 비공개이며 지원되는 치료 task family와도 무관하다면 이 스킬은 최선의 선택이 아닙니다.

pytdc 스킬 개선 방법

모델 아이디어보다 task를 먼저 제시하기

pytdc 요청을 더 좋게 만드는 가장 효과적인 개선은 문제 정의를 더 분명하게 쓰는 것입니다. 아키텍처나 metric을 언급하기 전에 property prediction, DTI, DDI, molecule generation, retrosynthesis 중 무엇이 필요한지 말하세요. 그래야 스킬이 올바른 dataset과 전처리 가정을 선택할 수 있습니다.

split과 metric 기대치를 명시하기

실패의 상당수는 evaluation이 충분히 구체적이지 않아서 생깁니다. scaffold split, cold split, ROC-AUC, PR-AUC, RMSE, ranking metrics가 중요하다면 pytdc 프롬프트에서 미리 분명히 적으세요. split strategy와 metric이 modeling discussion보다 먼저 고정될수록 결과가 훨씬 좋아집니다.

제약 조건과 데이터 형태를 공유하기

notebook-ready code, 가벼운 data audit, 특정 stack과의 호환성이 필요하다면 요청에 함께 적으세요. pytdc for Data Analysis를 쓸 때는 class balance, missing-value checks, descriptor summaries, train/test leakage risk checks 중 무엇이 필요한지 명시하면 출력이 올바른 진단에 집중합니다.

데이터셋 타깃을 더 좁혀가며 반복하기

첫 답변이 너무 넓다면 dataset family, task type, output format으로 범위를 더 줄이세요. 더 나은 후속 요청은 이런 식일 수 있습니다: “같은 pytdc workflow를 유지하되, toxicity classification으로 바꾸고 scaffold split을 사용한 뒤, data-loading과 evaluation 단계만 반환해줘.”

평점 및 리뷰

아직 평점이 없습니다
리뷰 남기기
이 스킬의 평점과 리뷰를 남기려면 로그인하세요.
G
0/10000
최신 리뷰
저장 중...
pytdc 설치 및 사용 가이드