pytdc

bởi K-Dense-AI

pytdc là một skill dành cho Therapeutics Data Commons, cung cấp các bộ dữ liệu và benchmark khám phá thuốc sẵn sàng cho AI cho ADME, độc tính, DTI, DDI, tạo phân tử, chia scaffold và dự đoán dược lý.

Stars0

Yêu thích0

Bình luận0

Đã thêm14 thg 5, 2026

Danh mụcData Analysis

Lệnh cài đặt

npx skills add K-Dense-AI/claude-scientific-skills --skill pytdc

Điểm tuyển chọn

Skill này đạt 78/100, tức là một ứng viên khá tốt cho người dùng thư mục cần một quy trình PyTDC thực dụng cho ML trong therapeutics. Repository cung cấp đủ chi tiết vận hành để một agent nhận ra khi nào nên dùng, cài đặt ra sao và làm việc với các tác vụ bộ dữ liệu/benchmark chính với ít đoán mò hơn so với một prompt chung chung.

78/100

Điểm mạnh

Các trường hợp sử dụng được nêu rõ bao gồm ADME, độc tính, tương tác thuốc-mục tiêu, tạo phân tử và đánh giá benchmark.
Có sẵn lệnh cài đặt và nâng cấp với đường dẫn pip/uv cụ thể, giúp dễ kích hoạt và dễ áp dụng hơn.
SKILL.md dài, có cấu trúc với nhiều heading và các phần workflow cho thấy hướng dẫn vận hành thực chất, không phải nội dung giữ chỗ.

Điểm cần lưu ý

Cây thư mục của repository không cho thấy scripts, references, resources hay metadata lệnh cài đặt nào ngoài SKILL.md, nên một số workflow có thể chỉ dựa vào hướng dẫn mô tả.
Trích đoạn cho thấy phạm vi bao quát rộng nhưng chưa thấy rõ một quick start end-to-end hoàn chỉnh, vì vậy người dùng vẫn có thể cần thử nghiệm thêm cho từng tác vụ cụ thể.

Python Dataset Benchmarking Machine Learning Drug Discovery Therapeutic

Tổng quan

Tổng quan về skill pytdc

pytdc dùng để làm gì

pytdc là skill dành cho việc sử dụng Therapeutics Data Commons trong các workflow khám phá thuốc có hỗ trợ bởi AI. Nó giúp bạn tiếp cận các bộ dữ liệu và benchmark đã được tuyển chọn, sẵn sàng cho AI, cho các tác vụ ADME, độc tính, hoạt tính sinh học, tương tác thuốc–đích, tương tác thuốc–thuốc, sinh tạo, và các tác vụ đánh giá liên quan mà không phải tự nghĩ ra lược đồ dữ liệu của riêng mình.

Ai nên cài đặt

Hãy cài đặt skill pytdc nếu bạn đang làm ML cho therapeutics, dự đoán dược lý, hoặc benchmark mô hình trên các split và metric chuẩn hóa. Đây là lựa chọn rất phù hợp cho data scientist cần truy cập bộ dữ liệu có thể tái lập; ngược lại, nó kém phù hợp nếu bạn chỉ cần một prompt hóa học chung chung mà không có bước nạp dữ liệu hay đánh giá.

Vì sao nó quan trọng

Giá trị chính của skill pytdc không chỉ nằm ở việc truy cập dữ liệu, mà còn ở cấu trúc đi kèm: các loader theo từng tác vụ, các split chuẩn như scaffold hoặc cold split, và các lựa chọn đánh giá thân thiện với benchmark. Điều đó giúp giảm những trở ngại thường gặp khi áp dụng vào công việc drug discovery, nơi tiền xử lý không nhất quán và chia dữ liệu tùy hứng có thể khiến kết quả khó tin cậy.

Cách sử dụng skill pytdc

Cài đặt pytdc trong môi trường của bạn

Trước hết, hãy dùng lệnh cài đặt từ hướng dẫn của skill:
uv pip install PyTDC

Nếu cần cập nhật một bản cài đặt đã có, dùng:
uv pip install PyTDC --upgrade

Nếu quy trình của bạn dùng một package manager khác, hãy ánh xạ cùng tên package vào môi trường đó thay vì viết lại các giả định của skill.

Bắt đầu từ đúng các tệp

Hãy bắt đầu với SKILL.md, rồi đọc các phần về overview, khi nào nên dùng, cài đặt, và quick start trước khi đi thẳng vào code. Nếu bạn cần bối cảnh dự án rộng hơn, hãy xem bất kỳ tài liệu lân cận nào mà repo phơi bày qua cây tệp của skill; trong repository này, chính nội dung của skill là nguồn thông tin chuẩn quan trọng nhất.

Biến mục tiêu thô thành prompt có thể dùng được

pytdc usage hoạt động tốt nhất khi prompt của bạn nêu rõ tác vụ, nhóm dataset, chiến lược split, và mục tiêu đầu ra. Ví dụ, thay vì hỏi “giúp với PyTDC”, hãy hỏi:

“Load một bộ dữ liệu ADME trong pytdc, dùng scaffold split, và chuẩn bị một workflow regression cơ bản.”
“Hiển thị một pytdc guide cho benchmark DTI với train/validation/test splits và báo cáo metric.”
“Thiết lập pytdc for Data Analysis trên một bộ dữ liệu độc tính và tóm tắt cân bằng nhãn, missingness, và thiết kế split.”

Những chi tiết đó giúp skill chọn đúng nhánh tác vụ và tránh sinh ra code chung chung không khớp với thí nghiệm của bạn.

Workflow thường hiệu quả nhất

Trước tiên, hãy xác định tác vụ therapeutics; sau đó xác nhận class của dataset và chính sách split; tiếp theo mới nạp dữ liệu và kiểm tra nhãn trước khi modeling. Nếu bạn đang benchmark, hãy quyết định sớm xem mình cần scaffold split, cold split, hay một thiết lập đánh giá định sẵn khác, vì lựa chọn này ảnh hưởng đến khả năng so sánh nhiều hơn là lựa chọn model.

Câu hỏi thường gặp về skill pytdc

pytdc chỉ dành cho mô hình drug discovery thôi à?

Phần lớn là đúng. Skill pytdc được xây dựng xoay quanh các use case ML và dược lý trong therapeutics, đặc biệt là bộ dữ liệu và benchmark hơn là phân tích tabular đa dụng. Nếu dự án của bạn không liên quan đến hợp chất, protein, hoặc tác vụ tương tác thuốc, thì nhiều khả năng một skill khác sẽ phù hợp hơn.

Tôi có cần biết PyTDC trước khi dùng skill này không?

Không. Skill này vẫn hữu ích cho người mới nếu họ có thể mô tả mục tiêu bộ dữ liệu bằng ngôn ngữ tự nhiên. Điều quan trọng nhất là nói rõ tác vụ đích, split mong muốn, và bạn cần phân tích, dự đoán, hay sinh tạo.

Điểm khác gì so với một prompt bình thường?

Một prompt bình thường có thể mô tả các bước nạp dữ liệu hoặc modeling một lần, nhưng skill pytdc hữu ích hơn khi bạn cần truy cập dữ liệu có thể lặp lại và kỷ luật benchmark. Điều này đặc biệt quan trọng khi bạn cần các split và quy ước đánh giá chuẩn để kết quả dễ so sánh hơn.

Khi nào thì không nên dùng pytdc?

Đừng dùng pytdc nếu bạn không cần dữ liệu TDC hoặc benchmark therapeutics, hoặc nếu bạn chỉ muốn một cái nhìn tổng quan ở mức cao về hóa học dược phẩm. Nó cũng không phải lựa chọn tốt nhất nếu dữ liệu của bạn là dữ liệu độc quyền và không liên quan đến các họ tác vụ therapeutics được hỗ trợ.

Cách cải thiện skill pytdc

Nêu rõ tác vụ trước khi nói đến model

Cải thiện hữu ích nhất cho một yêu cầu pytdc là làm rõ bối cảnh bài toán hơn. Hãy nói rõ bạn cần property prediction, DTI, DDI, molecule generation, hay retrosynthesis trước khi nhắc đến kiến trúc hoặc metric. Như vậy, skill có thể chọn đúng dataset và các giả định tiền xử lý phù hợp.

Chỉ định rõ kỳ vọng về split và metric

Nhiều lỗi xuất phát từ việc đánh giá chưa đủ rõ ràng. Nếu bạn quan tâm đến scaffold split, cold split, ROC-AUC, PR-AUC, RMSE, hoặc metric xếp hạng, hãy nói ngay từ đầu trong prompt pytdc của bạn. Kết quả sẽ tốt hơn nhiều khi chiến lược split và metric được cố định trước khi bắt đầu bàn đến modeling.

Chia sẻ ràng buộc và dạng dữ liệu của bạn

Nếu bạn cần code chạy ngay trong notebook, một data audit nhẹ, hoặc khả năng tương thích với một stack cụ thể, hãy đưa điều đó vào yêu cầu. Với pytdc for Data Analysis, hãy nói rõ bạn muốn kiểm tra cân bằng lớp, thiếu giá trị, tóm tắt descriptor, hay rủi ro rò rỉ train/test để đầu ra tập trung đúng vào các chẩn đoán cần thiết.

Lặp lại bằng cách thu hẹp mục tiêu dataset

Nếu câu trả lời đầu tiên còn quá rộng, hãy thu hẹp theo nhóm dataset, loại tác vụ, và định dạng đầu ra. Một câu follow-up tốt hơn có thể là: “Giữ nguyên workflow pytdc, nhưng chuyển sang phân loại độc tính, dùng scaffold split, và chỉ trả về các bước nạp dữ liệu và đánh giá.”

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

clickhouse-best-practices

bởi ClickHouse

clickhouse-best-practices là skill best practices cho ClickHouse dành cho Database Engineering. Skill này hướng dẫn thiết kế schema, tối ưu truy vấn, chiến lược insert và kết nối agent bằng các khuyến nghị theo quy tắc, giúp việc kích hoạt, rà soát và trích dẫn cách dùng clickhouse-best-practices trong các workflow ClickHouse trở nên dễ dàng hơn.

Database Engineering

Yêu thích 0GitHub 412

chdb-datastore

bởi ClickHouse

chdb-datastore là một kỹ năng tương thích với pandas, phục vụ phân tích dữ liệu nhanh với DataStore API dựa trên ClickHouse. Kỹ năng này hỗ trợ kết nối file, cơ sở dữ liệu và cloud, join giữa nhiều nguồn dữ liệu, cùng các thay đổi mã tối thiểu cho workflow kiểu pandas. Hãy dùng hướng dẫn chdb-datastore này khi bạn cần một lớp phân tích cắm vào là chạy cho các tập dữ liệu lớn hơn.

Data Analysis

Yêu thích 0GitHub 0

sympy

bởi K-Dense-AI

Dùng sympy để làm toán học ký hiệu chính xác trong Python, bao gồm đại số, giải tích, ma trận, công thức vật lý, lý thuyết số, hình học và sinh mã. Skill này giúp bạn giữ biểu thức ở dạng chính xác, chọn đúng module của SymPy và tránh các lỗi thường gặp khi phụ thuộc quá nhiều vào số thực. Phù hợp nhất cho người cần một hướng dẫn sympy thực dụng cho quy trình làm việc ký hiệu và sympy cho phân tích dữ liệu.

Data Analysis

Yêu thích 0GitHub 21.4k

interpreting-culture-index

bởi trailofbits

interpreting-culture-index giúp diễn giải các khảo sát Culture Index, bản xuất hồ sơ và các ghi chú liên quan đến tuyển dụng hoặc coaching. Hãy dùng skill interpreting-culture-index này cho đánh giá độ phù hợp vai trò, động lực đội nhóm, nguy cơ kiệt sức, tóm tắt trao đổi ứng viên, kế hoạch onboarding và hòa giải xung đột. Skill này nhấn mạnh cách đọc tương đối theo mũi tên, kiểm tra anti-pattern và đầu ra thực tiễn cho phân tích dữ liệu cùng hỗ trợ ra quyết định.

Data Analysis

Yêu thích 0GitHub 5k

azure-search-documents-py

bởi microsoft

azure-search-documents-py là skill Python cho Azure AI Search, dành cho phát triển backend, bao gồm cài đặt, xác thực, thiết kế index, tìm kiếm vector, tìm kiếm hybrid, xếp hạng semantic và truy xuất theo tác tử. Hãy dùng azure-search-documents-py khi bạn cần hướng dẫn thực tế từ khâu thiết lập đến các mẫu truy vấn hoạt động được.

Backend Development

Yêu thích 0GitHub 2.3k

gget

bởi K-Dense-AI

gget là một skill tin sinh học giúp truy cập nhanh, thống nhất hơn 20 cơ sở dữ liệu hệ gen và công cụ phân tích từ CLI hoặc Python. Dùng nó để tra cứu thông tin gen, truy vấn liên quan đến BLAST, cấu trúc AlphaFold, dữ liệu biểu hiện, liên kết bệnh lý và các phân tích kiểu enrichment. Nó phù hợp cho việc khám phá nhanh và các quy trình phân tích dữ liệu với gget.

Data Analysis

Yêu thích 0GitHub 0

torch-geometric

bởi K-Dense-AI

Hướng dẫn skill torch-geometric cho mạng nơ-ron đồ thị PyTorch Geometric. Dùng để được hỗ trợ cài đặt torch-geometric, cách sử dụng torch-geometric, phân loại đồ thị, phân loại nút, dự đoán liên kết, đồ thị dị thể, các lớp MessagePassing tùy chỉnh và mở rộng GNN cho quy trình Machine Learning.

Machine Learning

Yêu thích 0GitHub 21.4k

rdkit

bởi K-Dense-AI

Kỹ năng rdkit hỗ trợ các quy trình cheminformatics chính xác: phân tích cú pháp SMILES, SDF, MOL, PDB và InChI; tính toán descriptor; tạo fingerprint; chạy tìm kiếm substructure; xử lý phản ứng; và xây dựng tọa độ 2D/3D. Hãy dùng hướng dẫn rdkit này khi cần kiểm soát nâng cao, sanitization tùy chỉnh, và quy trình rdkit cho phân tích dữ liệu.

Data Analysis

Yêu thích 0GitHub 21.4k

huggingface-vision-trainer

bởi huggingface

huggingface-vision-trainer giúp bạn cài đặt và sử dụng một skill Hugging Face cho các tác vụ huấn luyện thị giác máy tính: phát hiện đối tượng, phân loại ảnh và phân đoạn SAM/SAM2. Nội dung bao gồm chuẩn bị dữ liệu, thiết lập GPU trên cloud, đánh giá mô hình, ghi log bằng Trackio và đẩy kết quả lên Hub. Phù hợp cho tự động hóa backend và các quy trình huấn luyện có thể lặp lại.

Backend Development

Yêu thích 0GitHub 10.4k

seo-dataforseo

bởi AgriciDaniel

seo-dataforseo kết nối Claude với dữ liệu SEO trực tiếp qua DataForSEO MCP server để kiểm tra SERP, nghiên cứu từ khóa, backlink, phân tích on-page, nghiên cứu đối thủ, danh sách doanh nghiệp và theo dõi mức độ hiển thị trong AI. Đây là lựa chọn phù hợp nhất cho các quy trình dựa trên dữ liệu khi bạn cần bằng chứng tìm kiếm thực tế, hướng dẫn cài đặt rõ ràng và cách dùng seo-dataforseo thực tiễn.

Keyword Research

Yêu thích 0GitHub 6.2k

pymc

bởi K-Dense-AI

PyMC là một skill mô hình hóa Bayes để xây dựng, fit, kiểm tra và so sánh các mô hình xác suất trong Python. Dùng pymc cho hồi quy phân cấp, phân tích đa mức, chuỗi thời gian, dữ liệu thiếu, sai số đo lường và so sánh mô hình với LOO hoặc WAIC.

Data Analysis

Yêu thích 0GitHub 0

pymatgen

bởi K-Dense-AI

pymatgen là một toolkit khoa học vật liệu bằng Python cho cấu trúc tinh thể, giản đồ pha, cấu trúc điện tử và chuyển đổi tệp. Skill pymatgen này hỗ trợ các quy trình làm việc khoa học với CIF, POSCAR, VASP và dữ liệu Materials Project.

Scientific

Yêu thích 0GitHub 0

geopandas

bởi K-Dense-AI

Skill geopandas dành cho phân tích dữ liệu vector địa lý bằng Python, bao gồm shapefile, GeoJSON và GeoPackage. Dùng để đọc, làm sạch, nối, tạo vùng đệm, cắt, chuyển hệ tọa độ và xuất dữ liệu không gian với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

analyzing-threat-intelligence-feeds

bởi mukul975

Analyzing-threat-intelligence-feeds giúp bạn nạp các CTI feeds, chuẩn hóa chỉ báo, đánh giá chất lượng feed và làm giàu IOC cho quy trình STIX 2.1. Skill analyzing-threat-intelligence-feeds này được xây dựng cho nghiệp vụ threat intel và Data Analysis, với hướng dẫn thực hành cho TAXII, MISP và các feed thương mại.

Data Analysis

Yêu thích 0GitHub 0

azure-ai-textanalytics-py

bởi microsoft

azure-ai-textanalytics-py là một skill cho Azure AI Text Analytics trong Python. Skill này hỗ trợ phân tích cảm xúc, nhận diện thực thể, trích xuất cụm từ khóa, phát hiện ngôn ngữ, phát hiện PII và NLP cho y tế. Hãy dùng khi bạn cần đi nhanh từ khâu thiết lập client Azure, xác thực đến cách dùng text analytics thực tế cho ứng dụng, notebook hoặc quy trình phân tích dữ liệu.

Data Analysis

Yêu thích 0GitHub 0

chdb-sql

bởi ClickHouse

chdb-sql là một GitHub skill để chạy ClickHouse SQL trong Python mà không cần server. Skill này bao gồm `chdb.query()`, `Session`, kết nối DB-API, các table function như `file()` và `s3()`, truy vấn tham số, và quy trình phát triển backend với tệp cục bộ cùng nguồn dữ liệu bên ngoài.

Backend Development

Yêu thích 0GitHub 0