pytdc

pytdc 是面向 Therapeutics Data Commons 的技能，提供可直接用于 AI 的药物发现数据集和基准，覆盖 ADME、毒性、DTI、DDI、生成、scaffold 划分以及药理预测。

Stars0

收录时间2026年5月14日

分类数据分析

安装命令

npx skills add K-Dense-AI/claude-scientific-skills --skill pytdc

编辑评分

该技能得分 78/100，说明它是一个稳妥的目录候选项，适合需要实用 PyTDC 工作流来做 therapeutics 机器学习的用户。仓库提供了足够的操作细节，能帮助 agent 判断何时使用、如何安装，以及如何处理关键的数据集和基准任务，比通用提示词更少猜测。

78/100

亮点

明确的使用场景覆盖 ADME、毒性、药物-靶点相互作用、分子生成和基准评估。
提供了安装和升级命令，并给出具体的 pip/uv 路径，有助于触发使用和实际采用。
结构完整、篇幅较长的 SKILL.md，包含大量标题和工作流部分，说明它提供的是实质性的操作指引，而不是占位内容。

注意点

仓库目录树里除了 SKILL.md 之外，没有脚本、参考资料、资源或安装命令元数据，因此部分工作流可能只能依赖文字说明。
节选内容显示覆盖面很广，但这里没有完整可见的端到端快速开始，因此用户在具体任务上仍可能需要一些试错。

Python 数据集基准测试 Machine Learning 药物发现治疗

概览

pytdc 技能概览

pytdc 是做什么的

pytdc 是用于在 AI 驱动的药物发现工作流中使用 Therapeutics Data Commons 的技能。它可以帮助你直接获取经过整理、适合 AI 训练的数据集和基准，覆盖 ADME、毒性、生物活性、药物-靶点相互作用、药物-药物相互作用、生成任务以及相关评估任务，而不必自己发明一套数据 schema。

适合谁安装

如果你在做治疗性 ML、药理预测，或者需要在标准化划分和指标上对模型做 benchmark，就应该安装 pytdc 技能。对于需要可复现数据访问的数据科学家来说，它非常合适；但如果你只是想要一个通用的化学提示词、并不涉及数据加载或评估步骤，那它就不太适合。

为什么它重要

pytdc 技能的核心价值不只是数据集访问本身，而是围绕数据集建立起来的结构化能力：针对任务的 loader、诸如 scaffold split 或 cold split 之类的标准划分，以及更适合 benchmark 的评估选项。这样可以减少药物发现工作里常见的落地阻力——比如预处理不一致、划分方式随意，都会让结果很难被信任。

如何使用 pytdc 技能

在你的环境中安装 pytdc

先使用技能说明里的安装命令：
uv pip install PyTDC

如果要更新已有环境，使用：
uv pip install PyTDC --upgrade

如果你的工作流使用的是其他包管理器，把同样的包名映射到那个环境里即可，不要改写这套技能默认的假设。

先从正确的文件开始

先看 SKILL.md，然后再读 overview、when to use、installation 和 quick start 这些部分，再进入代码。如果你需要更完整的项目上下文，可以查看 repo 通过 skill 文件树暴露出来的相邻文档；在这个仓库里，skill 内容本身就是主要事实来源。

把模糊目标转成可用提示词

pytdc usage 最好在提示词里明确写出任务、数据集家族、划分策略和输出目标。比如，不要只说“帮我用 PyTDC”，而应改成：

“在 pytdc 里加载一个 ADME 数据集，使用 scaffold split，并准备一个 baseline 回归流程。”
“给出一个用于 DTI benchmarking 的 pytdc guide，包含 train/validation/test 划分和指标报告。”
“在毒性数据集上设置 pytdc for Data Analysis，并总结标签平衡、缺失情况和划分设计。”

这些细节能帮助技能选择正确的任务路径，避免生成与实验不匹配的通用代码。

通常最有效的工作流

先明确治疗任务，再确认数据集类别和划分策略，然后加载数据、检查标签，最后再建模。如果你是在做 benchmark，尽早决定是需要 scaffold split、cold split 还是其他预定义评估方案，因为这类选择对可比性的影响通常比模型选择更大。

pytdc 技能常见问题

pytdc 只适用于药物发现模型吗？

大体上是的。pytdc 技能围绕治疗性 ML 和药理学场景构建，重点是数据集和 benchmark，而不是通用表格分析。如果你的项目与化合物、蛋白质或药物相互作用无关，通常别的技能会更合适。

使用这个技能前需要先熟悉 PyTDC 吗？

不需要。这个技能对能用自然语言描述数据集目标的初学者同样有用。最重要的是把目标任务、所需划分，以及你要做的是分析、预测还是生成说清楚。

它和普通提示词有什么不同？

普通提示词可以描述一次性的加载或建模步骤，但 pytdc 技能更适合你想要可重复的数据访问和更严格的 benchmark 纪律时使用。尤其当你需要标准划分和统一评估惯例，让结果更容易比较时，它的价值会更明显。

什么情况下不该用 pytdc？

如果你不需要 TDC 数据集或治疗性 benchmark，或者你只是想快速了解 medicinal chemistry 的高层概念，就不该用 pytdc。如果你的数据是专有数据，而且与支持的治疗任务家族无关，它也不是最佳选择。

如何改进 pytdc 技能

先给出任务，再谈模型想法

对 pytdc 请求来说，最有用的改进往往是把问题定义得更清楚。先说明你需要 property prediction、DTI、DDI、molecule generation 还是 retrosynthesis，再提架构或指标。这样技能才能选择正确的数据集和预处理假设。

明确划分方式和指标预期

很多失败都来自评估要求说得不够具体。如果你在意 scaffold split、cold split、ROC-AUC、PR-AUC、RMSE 或 ranking metrics，就要在 pytdc 提示词里提前写明。最好在开始建模讨论之前，就先固定划分策略和指标，这样输出会明显更好。

说明你的约束和数据形态

如果你需要适合 notebook 的代码、轻量级数据审计，或者要兼容某个特定技术栈，也要一并写进请求里。对于 pytdc for Data Analysis，请说明你想看 class balance、缺失值检查、descriptor 汇总，还是 train/test leakage 风险检查，这样输出才能聚焦在正确的诊断项上。

通过收窄数据集目标来迭代

如果第一次回答太泛，就按数据集家族、任务类型和输出格式继续收窄。更好的追问可以是：“保持同样的 pytdc 工作流，但切换到 toxicity classification，使用 scaffold split，并且只返回数据加载和评估步骤。”

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是面向数据库工程的 ClickHouse 最佳实践技能。它围绕 schema 设计、查询调优、写入策略和 agent 连接提供基于规则的建议，让 clickhouse-best-practices 在 ClickHouse 工作流中的触发、审阅和引用都更容易。

数据库工程

收藏 0GitHub 412

chdb-datastore

作者 ClickHouse

chdb-datastore 是一个兼容 pandas 的技能，借助 ClickHouse-backed DataStore API 提供快速数据分析。它支持文件、数据库和云端连接器，支持跨数据源联表，并且只需对 pandas 风格工作流做少量代码改动。若你希望为更大规模数据集提供一个可直接替换的分析层，这份 chdb-datastore 指南会很合适。

数据分析

收藏 0GitHub 0

sympy

作者 K-Dense-AI

使用 sympy 技能在 Python 中进行精确的符号数学运算，涵盖代数、微积分、矩阵、物理公式、数论、几何和代码生成。它能帮助你保持表达式精确，选择合适的 SymPy 模块，并避免大量浮点数带来的错误。适合需要一份实用 sympy 指南来处理符号工作流，以及用于 Data Analysis 的 sympy 的用户。

数据分析

收藏 0GitHub 21.4k

interpreting-culture-index

作者 trailofbits

interpreting-culture-index 可帮助解读 Culture Index 调查、个人档案导出内容以及相关的招聘或辅导记录。这个 interpreting-culture-index 技能适用于岗位匹配、团队动力、倦怠风险、候选人复盘、入职规划和冲突调解。它强调基于箭头相对关系的阅读、反模式检查，以及面向数据分析和决策支持的实用输出。

数据分析

收藏 0GitHub 5k

azure-search-documents-py

作者 microsoft

azure-search-documents-py 是面向后端开发的 Python 版 Azure AI Search 技能，覆盖安装、身份验证、索引设计、向量搜索、混合搜索、语义排序和 agentic retrieval。当前你需要从环境搭建一路做到可用查询模式时，可以使用 azure-search-documents-py 技能获取实操指引。

后端开发

收藏 0GitHub 2.3k

gget

作者 K-Dense-AI

gget 是一款生物信息学技能，可通过 CLI 或 Python 快速、统一地访问 20+ 个基因组数据库和分析工具。适合查询基因信息、BLAST 相关检索、AlphaFold 结构、表达数据、疾病关联以及富集分析等场景，也很适合用于快速探索和 gget 数据分析工作流。

数据分析

收藏 0GitHub 0

torch-geometric

作者 K-Dense-AI

面向 PyTorch Geometric 图神经网络的 torch-geometric 技能指南。适用于 torch-geometric 安装帮助、torch-geometric 使用、图分类、节点分类、链接预测、异构图、自定义 MessagePassing 层，以及面向 Machine Learning 工作流的 GNN 扩展与性能优化。

机器学习

收藏 0GitHub 21.4k

rdkit

作者 K-Dense-AI

rdkit 技能适用于需要精细控制的化学信息学工作流：解析 SMILES、SDF、MOL、PDB 和 InChI；计算描述符；生成指纹；执行子结构检索；处理反应；以及构建 2D/3D 坐标。将这份 rdkit 指南用于高级控制、自定义 sanitize，以及面向数据分析的 rdkit 工作流。

数据分析

收藏 0GitHub 21.4k

huggingface-vision-trainer

作者 huggingface

huggingface-vision-trainer 帮你安装并使用一个用于视觉训练任务的 Hugging Face 技能：目标检测、图像分类以及 SAM/SAM2 分割。内容涵盖数据集准备、云端 GPU 配置、评估、Trackio 日志记录和结果推送到 Hub。适合后端自动化和可重复的训练工作流。

后端开发

收藏 0GitHub 10.4k

seo-dataforseo

作者 AgriciDaniel

seo-dataforseo 通过 DataForSEO MCP server 将 Claude 连接到实时 SEO 数据，可用于 SERP 检查、关键词研究、反向链接、页面分析、竞品研究、商家信息和 AI 可见性追踪。它最适合需要真实搜索证据、清晰安装指引以及实用 seo-dataforseo 用法的数据驱动工作流。

关键词研究

收藏 0GitHub 6.2k

pymc

作者 K-Dense-AI

PyMC 是一项用于在 Python 中构建、拟合、检查和比较概率模型的贝叶斯建模技能。可将 pymc 用于分层回归、多层分析、时间序列、缺失数据、测量误差，以及使用 LOO 或 WAIC 进行模型比较。

数据分析

收藏 0GitHub 0

pymatgen

作者 K-Dense-AI

pymatgen 是一个面向 Python 的材料科学工具包，支持晶体结构、相图、电子结构和文件转换。这个 pymatgen 技能可帮助处理涉及 CIF、POSCAR、VASP 和 Materials Project 数据的科研工作流。

科学

收藏 0GitHub 0

geopandas

作者 K-Dense-AI

面向 Python 地理空间矢量数据分析的 geopandas 技能，涵盖 shapefile、GeoJSON 和 GeoPackage 文件。可用于读取、清洗、连接、缓冲区分析、裁剪、重投影和导出空间数据，减少试错成本。

数据分析

收藏 0GitHub 0

analyzing-threat-intelligence-feeds

作者 mukul975

analyzing-threat-intelligence-feeds 可帮助你摄取 CTI 情报源、规范化指标、评估情报源质量，并为 STIX 2.1 工作流丰富 IOC。这个 analyzing-threat-intelligence-feeds 技能面向威胁情报运营和数据分析，提供 TAXII、MISP 及商业情报源的实用指导。

数据分析

收藏 0GitHub 0

azure-ai-textanalytics-py

作者 microsoft

azure-ai-textanalytics-py 是面向 Python 的 Azure AI Text Analytics 技能。它可帮助你完成情感分析、实体识别、关键词提取、语言检测、PII 检测和医疗 NLP。适合需要快速完成 Azure 客户端配置、身份验证，以及在应用、notebook 或数据分析流程中落地文本分析的场景。

数据分析

收藏 0GitHub 0

chdb-sql

作者 ClickHouse

chdb-sql 是一个 GitHub skill，可在 Python 中无需服务端直接运行 ClickHouse SQL。它涵盖 `chdb.query()`、`Session`、DB-API 连接、`file()` 和 `s3()` 等表函数、参数化查询，以及面向本地文件和外部数据源的后端开发工作流。

后端开发

收藏 0GitHub 0