pytdc 是面向 Therapeutics Data Commons 的技能,提供可直接用于 AI 的药物发现数据集和基准,覆盖 ADME、毒性、DTI、DDI、生成、scaffold 划分以及药理预测。

Stars0
收藏0
评论0
收录时间2026年5月14日
分类数据分析
安装命令
npx skills add K-Dense-AI/claude-scientific-skills --skill pytdc
编辑评分

该技能得分 78/100,说明它是一个稳妥的目录候选项,适合需要实用 PyTDC 工作流来做 therapeutics 机器学习的用户。仓库提供了足够的操作细节,能帮助 agent 判断何时使用、如何安装,以及如何处理关键的数据集和基准任务,比通用提示词更少猜测。

78/100
亮点
  • 明确的使用场景覆盖 ADME、毒性、药物-靶点相互作用、分子生成和基准评估。
  • 提供了安装和升级命令,并给出具体的 pip/uv 路径,有助于触发使用和实际采用。
  • 结构完整、篇幅较长的 SKILL.md,包含大量标题和工作流部分,说明它提供的是实质性的操作指引,而不是占位内容。
注意点
  • 仓库目录树里除了 SKILL.md 之外,没有脚本、参考资料、资源或安装命令元数据,因此部分工作流可能只能依赖文字说明。
  • 节选内容显示覆盖面很广,但这里没有完整可见的端到端快速开始,因此用户在具体任务上仍可能需要一些试错。
概览

pytdc 技能概览

pytdc 是做什么的

pytdc 是用于在 AI 驱动的药物发现工作流中使用 Therapeutics Data Commons 的技能。它可以帮助你直接获取经过整理、适合 AI 训练的数据集和基准,覆盖 ADME、毒性、生物活性、药物-靶点相互作用、药物-药物相互作用、生成任务以及相关评估任务,而不必自己发明一套数据 schema。

适合谁安装

如果你在做治疗性 ML、药理预测,或者需要在标准化划分和指标上对模型做 benchmark,就应该安装 pytdc 技能。对于需要可复现数据访问的数据科学家来说,它非常合适;但如果你只是想要一个通用的化学提示词、并不涉及数据加载或评估步骤,那它就不太适合。

为什么它重要

pytdc 技能的核心价值不只是数据集访问本身,而是围绕数据集建立起来的结构化能力:针对任务的 loader、诸如 scaffold split 或 cold split 之类的标准划分,以及更适合 benchmark 的评估选项。这样可以减少药物发现工作里常见的落地阻力——比如预处理不一致、划分方式随意,都会让结果很难被信任。

如何使用 pytdc 技能

在你的环境中安装 pytdc

先使用技能说明里的安装命令:
uv pip install PyTDC

如果要更新已有环境,使用:
uv pip install PyTDC --upgrade

如果你的工作流使用的是其他包管理器,把同样的包名映射到那个环境里即可,不要改写这套技能默认的假设。

先从正确的文件开始

先看 SKILL.md,然后再读 overview、when to use、installation 和 quick start 这些部分,再进入代码。如果你需要更完整的项目上下文,可以查看 repo 通过 skill 文件树暴露出来的相邻文档;在这个仓库里,skill 内容本身就是主要事实来源。

把模糊目标转成可用提示词

pytdc usage 最好在提示词里明确写出任务、数据集家族、划分策略和输出目标。比如,不要只说“帮我用 PyTDC”,而应改成:

  • “在 pytdc 里加载一个 ADME 数据集,使用 scaffold split,并准备一个 baseline 回归流程。”
  • “给出一个用于 DTI benchmarking 的 pytdc guide,包含 train/validation/test 划分和指标报告。”
  • “在毒性数据集上设置 pytdc for Data Analysis,并总结标签平衡、缺失情况和划分设计。”

这些细节能帮助技能选择正确的任务路径,避免生成与实验不匹配的通用代码。

通常最有效的工作流

先明确治疗任务,再确认数据集类别和划分策略,然后加载数据、检查标签,最后再建模。如果你是在做 benchmark,尽早决定是需要 scaffold split、cold split 还是其他预定义评估方案,因为这类选择对可比性的影响通常比模型选择更大。

pytdc 技能常见问题

pytdc 只适用于药物发现模型吗?

大体上是的。pytdc 技能围绕治疗性 ML 和药理学场景构建,重点是数据集和 benchmark,而不是通用表格分析。如果你的项目与化合物、蛋白质或药物相互作用无关,通常别的技能会更合适。

使用这个技能前需要先熟悉 PyTDC 吗?

不需要。这个技能对能用自然语言描述数据集目标的初学者同样有用。最重要的是把目标任务、所需划分,以及你要做的是分析、预测还是生成说清楚。

它和普通提示词有什么不同?

普通提示词可以描述一次性的加载或建模步骤,但 pytdc 技能更适合你想要可重复的数据访问和更严格的 benchmark 纪律时使用。尤其当你需要标准划分和统一评估惯例,让结果更容易比较时,它的价值会更明显。

什么情况下不该用 pytdc?

如果你不需要 TDC 数据集或治疗性 benchmark,或者你只是想快速了解 medicinal chemistry 的高层概念,就不该用 pytdc。如果你的数据是专有数据,而且与支持的治疗任务家族无关,它也不是最佳选择。

如何改进 pytdc 技能

先给出任务,再谈模型想法

pytdc 请求来说,最有用的改进往往是把问题定义得更清楚。先说明你需要 property prediction、DTI、DDI、molecule generation 还是 retrosynthesis,再提架构或指标。这样技能才能选择正确的数据集和预处理假设。

明确划分方式和指标预期

很多失败都来自评估要求说得不够具体。如果你在意 scaffold split、cold split、ROC-AUC、PR-AUC、RMSE 或 ranking metrics,就要在 pytdc 提示词里提前写明。最好在开始建模讨论之前,就先固定划分策略和指标,这样输出会明显更好。

说明你的约束和数据形态

如果你需要适合 notebook 的代码、轻量级数据审计,或者要兼容某个特定技术栈,也要一并写进请求里。对于 pytdc for Data Analysis,请说明你想看 class balance、缺失值检查、descriptor 汇总,还是 train/test leakage 风险检查,这样输出才能聚焦在正确的诊断项上。

通过收窄数据集目标来迭代

如果第一次回答太泛,就按数据集家族、任务类型和输出格式继续收窄。更好的追问可以是:“保持同样的 pytdc 工作流,但切换到 toxicity classification,使用 scaffold split,并且只返回数据加载和评估步骤。”

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...