用于 Python 中单细胞 RNA-seq 数据分析的 scanpy 技能。适合做 QC、标准化、PCA、UMAP/t-SNE、聚类、marker 基因发现、轨迹分析以及生成出版级图表。最适合围绕 AnnData 构建的探索性 scRNA-seq 工作流,提供清晰的 scanpy 使用与安装指引。

Stars0
收藏0
评论0
收录时间2026年5月14日
分类数据分析
安装命令
npx skills add K-Dense-AI/claude-scientific-skills --skill scanpy
编辑评分

该技能得分 78/100,说明它很适合作为目录用户的候选条目,尤其适合想直接获得现成 Scanpy 工作流、而不是泛用提示词的用户。仓库展示了一个内容充实、非占位的单细胞 RNA-seq 技能,具有明确的使用场景、具体的工作流步骤,以及足够的结构,能帮助代理更少依赖猜测地触发并应用它。

78/100
亮点
  • 明确覆盖标准 scRNA-seq 任务,如 QC、标准化、PCA/UMAP/t-SNE、聚类、marker 基因和轨迹分析。
  • SKILL.md 内容较为充实,包含有效 frontmatter、较长正文、多个标题和代码示例,支持实际使用。
  • 包含使用边界和相关技能建议,帮助代理在探索性单细胞分析场景中优先选择 Scanpy,并将深度学习或 AnnData 特定问题交给其他工具。
注意点
  • 未提供安装命令、支持文件或外部引用,因此实际采用主要依赖书面技能说明。
  • 该仓库看起来是纯文档型,用户应预期获得的是工作流指导,而不是打包好的自动化能力或经过测试的脚本。
概览

scanpy 技能概览

scanpy 是做什么的

scanpy 技能用于 Python 中的单细胞 RNA-seq 分析:质量控制、归一化、特征选择、PCA、UMAP/t-SNE、聚类、marker 发现,以及轨迹式探索分析。它最适合你已经有了,或者能够创建 AnnData 对象,并且想要一份面向 Data Analysis 的实用 scanpy 指南,而不是深度学习模型工作流。

谁适合使用它

如果你在处理 scRNA-seq 数据,把原始计数转换成可分析对象,或者准备用于解读和发表的图表与聚类注释,就适合使用 scanpy 技能。它面向的是想要标准探索性流程、并且明确需要 scanpy 安装和用法步骤的分析人员,而不是通用生信入门读物。

它的不同之处

这个仓库聚焦的是常见的 Scanpy 工作流,而不是泛泛的理论概览:数据加载、预处理、嵌入、聚类和可视化。它也把边界划得更清楚——如果你需要深度生成模型,应该看 scvi-tools;如果你的核心问题是 AnnData 结构或文件格式,anndata 才是更好的起点。

如何使用 scanpy 技能

安装并验证该技能

按照常规目录工作流安装 scanpy 技能,然后在提问前先打开技能文件:

npx skills add K-Dense-AI/claude-scientific-skills --skill scanpy

安装完成后,先阅读 scientific-skills/scanpy/SKILL.md,再继续看文件里链接到的相关部分。这里没有额外的辅助脚本或参考目录,所以技能文本本身就是主要依据。

给模型提供可直接分析的输入

最有效的 scanpy 提示,会明确数据形状、格式和目标。要写清楚输入是 .h5ad、10X 输出,还是计数矩阵;有多少样本或批次;是否需要 QC 阈值、整合、聚类或绘图;以及你希望得到什么输出。低质量提示会说“分析我的 scRNA-seq 数据”;更好的提示会说“用 scanpy 加载两个 10X 数据集,过滤低质量细胞,归一化,计算 PCA/UMAP,多分辨率聚类,并为每个 cluster 找 marker genes”。

按实用工作流推进

对大多数任务,建议按这个顺序处理:加载数据,检查 obs/var,过滤低质量细胞和基因,归一化/对数变换,选择高变基因,标准化并运行 PCA,构建邻近图,计算 UMAP,聚类,然后排序 marker 或可视化基因集。如果你已经有处理好的 AnnData,要明确说明;这样可以避免技能重复基础设置步骤,把输出集中在尚未完成的分析决策上。

先读对的部分

先从 SKILL.md 顶部开始,再跳到涵盖设置、加载、预处理、绘图和下游分析的使用章节。如果仓库提到了特定输入格式或约定,就在提示词里严格对齐这些要求。目标是在模型写代码或分析步骤之前,尽量减少猜测。

scanpy 技能常见问题

scanpy 只适用于 scRNA-seq 吗?

是的,主要是如此。scanpy 技能的重点是单细胞转录组工作流,尤其是基因表达矩阵的探索性分析。它并不适合 bulk RNA-seq,也不适合那些更适合用专门单细胞深度学习工具完成的建模任务。

如果我已经会提示模型,还需要这个技能吗?

如果你已经完全掌握工作流和对象结构,直接提问可能就够了。scanpy 技能更适合你想要一条一致的分析路径、减少遗漏步骤,并且希望在 QC、预处理、聚类和可视化上有更稳妥默认值的时候。

它适合新手吗?

从流程标准、且技能聚焦于实用 scanpy 用法这个意义上说,它对新手是友好的。不过它仍然默认你理解基本的 Python、单细胞概念,以及原始计数、归一化数据和带注释元数据之间的区别。

什么时候不该用它?

如果你的问题主要是文件转换、AnnData schema 设计,或者构建用于细胞状态推断的神经网络模型,就不要把 scanpy 当作主技能使用。在这些场景里,换别的技能或工具,通常比强行让 scanpy 覆盖整个流程更有效。

如何改进 scanpy 技能

提供会改变决策的输入

提升质量最大的做法,是说明数据集大小、物种、平台、批次结构,以及你当前处在分析的哪一步。对于 scanpy 用法,还要写明是否存在 ambient RNA 问题、是否需要去除 doublet,或者是否已经有一组已知 marker genes,因为这些细节会直接影响 QC 和解读。

要结果,不只是步骤

不要只问“scanpy analysis”,而要明确你要的交付物:预处理 notebook、聚类工作流、marker-gene 表,或者包含 UMAP 和 violin plots 的绘图代码块。清晰的输出目标有助于模型选择合适的 scanpy 指南结构,也能避免对你不需要的基础内容过度解释。

注意常见失败模式

最常见的问题是跳过 QC 背景、把原始层和归一化层混用、在检查 neighbors 和 scaling 选择之前就做聚类,以及在没有明确生物学问题的情况下要求出结果。如果第一次生成太泛,就用准确的输入对象、变量名,以及你希望分析支持的决策来重写提示。

每次只增加一个约束

第一版之后,改进 scanpy 技能输出的最好方式,是一次只加一个约束:h5ad only、避免 integration、生成 publication-quality plots,或者在 obs 中保留 batch labels。通常这比大范围重写更有效,因为它能保持工作流稳定,同时收紧对你的 scanpy for Data Analysis 任务真正重要的部分。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...