数据集

由站点技能导入器呈现的数据集技能和工作流。

7 个技能

dummy-dataset

作者 phuryn

dummy-dataset 可生成逼真的测试数据，输出为 CSV、JSON、SQL 或 Python 脚本格式。它通过让你定义列、行数和约束条件，帮助制作模拟数据集、演示样例、数据库初始化数据、QA 测试数据以及数据清洗用的示例记录。

数据清洗

收藏 0GitHub 11.1k

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

pytdc

作者 K-Dense-AI

pytdc 是面向 Therapeutics Data Commons 的技能，提供可直接用于 AI 的药物发现数据集和基准，覆盖 ADME、毒性、DTI、DDI、生成、scaffold 划分以及药理预测。

数据分析

收藏 0GitHub 0

pydeseq2

作者 K-Dense-AI

pydeseq2 是一个面向 bulk RNA-seq 差异基因表达分析的 Python DESeq2 技能。可用于比较不同条件、拟合单因素或多因素设计、执行 Wald 检验和 FDR 校正，并在 pandas 和 AnnData 工作流中生成火山图或 MA 图。

数据分析

收藏 0GitHub 0

molfeat

作者 K-Dense-AI

molfeat 是一款面向 ML 和数据分析的分子特征化技能。它可以将 SMILES 或 RDKit 分子转换为 fingerprints、descriptors 和预训练 embeddings，适用于 QSAR、虚拟筛选、相似性搜索和化学空间分析。使用这份 molfeat 指南，选择实用的表示方式并构建可复用的特征化流水线。

数据分析

收藏 0GitHub 0

lamindb

作者 K-Dense-AI

lamindb 技能可帮助你使用 LaminDB —— 一个开源的生物学数据框架，让数据可查询、可追溯、可复现并符合 FAIR 原则。它适用于 lamindb 的数据分析、元数据整理、基于本体的注释、schema 验证，以及贯穿 notebooks 和 pipelines 的可追踪工作流。

数据分析

收藏 0GitHub 0

cellxgene-census

作者 K-Dense-AI

用于通过程序化方式查询 CELLxGENE Census 的 cellxgene-census 技能。可用来探索表达数据、元数据、embedding，以及跨数据集的模式，覆盖不同组织、疾病和细胞类型。最适合群体规模的单细胞分析和参考图谱比较；如果是你自己的数据，建议使用 scanpy 或 scvi-tools。

数据分析

收藏 0GitHub 0