作者 phuryn
dummy-dataset 可生成逼真的测试数据,输出为 CSV、JSON、SQL 或 Python 脚本格式。它通过让你定义列、行数和约束条件,帮助制作模拟数据集、演示样例、数据库初始化数据、QA 测试数据以及数据清洗用的示例记录。
作者 phuryn
dummy-dataset 可生成逼真的测试数据,输出为 CSV、JSON、SQL 或 Python 脚本格式。它通过让你定义列、行数和约束条件,帮助制作模拟数据集、演示样例、数据库初始化数据、QA 测试数据以及数据清洗用的示例记录。
作者 huggingface
在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能,用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器,以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。
作者 K-Dense-AI
pytdc 是面向 Therapeutics Data Commons 的技能,提供可直接用于 AI 的药物发现数据集和基准,覆盖 ADME、毒性、DTI、DDI、生成、scaffold 划分以及药理预测。
作者 K-Dense-AI
pydeseq2 是一个面向 bulk RNA-seq 差异基因表达分析的 Python DESeq2 技能。可用于比较不同条件、拟合单因素或多因素设计、执行 Wald 检验和 FDR 校正,并在 pandas 和 AnnData 工作流中生成火山图或 MA 图。
作者 K-Dense-AI
molfeat 是一款面向 ML 和数据分析的分子特征化技能。它可以将 SMILES 或 RDKit 分子转换为 fingerprints、descriptors 和预训练 embeddings,适用于 QSAR、虚拟筛选、相似性搜索和化学空间分析。使用这份 molfeat 指南,选择实用的表示方式并构建可复用的特征化流水线。
作者 K-Dense-AI
lamindb 技能可帮助你使用 LaminDB —— 一个开源的生物学数据框架,让数据可查询、可追溯、可复现并符合 FAIR 原则。它适用于 lamindb 的数据分析、元数据整理、基于本体的注释、schema 验证,以及贯穿 notebooks 和 pipelines 的可追踪工作流。
作者 K-Dense-AI
用于通过程序化方式查询 CELLxGENE Census 的 cellxgene-census 技能。可用来探索表达数据、元数据、embedding,以及跨数据集的模式,覆盖不同组织、疾病和细胞类型。最适合群体规模的单细胞分析和参考图谱比较;如果是你自己的数据,建议使用 scanpy 或 scvi-tools。