数据集

由站点技能导入器呈现的数据集技能和工作流。

7 個技能

dummy-dataset

作者 phuryn

dummy-dataset 可產生接近真實的測試資料，輸出格式包含 CSV、JSON、SQL 或 Python script。它可用於 mock dataset、demo、資料庫種子資料、QA 與資料清理；你可以定義欄位、列數與限制條件，生成更像真的範例紀錄。

数据清洗

收藏 0GitHub 11.1k

huggingface-datasets

作者 huggingface

使用 huggingface-datasets 技能來處理 Hugging Face Dataset Viewer API 工作流程：驗證資料集、解析 splits、預覽與分頁列資料、搜尋文字、套用篩選條件，並取得 parquet 連結或統計資訊。這是一份實用的 huggingface-datasets 指南，適合只讀的資料集探索。

网页抓取

收藏 0GitHub 10.4k

pytdc

作者 K-Dense-AI

pytdc 是一個支援 Therapeutics Data Commons 的技能，提供可直接供 AI 使用的藥物發現資料集與基準，涵蓋 ADME、毒性、DTI、DDI、生成、scaffold 切分，以及藥理預測。

数据分析

收藏 0GitHub 0

pydeseq2

作者 K-Dense-AI

pydeseq2 是一個用於 bulk RNA-seq 差異基因表現分析的 Python DESeq2 技能。可用來比較不同條件、建立單因子或多因子設計、套用 Wald 檢定與 FDR 校正，並在 pandas 與 AnnData 工作流程中產生 volcano 或 MA 圖。

数据分析

收藏 0GitHub 0

molfeat

作者 K-Dense-AI

molfeat 是一個用於 ML 與資料分析的分子特徵化技能。它可將 SMILES 或 RDKit 分子轉成 fingerprint、descriptor 與預訓練 embedding，適合 QSAR、虛擬篩選、相似度搜尋與化學空間分析。可用這份 molfeat 指南挑選實用表示法，並建立可重用的特徵化流程。

数据分析

收藏 0GitHub 0

lamindb

作者 K-Dense-AI

lamindb 技能可協助你使用 LaminDB——一個開源的生物資料框架，讓資料具備可查詢、可追蹤、可重現與 FAIR 特性。適合用於 lamindb 的資料分析、metadata 整理、基於 ontology 的標註、schema 驗證，以及跨 notebooks 與 pipelines 的 lineage-aware 工作流程。

数据分析

收藏 0GitHub 0

cellxgene-census

作者 K-Dense-AI

cellxgene-census 技能可用來以程式化方式查詢 CELLxGENE Census。適合探索表達量資料、metadata、embeddings，以及跨資料集的模式，涵蓋不同組織、疾病與細胞類型。最適合大規模單細胞分析與參考圖譜比較；如果是自己的資料，建議使用 scanpy 或 scvi-tools。

数据分析

收藏 0GitHub 0