作者 phuryn
dummy-dataset 可產生接近真實的測試資料,輸出格式包含 CSV、JSON、SQL 或 Python script。它可用於 mock dataset、demo、資料庫種子資料、QA 與資料清理;你可以定義欄位、列數與限制條件,生成更像真的範例紀錄。
作者 phuryn
dummy-dataset 可產生接近真實的測試資料,輸出格式包含 CSV、JSON、SQL 或 Python script。它可用於 mock dataset、demo、資料庫種子資料、QA 與資料清理;你可以定義欄位、列數與限制條件,生成更像真的範例紀錄。
作者 huggingface
使用 huggingface-datasets 技能來處理 Hugging Face Dataset Viewer API 工作流程:驗證資料集、解析 splits、預覽與分頁列資料、搜尋文字、套用篩選條件,並取得 parquet 連結或統計資訊。這是一份實用的 huggingface-datasets 指南,適合只讀的資料集探索。
作者 K-Dense-AI
pytdc 是一個支援 Therapeutics Data Commons 的技能,提供可直接供 AI 使用的藥物發現資料集與基準,涵蓋 ADME、毒性、DTI、DDI、生成、scaffold 切分,以及藥理預測。
作者 K-Dense-AI
pydeseq2 是一個用於 bulk RNA-seq 差異基因表現分析的 Python DESeq2 技能。可用來比較不同條件、建立單因子或多因子設計、套用 Wald 檢定與 FDR 校正,並在 pandas 與 AnnData 工作流程中產生 volcano 或 MA 圖。
作者 K-Dense-AI
molfeat 是一個用於 ML 與資料分析的分子特徵化技能。它可將 SMILES 或 RDKit 分子轉成 fingerprint、descriptor 與預訓練 embedding,適合 QSAR、虛擬篩選、相似度搜尋與化學空間分析。可用這份 molfeat 指南挑選實用表示法,並建立可重用的特徵化流程。
作者 K-Dense-AI
lamindb 技能可協助你使用 LaminDB——一個開源的生物資料框架,讓資料具備可查詢、可追蹤、可重現與 FAIR 特性。適合用於 lamindb 的資料分析、metadata 整理、基於 ontology 的標註、schema 驗證,以及跨 notebooks 與 pipelines 的 lineage-aware 工作流程。
作者 K-Dense-AI
cellxgene-census 技能可用來以程式化方式查詢 CELLxGENE Census。適合探索表達量資料、metadata、embeddings,以及跨資料集的模式,涵蓋不同組織、疾病與細胞類型。最適合大規模單細胞分析與參考圖譜比較;如果是自己的資料,建議使用 scanpy 或 scvi-tools。