pydeseq2
作者 K-Dense-AIpydeseq2 是一個用於 bulk RNA-seq 差異基因表現分析的 Python DESeq2 技能。可用來比較不同條件、建立單因子或多因子設計、套用 Wald 檢定與 FDR 校正,並在 pandas 與 AnnData 工作流程中產生 volcano 或 MA 圖。
這個技能評分 80/100,值得收錄。此 repository 提供了足夠的證據,讓 directory 使用者判斷 agent 何時該用它、如何跟著真實的 PyDESeq2 差異表現流程操作,以及比起通用提示更少猜測地完成分析。它不是最完整的封裝,但具備相當實用的操作內容,對 bulk RNA-seq 分析使用者有明確的導入價值。
- 觸發性強:frontmatter 與「何時使用這個技能」明確鎖定 DESeq2、差異表現、bulk RNA-seq counts 與 PyDESeq2。
- 流程具體:技能內容包含可直接上手的 quick-start,涵蓋 pandas、DeseqDataSet、DeseqStats、篩選、Wald 檢定與 FDR 校正。
- 對 agent 很有幫助:涵蓋單因子與多因子設計、batch/covariate 處理、apeGLM shrinkage,以及與 pandas/AnnData 的整合。
- 未提供安裝指令或支援檔案,因此使用者可能需要自行推斷環境與設定細節。
- 該 repository 帶有 experimental/test 訊號,而且看起來只有單一 `SKILL.md`,沒有參考資料或輔助資產。
pydeseq2 技能概覽
pydeseq2 的用途
pydeseq2 是一個用於 bulk RNA-seq count data 差異基因表現分析的 Python 技能。它能幫你從原始 counts 和 sample metadata 一路做到 DE 結果、fold change、校正後 p-value,以及像 volcano plot 和 MA plot 這類常見的探索性輸出。
誰適合使用
如果你想在 Python 裡做 DESeq2 風格的分析、需要多因子設計,或想把差異表現分析整合進 pandas/AnnData 工作流程,就適合使用 pydeseq2 技能。它很適合已經有 count matrix 與臨床或實驗 metadata 的分析者;如果你要的是完整的 RNA-seq 前處理管線,這個技能就不是最佳選擇。
它的實用價值在哪裡
pydeseq2 的主要價值,在於它能降低 Python 使用者切換到 R 跑 DESeq2 的轉譯成本。它支援 Wald test、多重檢定校正、可選的 apeGLM shrinkage,還提供適合 notebook 或 pipeline 可重現使用的工作流程。
如何使用 pydeseq2 技能
安裝 pydeseq2
先把技能安裝到你的 Claude skill set,然後在提問前打開技能檔案:
npx skills add K-Dense-AI/claude-scientific-skills --skill pydeseq2
在決定 pydeseq2 的安裝與設定前,先確認你的環境已經具備 RNA-seq count table、sample metadata,以及你的工作流程所需的 Python 套件。當你能提供每個 sample 的基因 counts,並且有設計公式或分組變數時,這個技能最有用。
從正確的輸入開始
要把 pydeseq2 用好,關鍵是先整理好輸入結構:
- count matrix:sample 在列、gene 在欄
- metadata:以 sample ID 為索引
- 明確的 condition 欄位,以及模型中要納入的 batch 或 covariate 欄位
- 清楚的比較目標,例如 treated vs control
較弱的提示會寫:「幫我對我的 RNA-seq 資料做差異表現分析。」
較好的提示會寫:「請用 pydeseq2 分析一個 bulk RNA-seq count matrix,共 24 個 samples,比較 treated vs control,把 batch 當作 covariate,過濾非常低 count 的 genes,並輸出顯著基因與 volcano/MA plot 程式碼。」
先讀這些檔案
先從 SKILL.md 開始,了解工作流程與預期的分析步驟。接著再檢查 README.md、AGENTS.md、metadata.json,以及任何存在的 rules/、resources/、references/ 或 scripts/ 資料夾。就這個 repository 而言,最重要的實作訊號在 SKILL.md,不要預設一定還有其他 helper 檔案。
把 pydeseq2 用對
把 pydeseq2 當作一種分析方法,而不只是程式碼產生器。你要明確告訴模型:
- 你的 organism 和 assay 是什麼
- sample 怎麼分組
- 需要單因子還是多因子設計
- 是否要 shrinkage、排名或視覺化
- 你需要的輸出格式,例如 dataframe、notebook cells,或可重用的 script
這會讓 pydeseq2 的使用效果更好,因為模型就能選對設計、過濾與解讀步驟,而不是憑空猜測。
pydeseq2 技能 FAQ
pydeseq2 只適合 DESeq2 使用者嗎?
不是。任何想在 Python 裡做出 DESeq2 類型差異基因表現分析的人都可以用。尤其適合本來就使用 pandas、scanpy 或 AnnData,並且想把分析維持在同一套技術堆疊中的人。
使用它一定要寫出完美提示嗎?
不需要,但太模糊的提示通常只會得到很制式的分析程式碼。pydeseq2 技能在你提供 count table 的形狀、關心的比較,以及已知的 confounders 時,效果會最好。
pydeseq2 適合初學者嗎?
如果你已經了解 RNA-seq counts 和實驗設計的基本概念,它算是對初學者友善。若你還需要先處理 alignment、quantification,或在差異表現之前做上游 QC,這就比較不適合。
什麼情況下不該用 pydeseq2?
不要把它用在 single-cell differential expression、沒有 raw counts 的 normalized expression,或需要完整端到端 transcriptomics pipeline 的工作流程。若你真正需要的是統計解讀,而不是 gene-level count data,本技能也不是最合適的選擇。
如何改進 pydeseq2 技能
提供更好的生物學背景
pydeseq2 最好的結果,通常來自能說清楚研究設計的提示,而不只是檔名。請加入 response variable、control condition、batch effect、replicate 數量,以及你是否需要 gene ranking、plot code 或解讀。
明確指定你在意的分析決策
告訴技能要怎麼處理 low-count genes、是否使用多因子模型,以及你是否需要對 effect size 做 shrinkage。這些選擇會實質影響 pydeseq2 的輸出,也能避免落入不一定符合你研究的預設值。
要求可重複使用的輸出
不要只問「結果」,而是要求可儲存的 dataframe schema、繪圖片段,或適合 notebook 直接使用的流程。例如:「請回傳 pydeseq2 程式碼,完成模型擬合、提取 adjusted p-values,並將包含 log2 fold change 與 padj 的顯著基因輸出成 CSV。」
從診斷開始迭代,不要只看最後命中
如果第一次跑出來的結果不太對,請改問偏向 QC 的檢查:sample clustering、count filtering 的理由、保留了多少 genes,或 design formula 是否有 confounding。當結果偏弱或明顯過少時,這是改善 pydeseq2 for Data Analysis 的最快方法。
