scanpy
作者 K-Dense-AI用於 Python 中 scanpy 單細胞 RNA-seq 資料分析的技能。可用來進行 QC、正規化、PCA、UMAP/t-SNE、分群、標記基因探索、軌跡分析,以及產出適合發表的圖表。最適合以 AnnData 為核心、以探索性 scRNA-seq 工作流程為主的情境,並提供清楚的 scanpy 使用與安裝指引。
這個技能評分為 78/100,代表它很適合想直接套用現成 Scanpy 工作流程、而不是使用泛用提示詞的目錄使用者。此儲存庫展示了一個內容完整、非樣板化的單細胞 RNA-seq 技能,具體涵蓋實際應用情境、明確的工作流程步驟,以及足夠的結構,能幫助代理更少猜測地觸發並套用。
- 明確聚焦於標準 scRNA-seq 工作,例如 QC、正規化、PCA/UMAP/t-SNE、分群、標記基因與軌跡分析。
- SKILL.md 內容相當充實,具備有效的 frontmatter、長篇正文、多個標題與範例程式碼,適合實務使用。
- 包含使用邊界與相關技能建議,協助代理在探索性單細胞分析時選用 Scanpy,並將深度學習或 AnnData 特定問題交由其他技能處理。
- 未提供安裝指令、支援檔案或外部參考,因此導入主要仰賴書面技能說明。
- 此儲存庫看起來偏向文件型內容,使用者應預期的是工作流程指引,而非封裝好的自動化或已驗證腳本。
scanpy 技能概覽
scanpy 是用來做什麼的
scanpy 技能是用於 Python 的單細胞 RNA-seq 分析:品質控制、正規化、特徵選擇、PCA、UMAP/t-SNE、分群、marker 發掘,以及 trajectory 風格的探索性分析。它最適合你已經有,或可以建立 AnnData 物件,並且想要一份實用的 scanpy Data Analysis 指南,而不是深度學習模型工作流程的人。
適合誰使用
如果你正在處理 scRNA-seq 資料、把原始計數轉成可分析的物件,或準備圖表與 cluster 註解以便解讀或發表,就適合使用 scanpy 技能。它很適合想走標準探索性流程、而且已經知道自己需要 scanpy 安裝與使用步驟的人,而不是需要一本通用生物資訊入門手冊的人。
它和其他技能有什麼不同
這個 repository 聚焦的是常見的 Scanpy 工作流程,而不是廣泛的理論總覽:資料載入、前處理、嵌入、分群與視覺化。它也把適用邊界講得更清楚——如果你需要深度生成模型,請看 scvi-tools;如果你的主要問題是 AnnData 結構或檔案格式,anndata 會是更好的起點。
如何使用 scanpy 技能
安裝並驗證這個技能
先依照一般的目錄工作流程安裝 scanpy 技能,然後在提問前先打開技能檔:
npx skills add K-Dense-AI/claude-scientific-skills --skill scanpy
安裝完成後,先讀 scientific-skills/scanpy/SKILL.md,再往下看檔案內連結的各個段落。這裡沒有額外的 helper scripts 或 reference folders,所以技能文字本身就是主要依據。
提供可直接分析的輸入
scanpy 最有效的提問,會明確說出資料形狀、格式與目標。請包含你的輸入是 .h5ad、10X 輸出,還是 count matrix;你有多少 samples 或 batches;你需要的是 QC 閾值、整合、分群還是繪圖;以及你希望得到什麼輸出。較弱的提問會說「分析我的 scRNA-seq data」;較好的提問會說「使用 scanpy 載入兩組 10X datasets,過濾低品質細胞、做正規化、計算 PCA/UMAP、以多個解析度分群,並為每個 cluster 找出 marker genes」。
依照務實的工作流程來做
多數任務可以照這個順序處理:載入資料、檢查 obs/var、過濾低品質細胞與基因、正規化與 log 轉換、選取高變異基因、標準化並執行 PCA、建立 neighbors、計算 UMAP、分群,然後排名 marker 或視覺化基因集合。如果你已經有處理過的 AnnData,要直接說明;這樣可以避免技能重複講設定步驟,並讓輸出更聚焦在尚未完成的分析決策上。
先讀對的部分
先從 SKILL.md 開頭讀起,再跳到涵蓋設定、載入、前處理、繪圖與下游分析的使用章節。如果 repository 提到特定的輸入格式或慣例,請在提問中完全比照那些規範。目標是在模型開始寫 code 或分析步驟之前,先把猜測空間降到最低。
scanpy 技能 FAQ
scanpy 只適合 scRNA-seq 嗎?
是的,主要是。scanpy 技能的重心是單細胞轉錄體工作流程,尤其是基因表現矩陣的探索性分析。它不適合 bulk RNA-seq,也不適合那些更應交由專門單細胞深度學習工具處理的建模任務。
如果我已經會向模型提問,還需要這個技能嗎?
如果你已經清楚完整流程和精確物件,直接下 prompt 可能就夠了。當你想要一致的分析路徑、更少漏步,以及在 QC、前處理、分群和視覺化上有更好的預設值時,scanpy 技能就更有價值。
它對初學者友善嗎?
就「流程是標準化的」以及「技能專注於實用的 scanpy 使用」這一點來說,它算是對初學者友善。不過它仍然預設你理解基本 Python、單細胞概念,以及原始計數、正規化資料和標註 metadata 之間的差異。
什麼情況下不該用它?
如果你的問題主要是檔案轉換、AnnData schema 設計,或是要為 cell-state inference 建立神經網路模型,就不要把 scanpy 當主技能。這些情況下,換成其他技能或工具,通常會比硬要 scanpy 包辦整條流程得到更好的結果。
如何改進 scanpy 技能
提供會改變決策的輸入資訊
要明顯提升品質,關鍵是說清楚資料集大小、物種、平台、batch 結構,以及你目前走到分析的哪個階段。對 scanpy 使用來說,也請說明你是否有 ambient RNA 疑慮、是否需要 doublet filtering,或是否已有一組已知的 marker genes,因為這些細節會影響 QC 與解讀方式。
要求輸出成果,不只是步驟
不要只問「scanpy analysis」,而是指定具體交付物:一份 preprocessing notebook、分群工作流程、marker-gene table,或一段包含 UMAP 與 violin plots 的繪圖區塊。明確的輸出目標能幫模型選對 scanpy guide 結構,也能避免它過度解釋你不需要的基礎內容。
注意常見失敗模式
最常見的錯誤包括:跳過 QC 背景、混用 raw 與 normalized layers、還沒確認 neighbors 和 scaling 的選擇就先分群,以及沒有定義生物問題就要求結果。如果第一版太籠統,請改寫時把精確的輸入物件、變數名稱,以及你希望分析支援的決策講清楚。
一次只加一個限制條件
在第一版之後,要改進 scanpy 技能輸出,最好一次只加一個限制條件:例如「只用 h5ad」、「不要做 integration」、「做出可發表等級的圖」,或「在 obs 中保留 batch labels」。這通常比大幅改寫更有效,因為它能維持工作流程穩定,同時收緊對你這個 scanpy for Data Analysis 任務真正重要的部分。
