scanpy
作成者 K-Dense-AIPythonで単一細胞RNA-seqデータを解析するためのscanpy skillです。QC、正規化、PCA、UMAP/t-SNE、クラスタリング、マーカー遺伝子の発見、軌跡解析、論文品質のプロットに使えます。AnnDataを中心にした探索的なscRNA-seqワークフローに最適で、scanpyの使い方と導入手順もわかりやすく示します。
このskillは78/100の評価で、汎用プロンプトではなく、すぐ使えるScanpyワークフローを求めるディレクトリ利用者に向いた有力候補です。リポジトリには、具体的なユースケース、実行しやすいワークフロー手順、十分な構成を備えた、本格的な単一細胞RNA-seq skillが含まれており、エージェントが迷いなく起動・適用しやすい内容になっています。
- QC、正規化、PCA/UMAP/t-SNE、クラスタリング、マーカー遺伝子、軌跡解析など、標準的なscRNA-seq作業に明確に絞られている。
- 有効なフロントマター、長文の本文、多数の見出し、コード例を含む充実したSKILL.mdがあり、実運用に使いやすい。
- 利用範囲の境界や関連skillの案内があり、探索的な単一細胞解析にはScanpyを選び、深層学習やAnnData固有の質問は別に回す判断がしやすい。
- インストールコマンド、補助ファイル、外部参照は用意されていないため、導入は主に記載されたskill手順に依存する。
- リポジトリはドキュメント中心に見えるため、パッケージ化された自動化や検証済みスクリプトではなく、ワークフローのガイダンスとして使う前提になる。
scanpy skill の概要
scanpy で何をするのか
scanpy skill は、Python によるシングルセル RNA-seq 解析のための skill です。QC、正規化、特徴選択、PCA、UMAP/t-SNE、クラスタリング、マーカー探索、軌道推定型の探索解析までを扱います。すでに AnnData オブジェクトを持っているか、作成できる状態で、深層学習モデルのワークフローではなく、Data Analysis に役立つ実用的な scanpy の手順を知りたいときに最適です。
どんな人に向いているか
scRNA-seq データを扱っている、未処理カウントを解析可能なオブジェクトに変換したい、あるいは解釈や論文化のために図やクラスター注釈を整えたい人に向いています。標準的な探索解析パイプラインを求めていて、一般的なバイオインフォマティクス入門ではなく scanpy の install と使用手順が必要な分析者に合っています。
何が違うのか
この repository は、広い理論概説ではなく、Scanpy の一般的な workflow を中心にしています。つまり、データ読み込み、前処理、埋め込み、クラスタリング、可視化に重点があります。また、用途の境界も明確です。深層生成モデルが必要なら scvi-tools を、主な論点が AnnData の構造や file formats なら anndata を起点にするほうが適しています。
scanpy skill の使い方
skill を install して動作確認する
通常の directory workflow に従って scanpy skill を install し、prompt を投げる前に skill file を開きます。
npx skills add K-Dense-AI/claude-scientific-skills --skill scanpy
install 後は、まず scientific-skills/scanpy/SKILL.md を読み、そのあと file 内で参照されている各 section をたどってください。ここには追加の helper scripts や reference folders はないため、skill 本文そのものが主な正解ソースです。
解析に必要な入力を、解析可能な形で渡す
scanpy の prompt で最も効果が高いのは、data shape、format、目的を具体的に示すことです。入力が .h5ad なのか、10X output なのか、count matrix なのかを明記し、sample 数や batch 数、QC threshold が必要か、integration・clustering・plotting のどれが必要か、最終的にどんな output が欲しいかを含めてください。弱い prompt は「scRNA-seq data を解析して」です。よりよい prompt は「scanpy を使って 2 つの 10X datasets を読み込み、quality の低い cell を除外し、normalize して PCA/UMAP を計算し、複数の resolution で cluster し、各 cluster の marker genes を特定して」となります。
実用的な workflow に沿って進める
多くの task では、次の順で進めるのが基本です。data を読み込む、obs/var を確認する、quality の低い cells と genes を除外する、normalize/log-transform する、高変動 genes を選ぶ、scale して PCA を実行する、neighbors を作る、UMAP を計算する、cluster する、最後に markers を順位付けするか gene set を可視化する。すでに processed な AnnData を持っているなら、そのことを明示してください。そうすることで、skill が setup 手順を繰り返さず、まだ必要な analysis decision に集中できます。
先に読むべき箇所を押さえる
まず SKILL.md の冒頭を読み、そのあと setup、loading、preprocessing、plotting、downstream analysis を扱う usage section に進んでください。repository に特定の input formats や conventions が書かれている場合は、prompt でもその表記に正確に合わせます。目的は、model が code や analysis steps を書く前に、推測の余地を減らすことです。
scanpy skill の FAQ
scanpy は scRNA-seq 専用ですか?
はい、基本的にはその用途です。scanpy skill は single-cell transcriptomics の workflow、特に gene expression matrices の探索解析を中心にしています。bulk RNA-seq や、特化した single-cell deep-learning tools のほうが適している modeling tasks には向いていません。
すでにモデルにうまく指示できるなら、skill は必要ですか?
workflow 全体と必要な object が最初から分かっているなら、通常の prompt だけでも足りることがあります。scanpy skill が役立つのは、安定した analysis path を取りたい、抜け漏れを減らしたい、QC・前処理・クラスタリング・可視化の default を整えたいときです。
初心者でも使いやすいですか?
pipeline 自体が標準的で、実用的な scanpy usage に焦点が当たっているという意味では、初心者にも使いやすい skill です。ただし、基本的な Python、single-cell の概念、raw counts・normalized data・annotated metadata の違いは理解している前提です。
どんなときに使わないほうがいいですか?
主な課題が file conversion、AnnData の schema design、cell-state inference のための neural model 構築である場合は、scanpy をメイン skill にしないでください。そうしたケースでは、無理に scanpy で全工程を覆うより、別の skill や tool を使ったほうが結果はよくなります。
scanpy skill の改善方法
判断を変える入力を先に渡す
品質を大きく上げる鍵は、dataset size、organism、platform、batch structure、そして今どの analysis stage にいるのかを明示することです。scanpy usage では、ambient RNA の懸念があるか、doublet filtering が必要か、既知の marker genes のセットがあるかも伝えてください。これらは QC と解釈に直接影響します。
手順だけでなく、欲しい成果物を依頼する
「scanpy analysis をして」ではなく、preprocessing notebook、clustering workflow、marker-gene table、UMAP と violin plots を含む plotting block など、具体的な deliverable を指定してください。出力の着地点が明確だと、model は適切な scanpy guide の構成を選びやすくなり、不要な基礎説明を避けられます。
よくある失敗パターンに注意する
よくあるミスは、QC の前提を飛ばす、raw と normalized の layer を混ぜる、neighbors と scaling の選択を確認する前に clustering する、そして biological question を定義せずに結果だけを求めることです。初回の出力が一般的すぎるなら、入力 object の正確な名前、variable names、解析で支えたい判断を入れて修正してください。
1 つずつ制約を追加して改善する
最初の draft のあとで scanpy skill の出力を改善するときは、制約を 1 つだけ足すのが有効です。たとえば、「h5ad のみを使う」「integration はしない」「publication-quality plots にする」「obs に batch labels を保持する」といった指定です。これは大きく書き換えるよりも、workflow を安定させたまま、scanpy for Data Analysis の task に本当に必要な部分だけを絞り込めるため、たいてい有効です。
