pydeseq2
作成者 K-Dense-AIpydeseq2は、バルクRNA-seqの差次的遺伝子発現解析に使えるPython版DESeq2スキルです。条件比較、単因子・多因子デザインの当てはめ、Wald検定とFDR補正、さらにpandasやAnnDataのワークフローでのvolcano plotやMA plotの作成に役立ちます。
このスキルは80/100点で、掲載に値します。リポジトリを見ると、エージェントがいつ使うべきかを判断し、実際のPyDESeq2による差次的発現解析ワークフローをたどり、汎用プロンプトより少ない試行錯誤で適用できるだけの材料がそろっています。完璧に整備されたパッケージではありませんが、運用に足る内容があり、バルクRNA-seq解析ユーザーにとって導入価値は十分です。
- トリガー判定が強い: フロントマターと「When to Use This Skill」で、DESeq2、差次的発現、バルクRNA-seqのカウントデータ、PyDESeq2が明確に対象化されています。
- 実務的なワークフロー: 本文には、pandas、DeseqDataSet、DeseqStats、フィルタリング、Wald検定、FDR補正まで含む具体的なクイックスタートがあります。
- エージェントにとって使いやすい: 単因子・多因子デザイン、バッチ/共変量の扱い、apeGLM shrinkage、pandas/AnnData連携までカバーしています。
- インストールコマンドやサポートファイルはないため、環境構築やセットアップは利用者側で補う必要がある場合があります。
- リポジトリにはexperimental/test系の संकेतがあり、参照資料や補助アセットを伴わない単独のSKILL.md構成に見えます。
pydeseq2 スキルの概要
pydeseq2 は何のためのものか
pydeseq2 は、bulk RNA-seq の count データを使った differential gene expression 分析のための Python スキルです。生のカウント値とサンプルメタデータから、DE の結果、fold change、調整済み p 値、さらに volcano plot や MA plot などの定番探索出力までまとめて扱えます。
どんな人に向いているか
pydeseq2 スキルは、Python で DESeq2 風の解析を行いたい人、multi-factor design が必要な人、あるいは differential expression を pandas/AnnData ベースのワークフローに組み込みたい人に向いています。すでに count matrix と臨床・実験メタデータを持っている解析者には相性が良い一方、RNA-seq の前処理を一式まるごと欲しい人には向きません。
何が便利なのか
pydeseq2 の主な価値は、DESeq2 のために R へ移る必要がある Python ユーザーの“翻訳コスト”を下げられることです。Wald 検定、多重検定補正、必要に応じた apeGLM shrinkage に対応しており、再現性のある notebook や pipeline で実務的に使いやすいワークフローを備えています。
pydeseq2 スキルの使い方
pydeseq2 をインストールする
まず Claude の skill set にこのスキルを追加し、その後でプロンプトを出す前に skill ファイルを開いてください。
npx skills add K-Dense-AI/claude-scientific-skills --skill pydeseq2
pydeseq2 のインストールやセットアップを判断する際は、環境に RNA-seq の count table、sample metadata、そしてワークフローに必要な Python パッケージがすでに揃っているかを確認してください。このスキルが最も役立つのは、サンプルごとの gene count と design formula か grouping variable を渡せる場合です。
適切な入力から始める
pydeseq2 をうまく使うには、まず入力構造をきれいに整えることが重要です。
- サンプルを行、gene を列にした count matrix
- sample ID で index 化された metadata
- モデルに入れたい明確な condition 列と、必要なら batch 列や共変量列
- treated vs control のような、はっきりした比較対象
弱いプロンプトの例: 「RNA-seq データで differential expression をやってください。」
強いプロンプトの例: 「24 サンプルの bulk RNA-seq count matrix に pydeseq2 を使い、treated と control を比較し、batch を共変量として入れ、極端に低 count の gene を除外したうえで、有意 gene と volcano/MA plot のコードを返してください。」
先に読むべきファイル
まず SKILL.md を見て、ワークフローと想定される解析手順を確認してください。次に README.md、AGENTS.md、metadata.json、そして存在する場合は rules/、resources/、references/、scripts/ フォルダも確認します。このリポジトリでは実務上の主な手がかりは SKILL.md にあるため、補助ファイルが必ずあるとは考えないでください。
pydeseq2 をうまく使う
pydeseq2 は単なるコード生成ではなく、解析手法として扱ってください。モデルには次の情報を伝えるとよいです。
- どの organism と assay か
- サンプルがどうグループ分けされているか
- single-factor design か multi-factor design か
- shrinkage、ranking、visualization が必要か
- dataframe、notebook cells、再利用可能な script など、必要な出力形式は何か
こうしておくと、モデルが design、filtering、解釈の手順を推測で決めるのではなく、適切に選べるため、pydeseq2 の精度と実用性が上がります。
pydeseq2 スキルの FAQ
pydeseq2 は DESeq2 ユーザーだけのものか
いいえ。Python で DESeq2 風の differential expression 解析をしたい人なら誰でも使えます。特に pandas、scanpy、AnnData で作業していて、解析をひとつのスタックに保ちたい人に向いています。
使うには完璧なプロンプトが必要か
いいえ、ただし曖昧なプロンプトだと一般的な解析コードになりがちです。pydeseq2 スキルは、count table の形、知りたい比較、既知の交絡因子を伝えるほど、うまく機能します。
pydeseq2 は初心者向きか
RNA-seq の count と実験デザインの基本をすでに理解しているなら、初心者にも使いやすいです。一方で、alignment、quantification、あるいは differential expression 前の upstream QC から助けが必要なら、やや不向きです。
pydeseq2 を使わないほうがよいのはどんなときか
single-cell differential expression、raw counts を伴わない normalized expression、または transcriptomics の end-to-end パイプライン全体が必要なワークフローには使わないでください。また、gene-level count data がなく、必要なのが統計的な解釈そのものの場合も適切ではありません。
pydeseq2 スキルを改善する方法
生物学的な背景をもっと具体的に伝える
pydeseq2 の結果が最も良くなるのは、ファイル名だけでなく研究デザインまで説明したプロンプトです。response variable、control condition、batch effect、replicate 数、さらに gene ranking、plot code、解釈のどれが欲しいかを含めてください。
重要な解析判断を明示する
低 count の gene をどう扱うか、multi-factor model を使うか、effect size に shrinkage が必要かをスキルに伝えてください。これらの選択は pydeseq2 の出力に大きく影響し、研究に合わない generic default を避けるのに役立ちます。
再利用できる出力を頼む
「結果だけ」を求めるのではなく、保存可能な dataframe schema、plot 用の snippet、あるいは notebook でそのまま使えるワークフローを依頼してください。たとえば、「model を fit し、adjusted p-value を抽出し、log2 fold change と padj を含む significant genes の CSV を書き出す pydeseq2 コードを返してください」のように指定します。
最終結果だけでなく診断から改善する
最初の実行結果に違和感があるなら、QC 重視の確認を依頼してください。たとえば、sample clustering、count filtering の根拠、残った gene 数、design formula に confounding がないか、などです。結果が弱い、あるいは想定より極端に少ないときに、Data Analysis としての pydeseq2 を改善する最短ルートです。
