Dataset

Dataset skills and workflows surfaced by the site skill importer.

7 件のスキル

dummy-dataset

作成者 phuryn

dummy-dataset は、CSV、JSON、SQL、または Python スクリプト形式で、実在感のあるテストデータを生成します。列名、行数、制約を指定して、モックデータセット、デモ、データベースのシーディング、QA、データクレンジングに使える、信頼感のあるサンプルレコードを作成できます。

Data Cleaning

お気に入り 0GitHub 11.1k

huggingface-datasets

作成者 huggingface

huggingface-datasets スキルは、Hugging Face Dataset Viewer API のワークフローでデータセットの検証、split の解決、行のプレビューとページネーション、テキスト検索、フィルタ適用、parquet リンクや統計情報の取得を行うために使います。読み取り専用のデータセット探索に適した、実用的な huggingface-datasets ガイドです。

Web Scraping

お気に入り 0GitHub 10.4k

pytdc

作成者 K-Dense-AI

pytdc は Therapeutics Data Commons 向けのスキルで、ADME、毒性、DTI、DDI、生成、scaffold split、薬理予測のための、AIでそのまま扱いやすい創薬データセットとベンチマークを提供します。

Data Analysis

お気に入り 0GitHub 0

pydeseq2

作成者 K-Dense-AI

pydeseq2は、バルクRNA-seqの差次的遺伝子発現解析に使えるPython版DESeq2スキルです。条件比較、単因子・多因子デザインの当てはめ、Wald検定とFDR補正、さらにpandasやAnnDataのワークフローでのvolcano plotやMA plotの作成に役立ちます。

Data Analysis

お気に入り 0GitHub 0

molfeat

作成者 K-Dense-AI

molfeat は、ML とデータ分析向けの分子特徴量化スキルです。SMILES や RDKit 分子を、QSAR、仮想スクリーニング、類似検索、化学空間解析に使えるフィンガープリント、記述子、事前学習済み埋め込みへ変換するのに役立ちます。この molfeat ガイドを使えば、実務で使いやすい表現を選び、再利用しやすい特徴量化パイプラインを構築できます。

Data Analysis

お気に入り 0GitHub 0

lamindb

作成者 K-Dense-AI

lamindb スキルは、オープンソースの生物学データ基盤 LaminDB を使いこなすためのものです。データを検索可能・追跡可能・再現可能・FAIR に保ちながら扱えます。Data Analysis における lamindb、メタデータのキュレーション、オントロジーに基づくアノテーション、スキーマ検証、ノートブックやパイプラインをまたぐ系譜を意識したワークフローに活用できます。

Data Analysis

お気に入り 0GitHub 0

cellxgene-census

作成者 K-Dense-AI

CELLxGENE Census をプログラムからクエリするための cellxgene-census skill です。発現データ、メタデータ、埋め込み、さらに組織・疾患・細胞種をまたぐクロスデータセットのパターン探索に使えます。集団規模のシングルセル解析やリファレンスアトラス比較に最適で、自分のデータには scanpy や scvi-tools を使うのが向いています。

Data Analysis

お気に入り 0GitHub 0