Dataset

Dataset skills and workflows surfaced by the site skill importer.

7 skills

dummy-dataset

par phuryn

dummy-dataset génère des données de test réalistes au format CSV, JSON, SQL ou script Python. Il est utile pour créer des jeux de données fictifs, des démonstrations, du remplissage initial de bases de données, des tests QA et du nettoyage de données, en vous permettant de définir les colonnes, le nombre de lignes et des contraintes pour obtenir des exemples crédibles.

Data Cleaning

Favoris 0GitHub 11.1k

huggingface-datasets

par huggingface

Utilisez le skill huggingface-datasets pour les workflows de l’API Hugging Face Dataset Viewer afin de valider des datasets, résoudre les splits, prévisualiser et paginer les lignes, rechercher du texte, appliquer des filtres, et récupérer des liens Parquet ou des statistiques. C’est un guide pratique huggingface-datasets pour explorer des datasets en lecture seule.

Web Scraping

Favoris 0GitHub 10.4k

pytdc

par K-Dense-AI

pytdc est une skill pour Therapeutics Data Commons, qui fournit des jeux de données et des benchmarks prêts pour l’IA pour la découverte de médicaments : ADME, toxicité, DTI, DDI, génération, splits par scaffold et prédiction pharmacologique.

Data Analysis

Favoris 0GitHub 0

pydeseq2

par K-Dense-AI

pydeseq2 est une skill Python DESeq2 pour l’analyse différentielle de l’expression génique sur des données bulk RNA-seq. Utilisez-la pour comparer des conditions, ajuster des modèles à un ou plusieurs facteurs, appliquer des tests de Wald et une correction FDR, puis générer des graphiques volcano ou MA dans des workflows pandas et AnnData.

Data Analysis

Favoris 0GitHub 0

molfeat

par K-Dense-AI

molfeat est un skill de featurisation moléculaire pour le ML et l’analyse de données. Il aide à convertir des molécules SMILES ou RDKit en fingerprints, descripteurs et embeddings préentraînés pour le QSAR, le criblage virtuel, la recherche de similarité et l’analyse de l’espace chimique. Utilisez ce guide molfeat pour choisir des représentations pratiques et construire des pipelines de featurisation réutilisables.

Data Analysis

Favoris 0GitHub 0

lamindb

par K-Dense-AI

Le skill lamindb vous aide à travailler avec LaminDB, un framework open source pour les données biologiques, conçu pour rendre les données interrogeables, traçables, reproductibles et conformes aux principes FAIR. Utilisez-le pour lamindb dans l’analyse de données, la curation des métadonnées, l’annotation fondée sur des ontologies, la validation de schéma et les workflows sensibles à la lignée des données dans les notebooks et les pipelines.

Data Analysis

Favoris 0GitHub 0

cellxgene-census

par K-Dense-AI

Skill cellxgene-census pour interroger programmétiquement le CELLxGENE Census. Utilisez-le pour explorer des données d’expression, des métadonnées, des embeddings et des motifs inter-jeux de données à travers tissus, maladies et types cellulaires. Idéal pour l’analyse de cellules uniques à l’échelle de populations et la comparaison d’atlas de référence ; pour vos propres données, utilisez scanpy ou scvi-tools.

Data Analysis

Favoris 0GitHub 0