Dataset

Dataset skills and workflows surfaced by the site skill importer.

7 skills

dummy-dataset

por phuryn

dummy-dataset genera datos de prueba realistas en formato CSV, JSON, SQL o script de Python. Sirve para crear conjuntos de datos ficticios, demos, carga inicial de bases de datos, QA y limpieza de datos, ya que permite definir columnas, número de filas y restricciones para obtener registros de ejemplo creíbles.

Data Cleaning

Favoritos 0GitHub 11.1k

huggingface-datasets

por huggingface

Usa la skill huggingface-datasets para flujos de trabajo con la API de Dataset Viewer de Hugging Face: validar datasets, resolver splits, previsualizar y paginar filas, buscar texto, aplicar filtros y obtener enlaces de parquet o estadísticas. Es una guía práctica de huggingface-datasets para exploración de datasets en modo solo lectura.

Web Scraping

Favoritos 0GitHub 10.4k

pytdc

por K-Dense-AI

pytdc es una skill para Therapeutics Data Commons, que ofrece conjuntos de datos y benchmarks listos para IA para descubrimiento de fármacos en ADME, toxicidad, DTI, DDI, generación, divisiones scaffold y predicción farmacológica.

Data Analysis

Favoritos 0GitHub 0

pydeseq2

por K-Dense-AI

pydeseq2 es una skill de Python basada en DESeq2 para el análisis diferencial de expresión génica en RNA-seq a gran escala. Úsala para comparar condiciones, ajustar diseños de uno o varios factores, aplicar pruebas de Wald y corrección FDR, y generar gráficos volcano o MA en flujos de trabajo con pandas y AnnData.

Data Analysis

Favoritos 0GitHub 0

molfeat

por K-Dense-AI

molfeat es una skill de featurización molecular para ML y análisis de datos. Ayuda a convertir moléculas SMILES o de RDKit en fingerprints, descriptores y embeddings preentrenados para QSAR, cribado virtual, búsqueda de similitud y análisis del espacio químico. Usa esta guía de molfeat para elegir representaciones prácticas y crear pipelines de featurización reutilizables.

Data Analysis

Favoritos 0GitHub 0

lamindb

por K-Dense-AI

La skill de lamindb te ayuda a trabajar con LaminDB, un framework de código abierto para datos biológicos que hace que los datos sean consultables, trazables, reproducibles y FAIR. Úsala para lamindb en análisis de datos, curación de metadatos, anotación basada en ontologías, validación de esquemas y flujos de trabajo con conocimiento de linaje en notebooks y pipelines.

Data Analysis

Favoritos 0GitHub 0

cellxgene-census

por K-Dense-AI

Skill de cellxgene-census para consultar programáticamente el CELLxGENE Census. Úsalo para explorar datos de expresión, metadatos, embeddings y patrones entre conjuntos de datos a través de tejidos, enfermedades y tipos celulares. Es ideal para análisis de célula única a escala poblacional y comparaciones con atlas de referencia; para tus propios datos, usa scanpy o scvi-tools.

Data Analysis

Favoritos 0GitHub 0