Dataset

Dataset skills and workflows surfaced by the site skill importer.

7 skills

dummy-dataset

por phuryn

A skill dummy-dataset gera dados de teste realistas em formato CSV, JSON, SQL ou script Python. Ela ajuda na criação de datasets fictícios, demos, seed de banco de dados, QA e limpeza de dados, permitindo definir colunas, quantidade de linhas e restrições para produzir registros de exemplo convincentes.

Data Cleaning

Favoritos 0GitHub 11.1k

huggingface-datasets

por huggingface

Use a skill huggingface-datasets para fluxos de trabalho da API do Dataset Viewer do Hugging Face: validar datasets, resolver splits, pré-visualizar e paginar linhas, buscar texto, aplicar filtros e obter links de parquet ou estatísticas. É um guia prático de huggingface-datasets para exploração somente leitura de datasets.

Web Scraping

Favoritos 0GitHub 10.4k

pytdc

por K-Dense-AI

pytdc é uma skill para o Therapeutics Data Commons, oferecendo datasets e benchmarks prontos para IA em descoberta de fármacos para ADME, toxicidade, DTI, DDI, geração, splits por scaffold e predição farmacológica.

Data Analysis

Favoritos 0GitHub 0

pydeseq2

por K-Dense-AI

pydeseq2 é uma skill em Python para DESeq2 voltada à análise de expressão gênica diferencial em RNA-seq bulk. Use para comparar condições, ajustar desenhos experimentais com um ou vários fatores, aplicar testes de Wald e correção de FDR, e gerar gráficos volcano ou MA em fluxos de trabalho com pandas e AnnData.

Data Analysis

Favoritos 0GitHub 0

molfeat

por K-Dense-AI

molfeat é uma skill de featurização molecular para ML e análise de dados. Ela ajuda a converter moléculas em SMILES ou do RDKit em fingerprints, descritores e embeddings pré-treinados para QSAR, virtual screening, busca por similaridade e análise de espaço químico. Use este guia do molfeat para escolher representações práticas e montar pipelines reutilizáveis de featurização.

Data Analysis

Favoritos 0GitHub 0

lamindb

por K-Dense-AI

A skill lamindb ajuda você a trabalhar com o LaminDB, um framework open source para dados de biologia que torna os dados consultáveis, rastreáveis, reproduzíveis e FAIR. Use para lamindb em análise de dados, curadoria de metadados, anotação baseada em ontologia, validação de schema e fluxos de trabalho com noção de linhagem em notebooks e pipelines.

Data Analysis

Favoritos 0GitHub 0

cellxgene-census

por K-Dense-AI

Skill do cellxgene-census para consultar programaticamente o CELLxGENE Census. Use-o para explorar dados de expressão, metadados, embeddings e padrões entre conjuntos de dados em tecidos, doenças e tipos celulares. É mais indicado para análises de single-cell em escala populacional e comparações com atlas de referência; para seus próprios dados, use scanpy ou scvi-tools.

Data Analysis

Favoritos 0GitHub 0