Dataset

Dataset skills and workflows surfaced by the site skill importer.

7 Skills

dummy-dataset

von phuryn

dummy-dataset erzeugt realistische Testdaten als CSV, JSON, SQL oder Python-Skript. Es hilft bei Mock-Datasets, Demos, dem Befüllen von Datenbanken, QA und Datenbereinigung, indem Sie Spalten, Zeilenzahlen und Einschränkungen für glaubwürdige Beispieldaten definieren können.

Data Cleaning

Favoriten 0GitHub 11.1k

huggingface-datasets

von huggingface

Nutze die Skill "huggingface-datasets" für Workflows mit der Hugging Face Dataset Viewer API, um Datensätze zu validieren, Splits aufzulösen, Zeilen vorzuschauen und zu paginieren, Text zu durchsuchen, Filter anzuwenden sowie Parquet-Links oder Statistiken abzurufen. Ein praktischer huggingface-datasets Leitfaden für die schreibgeschützte Erkundung von Datensätzen.

Web Scraping

Favoriten 0GitHub 10.4k

pytdc

von K-Dense-AI

pytdc ist eine Skill für Therapeutics Data Commons und stellt KI-taugliche Datensätze und Benchmarks für Drug Discovery bereit, darunter ADME, Toxizität, DTI, DDI, Generierung, Scaffold-Splits und pharmakologische Vorhersagen.

Data Analysis

Favoriten 0GitHub 0

pydeseq2

von K-Dense-AI

pydeseq2 ist ein Python-DESeq2-Skill für die Differential-Expressionsanalyse von Bulk-RNA-seq-Daten. Verwenden Sie ihn, um Bedingungen zu vergleichen, Einzel- oder Mehrfaktor-Designs zu modellieren, Wald-Tests und FDR-Korrekturen anzuwenden sowie Volcano- oder MA-Plots in pandas- und AnnData-Workflows zu erstellen.

Data Analysis

Favoriten 0GitHub 0

molfeat

von K-Dense-AI

molfeat ist eine Skill für molekulare Featurisierung für ML und Data Analysis. Sie hilft dabei, SMILES oder RDKit-Moleküle in Fingerprints, Deskriptoren und vortrainierte Embeddings zu überführen – für QSAR, Virtual Screening, Similarity Search und die Analyse des chemischen Raums. Nutzen Sie diesen molfeat-Guide, um passende Repräsentationen auszuwählen und wiederverwendbare Featurization-Pipelines aufzubauen.

Data Analysis

Favoriten 0GitHub 0

lamindb

von K-Dense-AI

Die lamindb-Skill hilft dir bei der Arbeit mit LaminDB, einem Open-Source-Framework für biologische Daten, das Daten abfragbar, nachvollziehbar, reproduzierbar und FAIR macht. Nutze sie für lamindb bei der Datenanalyse, Metadatenkuratierung, ontologiebasierten Annotation, Schema-Validierung und lineage-bewussten Workflows in Notebooks und Pipelines.

Data Analysis

Favoriten 0GitHub 0

cellxgene-census

von K-Dense-AI

cellxgene-census-Skill zum programmgesteuerten Abfragen des CELLxGENE Census. Damit lassen sich Expressionsdaten, Metadaten, Embeddings und Muster über Datensätze hinweg in Geweben, Krankheiten und Zelltypen erkunden. Besonders geeignet für Single-Cell-Analysen auf Populationsebene und Vergleiche mit Referenzatlanten; für eigene Daten sind scanpy oder scvi-tools die bessere Wahl.

Data Analysis

Favoriten 0GitHub 0