Dataset

Dataset skills and workflows surfaced by the site skill importer.

7 개 스킬

dummy-dataset

작성자 phuryn

dummy-dataset은 CSV, JSON, SQL 또는 Python script 형식으로 현실감 있는 테스트 데이터를 생성합니다. 컬럼, 행 수, 제약 조건을 지정해 그럴듯한 샘플 레코드를 만들 수 있어, mock 데이터셋, 데모, database seeding, QA, 데이터 정리에 유용합니다.

Data Cleaning

즐겨찾기 0GitHub 11.1k

huggingface-datasets

작성자 huggingface

Hugging Face Dataset Viewer API 작업에 이 huggingface-datasets 스킬을 사용해 데이터셋을 검증하고, split을 확인하며, 행을 미리 보고 페이지네이션하고, 텍스트를 검색하고, 필터를 적용하고, parquet 링크나 통계를 가져올 수 있습니다. 읽기 전용 데이터셋 탐색을 위한 실용적인 huggingface-datasets 가이드입니다.

Web Scraping

즐겨찾기 0GitHub 10.4k

pytdc

작성자 K-Dense-AI

pytdc는 Therapeutics Data Commons를 위한 스킬로, ADME, 독성, DTI, DDI, 생성, scaffold 분할, 약리 예측에 바로 사용할 수 있는 약물 발견 데이터셋과 벤치마크를 제공합니다.

Data Analysis

즐겨찾기 0GitHub 0

pydeseq2

작성자 K-Dense-AI

pydeseq2는 bulk RNA-seq 차등 발현 분석을 위한 Python DESeq2 스킬입니다. 조건 비교, 단일/다중 요인 설계 적합, Wald 검정과 FDR 보정 적용, pandas 및 AnnData 워크플로우에서 volcano/MA plot 생성에 활용할 수 있습니다.

Data Analysis

즐겨찾기 0GitHub 0

molfeat

작성자 K-Dense-AI

molfeat은 ML과 데이터 분석을 위한 분자 피처화 스킬입니다. SMILES나 RDKit 분자를 fingerprint, descriptor, pretrained embedding으로 변환해 QSAR, virtual screening, similarity search, chemical space analysis에 활용할 수 있습니다. 이 molfeat 가이드는 실무에 맞는 표현 방식을 고르고 재사용 가능한 피처화 파이프라인을 만드는 데 도움을 줍니다.

Data Analysis

즐겨찾기 0GitHub 0

lamindb

작성자 K-Dense-AI

lamindb 스킬은 오픈소스 생물학 데이터 프레임워크인 LaminDB를 활용해 데이터를 질의 가능하고, 추적 가능하며, 재현 가능하고, FAIR 원칙에 맞게 다루도록 도와줍니다. Data Analysis용 lamindb, 메타데이터 큐레이션, 온톨로지 기반 주석, 스키마 검증, 그리고 노트북과 파이프라인 전반에서 계보 추적을 고려한 워크플로에 사용할 수 있습니다.

Data Analysis

즐겨찾기 0GitHub 0

cellxgene-census

작성자 K-Dense-AI

CELLxGENE Census를 프로그래밍 방식으로 조회하기 위한 cellxgene-census 스킬입니다. 발현 데이터, 메타데이터, 임베딩, 그리고 조직·질병·세포 유형 전반의 교차 데이터셋 패턴을 탐색할 때 유용합니다. 대규모 단일세포 분석과 레퍼런스 아틀라스 비교에 가장 적합하며, 직접 보유한 데이터에는 `scanpy` 또는 `scvi-tools`를 사용하는 것이 좋습니다.

Data Analysis

즐겨찾기 0GitHub 0