Dataset

Dataset skills and workflows surfaced by the site skill importer.

7 skills

dummy-dataset

bởi phuryn

dummy-dataset tạo dữ liệu kiểm thử chân thực ở dạng CSV, JSON, SQL hoặc script Python. Công cụ này hữu ích cho bộ dữ liệu giả, bản demo, nạp dữ liệu khởi tạo cho cơ sở dữ liệu, QA và làm sạch dữ liệu, vì bạn có thể xác định cột, số lượng dòng và các ràng buộc để tạo ra bản ghi mẫu thuyết phục.

Data Cleaning

Yêu thích 0GitHub 11.1k

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

pytdc

bởi K-Dense-AI

pytdc là một skill dành cho Therapeutics Data Commons, cung cấp các bộ dữ liệu và benchmark khám phá thuốc sẵn sàng cho AI cho ADME, độc tính, DTI, DDI, tạo phân tử, chia scaffold và dự đoán dược lý.

Data Analysis

Yêu thích 0GitHub 0

pydeseq2

bởi K-Dense-AI

pydeseq2 là một kỹ năng DESeq2 bằng Python cho phân tích biểu hiện gen khác biệt từ bulk RNA-seq. Dùng nó để so sánh các điều kiện, xây dựng mô hình một nhân tố hoặc nhiều nhân tố, áp dụng kiểm định Wald và hiệu chỉnh FDR, đồng thời tạo biểu đồ volcano hoặc MA trong các quy trình làm việc với pandas và AnnData.

Data Analysis

Yêu thích 0GitHub 0

molfeat

bởi K-Dense-AI

molfeat là một skill biểu diễn đặc trưng phân tử dành cho ML và phân tích dữ liệu. Nó giúp chuyển đổi SMILES hoặc phân tử RDKit thành fingerprint, descriptor và embedding được huấn luyện sẵn cho QSAR, sàng lọc ảo, tìm kiếm độ tương đồng và phân tích không gian hóa học. Dùng hướng dẫn molfeat này để chọn các biểu diễn phù hợp và xây dựng các pipeline biểu diễn đặc trưng có thể tái sử dụng.

Data Analysis

Yêu thích 0GitHub 0

lamindb

bởi K-Dense-AI

Skill lamindb giúp bạn làm việc với LaminDB, một framework dữ liệu sinh học mã nguồn mở để biến dữ liệu thành dạng có thể truy vấn, truy vết, tái lập và tuân thủ FAIR. Dùng nó cho lamindb trong Phân tích dữ liệu, biên soạn metadata, chú thích dựa trên ontology, kiểm tra schema và các quy trình làm việc có nhận biết lineage trên notebook và pipeline.

Data Analysis

Yêu thích 0GitHub 0

cellxgene-census

bởi K-Dense-AI

Skill cellxgene-census để truy vấn CELLxGENE Census bằng lập trình. Dùng để khám phá dữ liệu biểu hiện gen, metadata, embeddings và các mẫu liên hệ giữa nhiều bộ dữ liệu trên các mô, bệnh và loại tế bào. Phù hợp nhất cho phân tích single-cell ở quy mô quần thể và so sánh với atlas tham chiếu; nếu làm việc với dữ liệu của chính bạn, hãy dùng scanpy hoặc scvi-tools.

Data Analysis

Yêu thích 0GitHub 0