scanpy

bởi K-Dense-AI

Skill scanpy cho phân tích dữ liệu single-cell RNA-seq bằng Python. Dùng cho QC, chuẩn hóa, PCA, UMAP/t-SNE, phân cụm, tìm marker gene, phân tích quỹ đạo và biểu đồ chất lượng cao cho bài báo. Phù hợp nhất cho các quy trình scRNA-seq khám phá xoay quanh AnnData, với hướng dẫn dùng và cài đặt scanpy rõ ràng.

Stars0

Yêu thích0

Bình luận0

Đã thêm14 thg 5, 2026

Danh mụcData Analysis

Lệnh cài đặt

npx skills add K-Dense-AI/claude-scientific-skills --skill scanpy

Điểm tuyển chọn

Skill này đạt 78/100, nghĩa là đây là một ứng viên khá tốt cho người dùng thư mục đang muốn có sẵn một quy trình Scanpy thay vì một prompt chung chung. Kho lưu trữ cho thấy một skill single-cell RNA-seq khá đầy đủ, không phải nội dung mẫu, với các use case rõ ràng, các bước workflow cụ thể và cấu trúc đủ tốt để giúp agent kích hoạt và áp dụng với ít phải đoán hơn.

78/100

Điểm mạnh

Được khoanh vùng rõ ràng cho các tác vụ scRNA-seq phổ biến như QC, chuẩn hóa, PCA/UMAP/t-SNE, phân cụm, marker gene và phân tích quỹ đạo.
Nội dung SKILL.md khá đầy đủ với frontmatter hợp lệ, phần thân dài, nhiều heading và ví dụ code, hỗ trợ tốt cho việc sử dụng thực tế.
Có nêu giới hạn sử dụng và hướng dẫn skill liên quan, giúp agent chọn Scanpy cho phân tích single-cell khám phá và chuyển các câu hỏi về deep learning hoặc AnnData sang nơi phù hợp hơn.

Điểm cần lưu ý

Không có lệnh cài đặt, file hỗ trợ hay tham chiếu bên ngoài, nên việc áp dụng chủ yếu phụ thuộc vào hướng dẫn viết trong skill.
Kho lưu trữ có vẻ chỉ là tài liệu, vì vậy người dùng nên kỳ vọng hướng dẫn quy trình hơn là automation đóng gói sẵn hay script đã được kiểm thử.

Scanpy Python Scientific Single Cell Bioinformatics Genomics Jupyter

Tổng quan

Tổng quan về scanpy skill

scanpy dùng để làm gì

scanpy skill dành cho phân tích single-cell RNA-seq bằng Python: kiểm soát chất lượng, chuẩn hóa, chọn đặc trưng, PCA, UMAP/t-SNE, phân cụm, tìm marker và phân tích khám phá theo kiểu trajectory. Skill này phù hợp nhất khi bạn đã có hoặc có thể tạo một đối tượng AnnData và muốn một hướng dẫn scanpy thực dụng cho Data Analysis, thay vì một quy trình mô hình deep learning.

Ai nên dùng

Hãy dùng scanpy skill nếu bạn đang làm việc với dữ liệu scRNA-seq, chuyển số đếm thô thành một đối tượng sẵn sàng cho phân tích, hoặc chuẩn bị hình và chú giải cụm để diễn giải hay xuất bản. Nó hợp với những người phân tích cần một pipeline khám phá chuẩn và biết rõ mình cần các bước cài đặt và sử dụng scanpy, chứ không cần một bài nhập môn tin sinh học tổng quát.

Điều gì làm nó khác biệt

Repository này tập trung vào workflow Scanpy phổ biến thay vì một tổng quan lý thuyết rộng: nạp dữ liệu, tiền xử lý, embedding, phân cụm và trực quan hóa. Nó cũng làm ranh giới rõ hơn — nếu bạn cần mô hình sinh sâu, hãy tìm đến scvi-tools; nếu vấn đề chính của bạn là cấu trúc AnnData hoặc định dạng file, anndata sẽ là điểm bắt đầu phù hợp hơn.

Cách sử dụng scanpy skill

Cài đặt và kiểm tra skill

Cài scanpy skill theo quy trình thư mục thông thường, rồi mở file skill trước khi đặt prompt:

npx skills add K-Dense-AI/claude-scientific-skills --skill scanpy

Sau khi cài xong, hãy đọc scientific-skills/scanpy/SKILL.md trước, rồi làm theo các mục được liên kết bên trong file. Ở đây không có script hỗ trợ hay thư mục tham chiếu bổ sung, nên chính nội dung skill là nguồn đáng tin cậy chính.

Cung cấp đầu vào đã sẵn sàng cho phân tích

Prompt scanpy hiệu quả nhất sẽ nêu rõ dạng dữ liệu, định dạng và mục tiêu. Hãy cho biết đầu vào của bạn là .h5ad, đầu ra 10X hay ma trận đếm; có bao nhiêu mẫu hoặc batch; bạn cần ngưỡng QC, tích hợp, phân cụm hay vẽ biểu đồ; và đầu ra bạn muốn là gì. Một prompt yếu sẽ nói “phân tích dữ liệu scRNA-seq của tôi”; một prompt tốt hơn sẽ nói “dùng scanpy để nạp hai bộ dữ liệu 10X, lọc tế bào chất lượng thấp, chuẩn hóa, tính PCA/UMAP, phân cụm ở nhiều độ phân giải, và xác định gene marker cho từng cụm.”

Làm theo một workflow thực tế

Với đa số tác vụ, hãy đi theo thứ tự này: nạp dữ liệu, kiểm tra obs/var, lọc tế bào và gene chất lượng thấp, chuẩn hóa/biến đổi log, chọn highly variable genes, scale và chạy PCA, xây dựng neighbors, tính UMAP, phân cụm, rồi xếp hạng marker hoặc trực quan hóa các bộ gene. Nếu bạn đã có AnnData đã xử lý sẵn, hãy nói rõ; như vậy skill sẽ không lặp lại các bước thiết lập và sẽ tập trung vào những quyết định phân tích còn thiếu.

Đọc đúng phần cần trước

Bắt đầu từ phần đầu của SKILL.md, rồi chuyển nhanh đến các mục sử dụng bao phủ setup, nạp dữ liệu, tiền xử lý, trực quan hóa và phân tích downstream. Nếu repository có nhắc đến định dạng đầu vào hay quy ước cụ thể nào, hãy bám đúng những chi tiết đó trong prompt của bạn. Mục tiêu là giảm phỏng đoán trước khi model viết code hoặc các bước phân tích.

Câu hỏi thường gặp về scanpy skill

scanpy chỉ dành cho scRNA-seq thôi sao?

Đúng, chủ yếu là vậy. scanpy skill tập trung vào workflow single-cell transcriptomics, đặc biệt là phân tích khám phá các ma trận biểu hiện gene. Nó không phải lựa chọn phù hợp cho bulk RNA-seq hay các tác vụ mô hình hóa nên được xử lý bằng những công cụ deep learning chuyên cho single-cell.

Tôi có cần skill này nếu đã biết prompt cho model không?

Nếu bạn đã nắm rõ toàn bộ workflow và các object chính xác, một prompt thông thường có thể đã đủ. scanpy skill hữu ích hơn khi bạn muốn một lộ trình phân tích nhất quán, ít thiếu bước hơn, và default tốt hơn cho QC, tiền xử lý, phân cụm và trực quan hóa.

Skill này có thân thiện với người mới không?

Nó thân thiện với người mới ở chỗ pipeline là chuẩn hóa và skill tập trung vào cách dùng scanpy một cách thực tế. Tuy vậy, nó vẫn giả định bạn hiểu Python cơ bản, các khái niệm single-cell, và sự khác nhau giữa raw counts, dữ liệu đã chuẩn hóa và metadata được chú giải.

Khi nào tôi không nên dùng nó?

Đừng dùng scanpy như skill chính nếu vấn đề của bạn chủ yếu là chuyển đổi file, thiết kế schema AnnData, hoặc xây dựng mô hình neural để suy luận cell state. Trong những trường hợp đó, một skill hay công cụ khác sẽ cho kết quả tốt hơn là cố ép scanpy bao trọn mọi phần của workflow.

Cách cải thiện scanpy skill

Cung cấp những đầu vào làm thay đổi quyết định

Cải thiện chất lượng nhiều nhất đến từ việc nêu rõ kích thước bộ dữ liệu, loài, platform, cấu trúc batch và giai đoạn phân tích hiện tại. Với scanpy usage, hãy cho biết thêm liệu bạn có lo ngại ambient RNA, cần lọc doublet, hay đã có sẵn một bộ marker gene hay chưa, vì các chi tiết này ảnh hưởng trực tiếp đến QC và diễn giải.

Yêu cầu đầu ra, không chỉ yêu cầu các bước

Thay vì hỏi “scanpy analysis”, hãy yêu cầu một đầu ra cụ thể: notebook tiền xử lý, workflow phân cụm, bảng marker gene, hoặc một khối vẽ biểu đồ với UMAP và violin plots. Mục tiêu đầu ra rõ ràng giúp model chọn đúng cấu trúc hướng dẫn scanpy và tránh giải thích lan man những phần cơ bản bạn không cần.

Chú ý các kiểu lỗi thường gặp

Những lỗi phổ biến nhất là bỏ qua ngữ cảnh QC, trộn lẫn raw và normalized layers, phân cụm trước khi kiểm tra neighbors và lựa chọn scaling, và yêu cầu kết quả nhưng không xác định câu hỏi sinh học. Nếu bản đầu tiên quá chung chung, hãy sửa lại bằng object đầu vào chính xác, tên biến và quyết định mà phân tích cần hỗ trợ.

Lặp lại từng ràng buộc một

Sau bản nháp đầu tiên, hãy cải thiện output của scanpy skill bằng cách thêm một ràng buộc: “chỉ dùng h5ad”, “không tích hợp”, “tạo biểu đồ đạt chất lượng xuất bản”, hoặc “giữ nhãn batch trong obs”. Cách này thường tốt hơn việc viết lại toàn bộ vì nó giữ workflow ổn định trong khi siết chặt những phần quan trọng nhất cho tác vụ scanpy for Data Analysis của bạn.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

clickhouse-best-practices

bởi ClickHouse

clickhouse-best-practices là skill best practices cho ClickHouse dành cho Database Engineering. Skill này hướng dẫn thiết kế schema, tối ưu truy vấn, chiến lược insert và kết nối agent bằng các khuyến nghị theo quy tắc, giúp việc kích hoạt, rà soát và trích dẫn cách dùng clickhouse-best-practices trong các workflow ClickHouse trở nên dễ dàng hơn.

Database Engineering

Yêu thích 0GitHub 412

chdb-datastore

bởi ClickHouse

chdb-datastore là một kỹ năng tương thích với pandas, phục vụ phân tích dữ liệu nhanh với DataStore API dựa trên ClickHouse. Kỹ năng này hỗ trợ kết nối file, cơ sở dữ liệu và cloud, join giữa nhiều nguồn dữ liệu, cùng các thay đổi mã tối thiểu cho workflow kiểu pandas. Hãy dùng hướng dẫn chdb-datastore này khi bạn cần một lớp phân tích cắm vào là chạy cho các tập dữ liệu lớn hơn.

Data Analysis

Yêu thích 0GitHub 0

sympy

bởi K-Dense-AI

Dùng sympy để làm toán học ký hiệu chính xác trong Python, bao gồm đại số, giải tích, ma trận, công thức vật lý, lý thuyết số, hình học và sinh mã. Skill này giúp bạn giữ biểu thức ở dạng chính xác, chọn đúng module của SymPy và tránh các lỗi thường gặp khi phụ thuộc quá nhiều vào số thực. Phù hợp nhất cho người cần một hướng dẫn sympy thực dụng cho quy trình làm việc ký hiệu và sympy cho phân tích dữ liệu.

Data Analysis

Yêu thích 0GitHub 21.4k

interpreting-culture-index

bởi trailofbits

interpreting-culture-index giúp diễn giải các khảo sát Culture Index, bản xuất hồ sơ và các ghi chú liên quan đến tuyển dụng hoặc coaching. Hãy dùng skill interpreting-culture-index này cho đánh giá độ phù hợp vai trò, động lực đội nhóm, nguy cơ kiệt sức, tóm tắt trao đổi ứng viên, kế hoạch onboarding và hòa giải xung đột. Skill này nhấn mạnh cách đọc tương đối theo mũi tên, kiểm tra anti-pattern và đầu ra thực tiễn cho phân tích dữ liệu cùng hỗ trợ ra quyết định.

Data Analysis

Yêu thích 0GitHub 5k

azure-search-documents-py

bởi microsoft

azure-search-documents-py là skill Python cho Azure AI Search, dành cho phát triển backend, bao gồm cài đặt, xác thực, thiết kế index, tìm kiếm vector, tìm kiếm hybrid, xếp hạng semantic và truy xuất theo tác tử. Hãy dùng azure-search-documents-py khi bạn cần hướng dẫn thực tế từ khâu thiết lập đến các mẫu truy vấn hoạt động được.

Backend Development

Yêu thích 0GitHub 2.3k

gget

bởi K-Dense-AI

gget là một skill tin sinh học giúp truy cập nhanh, thống nhất hơn 20 cơ sở dữ liệu hệ gen và công cụ phân tích từ CLI hoặc Python. Dùng nó để tra cứu thông tin gen, truy vấn liên quan đến BLAST, cấu trúc AlphaFold, dữ liệu biểu hiện, liên kết bệnh lý và các phân tích kiểu enrichment. Nó phù hợp cho việc khám phá nhanh và các quy trình phân tích dữ liệu với gget.

Data Analysis

Yêu thích 0GitHub 0

channel-economics

bởi alirezarezvani

channel-economics giúp RevOps và lãnh đạo thương mại so sánh các kênh trực tiếp, đối tác, marketplace, reseller hoặc OEM bằng góc nhìn cost-to-serve đầy đủ, ROI và khuyến nghị channel-mix trong điều kiện ràng buộc. Bao gồm script Python, data template và hướng dẫn sử dụng channel-economics.

Revenue Operations

Yêu thích 0GitHub 22.1k

torch-geometric

bởi K-Dense-AI

Hướng dẫn skill torch-geometric cho mạng nơ-ron đồ thị PyTorch Geometric. Dùng để được hỗ trợ cài đặt torch-geometric, cách sử dụng torch-geometric, phân loại đồ thị, phân loại nút, dự đoán liên kết, đồ thị dị thể, các lớp MessagePassing tùy chỉnh và mở rộng GNN cho quy trình Machine Learning.

Machine Learning

Yêu thích 0GitHub 21.4k

rdkit

bởi K-Dense-AI

Kỹ năng rdkit hỗ trợ các quy trình cheminformatics chính xác: phân tích cú pháp SMILES, SDF, MOL, PDB và InChI; tính toán descriptor; tạo fingerprint; chạy tìm kiếm substructure; xử lý phản ứng; và xây dựng tọa độ 2D/3D. Hãy dùng hướng dẫn rdkit này khi cần kiểm soát nâng cao, sanitization tùy chỉnh, và quy trình rdkit cho phân tích dữ liệu.

Data Analysis

Yêu thích 0GitHub 21.4k

huggingface-vision-trainer

bởi huggingface

huggingface-vision-trainer giúp bạn cài đặt và sử dụng một skill Hugging Face cho các tác vụ huấn luyện thị giác máy tính: phát hiện đối tượng, phân loại ảnh và phân đoạn SAM/SAM2. Nội dung bao gồm chuẩn bị dữ liệu, thiết lập GPU trên cloud, đánh giá mô hình, ghi log bằng Trackio và đẩy kết quả lên Hub. Phù hợp cho tự động hóa backend và các quy trình huấn luyện có thể lặp lại.

Backend Development

Yêu thích 0GitHub 10.4k

seo-dataforseo

bởi AgriciDaniel

seo-dataforseo kết nối Claude với dữ liệu SEO trực tiếp qua DataForSEO MCP server để kiểm tra SERP, nghiên cứu từ khóa, backlink, phân tích on-page, nghiên cứu đối thủ, danh sách doanh nghiệp và theo dõi mức độ hiển thị trong AI. Đây là lựa chọn phù hợp nhất cho các quy trình dựa trên dữ liệu khi bạn cần bằng chứng tìm kiếm thực tế, hướng dẫn cài đặt rõ ràng và cách dùng seo-dataforseo thực tiễn.

Keyword Research

Yêu thích 0GitHub 6.2k

pymc

bởi K-Dense-AI

PyMC là một skill mô hình hóa Bayes để xây dựng, fit, kiểm tra và so sánh các mô hình xác suất trong Python. Dùng pymc cho hồi quy phân cấp, phân tích đa mức, chuỗi thời gian, dữ liệu thiếu, sai số đo lường và so sánh mô hình với LOO hoặc WAIC.

Data Analysis

Yêu thích 0GitHub 0

pymatgen

bởi K-Dense-AI

pymatgen là một toolkit khoa học vật liệu bằng Python cho cấu trúc tinh thể, giản đồ pha, cấu trúc điện tử và chuyển đổi tệp. Skill pymatgen này hỗ trợ các quy trình làm việc khoa học với CIF, POSCAR, VASP và dữ liệu Materials Project.

Scientific

Yêu thích 0GitHub 0

geopandas

bởi K-Dense-AI

Skill geopandas dành cho phân tích dữ liệu vector địa lý bằng Python, bao gồm shapefile, GeoJSON và GeoPackage. Dùng để đọc, làm sạch, nối, tạo vùng đệm, cắt, chuyển hệ tọa độ và xuất dữ liệu không gian với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

analyzing-threat-intelligence-feeds

bởi mukul975

Analyzing-threat-intelligence-feeds giúp bạn nạp các CTI feeds, chuẩn hóa chỉ báo, đánh giá chất lượng feed và làm giàu IOC cho quy trình STIX 2.1. Skill analyzing-threat-intelligence-feeds này được xây dựng cho nghiệp vụ threat intel và Data Analysis, với hướng dẫn thực hành cho TAXII, MISP và các feed thương mại.

Data Analysis

Yêu thích 0GitHub 0

azure-ai-textanalytics-py

bởi microsoft

azure-ai-textanalytics-py là một skill cho Azure AI Text Analytics trong Python. Skill này hỗ trợ phân tích cảm xúc, nhận diện thực thể, trích xuất cụm từ khóa, phát hiện ngôn ngữ, phát hiện PII và NLP cho y tế. Hãy dùng khi bạn cần đi nhanh từ khâu thiết lập client Azure, xác thực đến cách dùng text analytics thực tế cho ứng dụng, notebook hoặc quy trình phân tích dữ liệu.

Data Analysis

Yêu thích 0GitHub 0