Data Processing

Data Processing taxonomy generated by the site skill importer.

17 skills

regex-vs-llm-structured-text

bởi affaan-m

Skill regex-vs-llm-structured-text giúp chọn giữa regex và LLM cho trích xuất văn bản có cấu trúc. Hãy bắt đầu bằng phân tích xác định, thêm bước kiểm tra bằng LLM cho các trường hợp biên ít chắc chắn, và dùng một pipeline rẻ hơn, đáng tin cậy hơn cho tài liệu, biểu mẫu, hóa đơn và phân tích dữ liệu.

Data Analysis

Yêu thích 0GitHub 156.2k

college-football-data-automation

bởi ComposioHQ

college-football-data-automation giúp agent tự động hóa các tác vụ College Football Data thông qua Rube MCP và Composio. Tìm hiểu yêu cầu thiết lập, cách khám phá công cụ với RUBE_SEARCH_TOOLS, kiểm tra kết nối và các mẫu sử dụng thực tế.

Workflow Automation

Yêu thích 0GitHub 67.5k

cloudconvert-automation

bởi ComposioHQ

cloudconvert-automation giúp agent chạy chuyển đổi định dạng bằng CloudConvert qua Rube MCP bằng cách tìm schema công cụ trực tiếp trước, kiểm tra kết nối cloudconvert và tránh dùng các trường API đã lỗi thời.

Format Conversion

Yêu thích 0GitHub 67.5k

omero-integration

bởi K-Dense-AI

Skill omero-integration dành cho các workflow OMERO Python trong phát triển Backend. Kết nối với OMERO, truy xuất projects, datasets, images, ROIs, annotations, tables, và chạy batch scripts với ít phải mò mẫm hơn.

Backend Development

Yêu thích 0GitHub 21.3k

hypogenic

bởi K-Dense-AI

hypogenic là một skill để tạo và kiểm tra giả thuyết trên các tập dữ liệu dạng bảng hoặc dữ liệu trích xuất từ văn bản, có hỗ trợ LLM. Nó giúp phân tích dữ liệu với hypogenic bằng cách biến các câu hỏi thực nghiệm thành quy trình làm việc có cấu trúc và có thể kiểm chứng cho diễn giải phân loại, phân tích nội dung và phát hiện gian lận. Hãy dùng khi bạn cần giả thuyết có bằng chứng, không chỉ là động não ý tưởng.

Data Analysis

Yêu thích 0GitHub 21.3k

dnanexus-integration

bởi K-Dense-AI

dnanexus-integration là một kỹ năng thực tiễn cho công việc genomics trên đám mây DNAnexus. Dùng nó để xây dựng apps và applets, quản lý tải lên và tải xuống, chạy workflows, và tự động hóa pipelines bằng dxpy. Hướng dẫn dnanexus-integration hỗ trợ các tác vụ Backend Development liên quan đến file FASTQ, BAM và VCF, cùng cấu hình đặc thù của nền tảng và thực thi job.

Backend Development

Yêu thích 0GitHub 21.3k

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

Workspace Data Analyst

bởi VoltAgent

Workspace Data Analyst là một kỹ năng nhẹ để phân tích dữ liệu ngay trong workspace của bạn. Kỹ năng này phân tích các tệp CSV, kiểm tra header, tóm tắt tổng, trung bình và các giá trị ngoại lệ, rồi đưa ra các nhận định ngắn gọn về bước tiếp theo. Workspace Data Analyst rất phù hợp cho các lượt rà soát nhanh, có xét đến tệp, trước khi đi sâu vào mô hình hóa.

Data Analysis

Yêu thích 0GitHub 8.5k

azure-storage-file-datalake-py

bởi microsoft

azure-storage-file-datalake-py là skill Python cho Azure Data Lake Storage Gen2. Nó giúp nhà phát triển backend và agent cài đặt, xác thực và dùng Azure SDK cho các tác vụ hệ thống tệp phân cấp như liệt kê, tải lên, tải xuống và quản lý thư mục, tệp.

Backend Development

Yêu thích 0GitHub 2.3k

azure-cosmos-py

bởi microsoft

Skill azure-cosmos-py giúp bạn cài đặt, cấu hình và sử dụng Azure Cosmos DB Python SDK cho CRUD NoSQL, truy vấn, thiết lập container, phân vùng và xác thực. Skill này đặc biệt hữu ích cho các quy trình Database Engineering, nơi khóa phân vùng và chi phí truy vấn rất quan trọng.

Database Engineering

Yêu thích 0GitHub 2.2k

clickhouse-best-practices

bởi ClickHouse

clickhouse-best-practices là skill best practices cho ClickHouse dành cho Database Engineering. Skill này hướng dẫn thiết kế schema, tối ưu truy vấn, chiến lược insert và kết nối agent bằng các khuyến nghị theo quy tắc, giúp việc kích hoạt, rà soát và trích dẫn cách dùng clickhouse-best-practices trong các workflow ClickHouse trở nên dễ dàng hơn.

Database Engineering

Yêu thích 0GitHub 412

tinybird

bởi tinybirdco

Các thực hành tốt nhất cho Tinybird về file dự án, quy tắc SQL, mẫu tối ưu hóa và quy trình làm việc dựa trên file. Hãy dùng skill tinybird này cho Backend Development khi bạn cần hỗ trợ về datasource, pipe, endpoint, materialized view và hướng dẫn an toàn khi triển khai, bám sát các quy tắc trong repo.

Backend Development

Yêu thích 0GitHub 16

pymatgen

bởi K-Dense-AI

pymatgen là một toolkit khoa học vật liệu bằng Python cho cấu trúc tinh thể, giản đồ pha, cấu trúc điện tử và chuyển đổi tệp. Skill pymatgen này hỗ trợ các quy trình làm việc khoa học với CIF, POSCAR, VASP và dữ liệu Materials Project.

Scientific

Yêu thích 0GitHub 0

exploratory-data-analysis

bởi K-Dense-AI

Kỹ năng exploratory-data-analysis biến các tệp khoa học thành báo cáo EDA có nhận biết định dạng. Kỹ năng này phát hiện loại tệp, tóm tắt cấu trúc và chất lượng, trích xuất siêu dữ liệu quan trọng và gợi ý hướng phân tích tiếp theo. Dùng kỹ năng exploratory-data-analysis cho Data Analysis trong các lĩnh vực hóa học, tin sinh học, hiển vi, quang phổ, proteomics, metabolomics và các định dạng tệp khoa học khác.

Data Analysis

Yêu thích 0GitHub 0

astropy

bởi K-Dense-AI

astropy là bộ công cụ Python cho các workflow thiên văn học và vật lý thiên văn. Hãy dùng skill astropy này cho tọa độ thiên thể, đơn vị đo, tệp FITS, thang thời gian, bảng dữ liệu, WCS, vũ trụ học và phân tích dữ liệu với astropy. Skill này hỗ trợ các tác vụ thiên văn thực tế như chuyển đổi tọa độ, đổi đơn vị và xử lý dữ liệu.

Data Analysis

Yêu thích 0GitHub 0

aeon

bởi K-Dense-AI

aeon là một skill Python tương thích với scikit-learn dành cho machine learning chuỗi thời gian. Hãy dùng nó cho phân loại, hồi quy, phân cụm, dự báo, phát hiện bất thường, phân đoạn, tìm kiếm tương đồng và các quy trình xử lý dữ liệu theo thời gian khác. Nó phù hợp cho phân tích đơn biến và đa biến khi bạn cần các phương pháp chuyên biệt hơn so với ML bảng dữ liệu thông thường.

Data Analysis

Yêu thích 0GitHub 0

postgres

bởi sanjay3290

Kỹ năng postgres cho phép bạn kiểm tra các cơ sở dữ liệu PostgreSQL đang chạy bằng SQL chỉ đọc. Dùng để khám phá schema, kiểm tra bảng và phân tích dựa trên SELECT trên nhiều kết nối với tính năng tự động chọn theo mô tả. Kỹ năng này được xây cho quy trình Database Engineering và chặn các thao tác ghi như INSERT, UPDATE, DELETE và DROP để đảm bảo an toàn.

Database Engineering

Yêu thích 0GitHub 0