Data Engineering

Data Engineering taxonomy generated by the site skill importer.

8 skills
A
clickhouse-io

bởi affaan-m

clickhouse-io là một skill tập trung vào ClickHouse cho thiết kế schema, SQL phân tích, mẫu nạp dữ liệu và tối ưu hiệu năng. Hãy dùng nó để định hướng lựa chọn MergeTree, phân vùng, materialized views và tối ưu truy vấn theo từng khối lượng công việc cụ thể.

Database Engineering
Yêu thích 0GitHub 156.1k
W
airflow-dag-patterns

bởi wshobson

airflow-dag-patterns giúp thiết kế Apache Airflow DAG sẵn sàng cho production với các pattern tác vụ, phụ thuộc, operators, sensors, kiểm thử và hướng dẫn triển khai tốt hơn cho các job chạy theo lịch.

Scheduled Jobs
Yêu thích 0GitHub 32.6k
W
data-quality-frameworks

bởi wshobson

Skill data-quality-frameworks giúp các nhóm lập kế hoạch kiểm định dữ liệu production bằng dbt tests, Great Expectations và data contracts. Hãy dùng skill này để chọn đúng loại kiểm tra, ánh xạ chúng vào testing pyramid và định hướng quy trình data quality sẵn sàng cho CI/CD nhằm phục vụ Data Cleaning và tăng độ tin cậy của pipeline.

Data Cleaning
Yêu thích 0GitHub 32.6k
W
dbt-transformation-patterns

bởi wshobson

dbt-transformation-patterns giúp agent tổ chức dự án dbt theo các lớp staging, intermediate và marts, đồng thời đưa ra hướng dẫn về testing, tài liệu hóa và mô hình incremental. Hãy dùng skill này để lên kế hoạch cài đặt, dựng khung repo mới hoặc tái cấu trúc SQL theo các pattern analytics engineering gọn gàng hơn cho các nhóm Database Engineering.

Database Engineering
Yêu thích 0GitHub 32.6k
W
spark-optimization

bởi wshobson

spark-optimization là hướng dẫn thực tiễn để chẩn đoán các job Apache Spark chạy chậm, tập trung vào partitioning, shuffle, skew, caching và tinh chỉnh bộ nhớ. Hãy dùng hướng dẫn này để cài skill từ wshobson/agents, đọc SKILL.md và áp dụng các cách khắc phục dựa trên bằng chứng từ dấu hiệu trong Spark UI, cấu hình cluster và mẫu truy vấn.

Performance Optimization
Yêu thích 0GitHub 32.6k
M
data-analytics

bởi markdown-viewer

Skill data-analytics tạo các sơ đồ PlantUML cho quy trình phân tích dữ liệu, bao gồm ETL, ELT, data lake, warehouse, pipeline streaming, phân tích log và dashboard BI. Skill này được tối ưu để thể hiện luồng nguồn-đích rõ ràng, dùng stencil phân tích/cơ sở dữ liệu AWS và cho ra nội dung hướng dẫn data-analytics thực tiễn — không phải sơ đồ phần mềm hay kiến trúc cloud chung chung.

Data Analysis
Yêu thích 0GitHub 1.1k
T
tinybird-python-sdk-guidelines

bởi tinybirdco

tinybird-python-sdk-guidelines giúp bạn cài đặt và sử dụng tinybird-sdk cho các dự án Tinybird viết bằng Python. Skill này bao quát datasources, endpoints, clients, connections, chuyển đổi từ các file cũ, cùng quy trình phát triển backend với hướng dẫn build và deploy.

Backend Development
Yêu thích 0GitHub 16
K
lamindb

bởi K-Dense-AI

Skill lamindb giúp bạn làm việc với LaminDB, một framework dữ liệu sinh học mã nguồn mở để biến dữ liệu thành dạng có thể truy vấn, truy vết, tái lập và tuân thủ FAIR. Dùng nó cho lamindb trong Phân tích dữ liệu, biên soạn metadata, chú thích dựa trên ontology, kiểm tra schema và các quy trình làm việc có nhận biết lineage trên notebook và pipeline.

Data Analysis
Yêu thích 0GitHub 0
Data Engineering