Data Engineering

Data Engineering taxonomy generated by the site skill importer.

8 skills

clickhouse-io

por affaan-m

clickhouse-io é uma skill focada em ClickHouse para modelagem de schema, SQL analítico, padrões de ingestão e ajuste de performance. Use-a para orientar escolhas de MergeTree, particionamento, materialized views e otimização de consultas conforme a carga de trabalho.

Database Engineering

Favoritos 0GitHub 156.1k

airflow-dag-patterns

por wshobson

airflow-dag-patterns ajuda a projetar DAGs do Apache Airflow prontas para produção, com padrões de tarefas mais robustos, dependências, operators, sensors, testes e orientações de deploy para jobs agendados.

Scheduled Jobs

Favoritos 0GitHub 32.6k

data-quality-frameworks

por wshobson

A skill data-quality-frameworks ajuda equipes a planejar a validação de dados em produção com testes do dbt, Great Expectations e data contracts. Use-a para escolher as verificações certas, mapeá-las para uma pirâmide de testes e orientar fluxos de qualidade de dados prontos para CI/CD em Data Cleaning e confiabilidade de pipelines.

Data Cleaning

Favoritos 0GitHub 32.6k

dbt-transformation-patterns

por wshobson

dbt-transformation-patterns ajuda agentes a estruturar projetos dbt com camadas de staging, intermediate e marts, além de orientações sobre testes, documentação e modelos incrementais. Use para avaliar a instalação, iniciar novos repositórios ou refatorar SQL em padrões mais organizados de analytics engineering para equipes de Engenharia de Dados.

Database Engineering

Favoritos 0GitHub 32.6k

spark-optimization

por wshobson

spark-optimization é um guia prático para diagnosticar jobs lentos no Apache Spark com foco em particionamento, shuffle, skew, caching e ajuste de memória. Use-o para instalar a skill de wshobson/agents, ler o SKILL.md e aplicar correções baseadas em evidências a partir de sintomas no Spark UI, configurações do cluster e padrões de consulta.

Performance Optimization

Favoritos 0GitHub 32.6k

data-analytics

por markdown-viewer

A skill data-analytics cria diagramas PlantUML para fluxos de trabalho de análise de dados, incluindo ETL, ELT, data lakes, data warehouses, pipelines de streaming, análise de logs e dashboards de BI. Ela é otimizada para deixar claro o fluxo de origem até destino, usar stencils de analytics e banco de dados da AWS, e gerar saídas práticas para guia de data analytics — não diagramas genéricos de software ou arquitetura de nuvem.

Data Analysis

Favoritos 0GitHub 1.1k

tinybird-python-sdk-guidelines

por tinybirdco

tinybird-python-sdk-guidelines ajuda você a instalar e usar o tinybird-sdk em projetos Tinybird baseados em Python. Cobre datasources, endpoints, clientes, conexões, migração de arquivos legados e fluxos de trabalho de backend, com orientação para build e deploy.

Backend Development

Favoritos 0GitHub 16

lamindb

por K-Dense-AI

A skill lamindb ajuda você a trabalhar com o LaminDB, um framework open source para dados de biologia que torna os dados consultáveis, rastreáveis, reproduzíveis e FAIR. Use para lamindb em análise de dados, curadoria de metadados, anotação baseada em ontologia, validação de schema e fluxos de trabalho com noção de linhagem em notebooks e pipelines.

Data Analysis

Favoritos 0GitHub 0