Data Engineering

Data Engineering taxonomy generated by the site skill importer.

8 个技能
A
clickhouse-io

作者 affaan-m

clickhouse-io 是一款面向 ClickHouse 的技能,覆盖 schema 设计、分析型 SQL、数据摄取模式和性能调优。可用于指导 MergeTree 选型、分区设计、materialized views 以及面向具体工作负载的查询优化。

数据库工程
收藏 0GitHub 156.1k
W
airflow-dag-patterns

作者 wshobson

airflow-dag-patterns 可帮助你设计可用于生产环境的 Apache Airflow DAG,提供更完善的任务模式、依赖关系、operators、sensors、测试与定时作业部署指导。

定时任务
收藏 0GitHub 32.6k
W
data-quality-frameworks

作者 wshobson

data-quality-frameworks 技能可帮助团队使用 dbt tests、Great Expectations 和 data contracts 规划生产环境数据校验。你可以借助它选择合适的检查项、映射到测试金字塔,并为 Data Cleaning 与数据管道可靠性设计适合 CI/CD 的数据质量工作流。

数据清洗
收藏 0GitHub 32.6k
W
dbt-transformation-patterns

作者 wshobson

dbt-transformation-patterns 可帮助智能体按 staging、intermediate 和 marts 分层来组织 dbt 项目,并提供测试、文档和增量模型实践指导。适合用于安装前评估、搭建新 repo,或将 SQL 重构为更清晰的 analytics engineering 模式,尤其适合 Database Engineering 团队参考。

数据库工程
收藏 0GitHub 32.6k
W
spark-optimization

作者 wshobson

spark-optimization 是一份实用指南,帮助诊断运行缓慢的 Apache Spark 作业,重点覆盖 partitioning、shuffle、skew、caching 和 memory tuning。你可以用它从 wshobson/agents 安装该 skill,阅读 SKILL.md,并结合 Spark UI 症状、集群配置与查询模式,采用有依据的优化方案。

性能优化
收藏 0GitHub 32.6k
M
data-analytics

作者 markdown-viewer

data-analytics 技能可生成用于数据分析工作流的 PlantUML 图,包括 ETL、ELT、数据湖、数据仓库、流式管道、日志分析和 BI 仪表盘。它针对清晰的源到目标流向、AWS 分析/数据库图形符号,以及实用的数据分析指南式输出进行了优化,而不是通用的软件图或云架构图。

数据分析
收藏 0GitHub 1.1k
T
tinybird-python-sdk-guidelines

作者 tinybirdco

tinybird-python-sdk-guidelines 帮助你为基于 Python 的 Tinybird 项目安装并使用 tinybird-sdk。它涵盖 datasources、endpoints、clients、connections、从旧版文件迁移,以及带有 build 和 deploy 指引的后端开发工作流。

后端开发
收藏 0GitHub 16
K
lamindb

作者 K-Dense-AI

lamindb 技能可帮助你使用 LaminDB —— 一个开源的生物学数据框架,让数据可查询、可追溯、可复现并符合 FAIR 原则。它适用于 lamindb 的数据分析、元数据整理、基于本体的注释、schema 验证,以及贯穿 notebooks 和 pipelines 的可追踪工作流。

数据分析
收藏 0GitHub 0
Data Engineering