Data Engineering

Data Engineering taxonomy generated by the site skill importer.

8 Skills

clickhouse-io

von affaan-m

clickhouse-io ist eine auf ClickHouse spezialisierte Skill für Schemadesign, analytisches SQL, Ingestion-Muster und Performance-Tuning. Nutzen Sie sie, um MergeTree-Entscheidungen, Partitionierung, materialisierte Sichten und die workload-spezifische Abfrageoptimierung gezielt zu steuern.

Database Engineering

Favoriten 0GitHub 156.1k

airflow-dag-patterns

von wshobson

airflow-dag-patterns unterstützt beim Entwurf produktionsreifer Apache Airflow DAGs mit robusteren Task-Mustern, Abhängigkeiten, Operatoren, Sensoren sowie Empfehlungen zu Tests und Deployment für geplante Jobs.

Scheduled Jobs

Favoriten 0GitHub 32.6k

data-quality-frameworks

von wshobson

Die data-quality-frameworks Skill unterstützt Teams dabei, die Validierung von Produktionsdaten mit dbt tests, Great Expectations und Data Contracts zu planen. Nutzen Sie sie, um die passenden Prüfungen auszuwählen, sie einer Testing-Pyramide zuzuordnen und CI/CD-taugliche Data-Quality-Workflows für Data Cleaning und zuverlässige Pipelines aufzusetzen.

Data Cleaning

Favoriten 0GitHub 32.6k

dbt-transformation-patterns

von wshobson

dbt-transformation-patterns unterstützt Agents dabei, dbt-Projekte mit Staging-, Intermediate- und Marts-Layern zu strukturieren und gibt Hinweise zu Tests, Dokumentation und inkrementellen Modellen. Nutzen Sie das Skill, um Installationen zu planen, neue Repos aufzusetzen oder SQL in sauberere Analytics-Engineering-Patterns für Database-Engineering-Teams zu überführen.

Database Engineering

Favoriten 0GitHub 32.6k

spark-optimization

von wshobson

spark-optimization ist ein praxisnaher Leitfaden, um langsame Apache-Spark-Jobs zu analysieren – mit Fokus auf Partitionierung, Shuffle, Skew, Caching und Speicher-Tuning. Nutzen Sie ihn, um die Skill aus wshobson/agents zu installieren, `SKILL.md` zu lesen und auf Basis von Symptomen in der Spark UI, Cluster-Einstellungen und Query-Mustern fundierte Optimierungen abzuleiten.

Performance Optimization

Favoriten 0GitHub 32.6k

data-analytics

von markdown-viewer

Das data-analytics-Skill erstellt PlantUML-Diagramme für Data-Analytics-Workflows, darunter ETL, ELT, Data Lakes, Warehouses, Streaming-Pipelines, Log-Analysen und BI-Dashboards. Es ist auf klare Flüsse von Quelle zu Ziel, AWS-Analytics-/Datenbank-Stencils und praxistaugliche Data-Analytics-Leitfäden optimiert – nicht auf generische Software- oder Cloud-Architekturdiagramme.

Data Analysis

Favoriten 0GitHub 1.1k

tinybird-python-sdk-guidelines

von tinybirdco

tinybird-python-sdk-guidelines hilft dir beim Installieren und Verwenden von tinybird-sdk für Python-basierte Tinybird-Projekte. Es behandelt Datasources, Endpoints, Clients, Verbindungen, die Migration aus Legacy-Dateien sowie Backend-Workflows mit Build- und Deploy-Hinweisen.

Backend Development

Favoriten 0GitHub 16

lamindb

von K-Dense-AI

Die lamindb-Skill hilft dir bei der Arbeit mit LaminDB, einem Open-Source-Framework für biologische Daten, das Daten abfragbar, nachvollziehbar, reproduzierbar und FAIR macht. Nutze sie für lamindb bei der Datenanalyse, Metadatenkuratierung, ontologiebasierten Annotation, Schema-Validierung und lineage-bewussten Workflows in Notebooks und Pipelines.

Data Analysis

Favoriten 0GitHub 0