Data Engineering

Data Engineering taxonomy generated by the site skill importer.

8 skills

clickhouse-io

par affaan-m

clickhouse-io est une skill centrée sur ClickHouse pour la conception de schémas, le SQL analytique, les patterns d’ingestion et l’optimisation des performances. Utilisez-la pour guider le choix des MergeTree, le partitionnement, les vues matérialisées et l’optimisation des requêtes selon la charge de travail.

Database Engineering

Favoris 0GitHub 156.1k

airflow-dag-patterns

par wshobson

airflow-dag-patterns aide à concevoir des DAG Apache Airflow prêts pour la production, avec de meilleurs patterns de tâches, dépendances, opérateurs, capteurs, tests et conseils de déploiement pour les jobs planifiés.

Scheduled Jobs

Favoris 0GitHub 32.6k

data-quality-frameworks

par wshobson

La skill data-quality-frameworks aide les équipes à concevoir la validation des données en production avec les tests dbt, Great Expectations et les data contracts. Utilisez-la pour choisir les bons contrôles, les organiser selon une pyramide de tests et structurer des workflows de qualité des données compatibles CI/CD pour le Data Cleaning et la fiabilité des pipelines.

Data Cleaning

Favoris 0GitHub 32.6k

dbt-transformation-patterns

par wshobson

dbt-transformation-patterns aide les agents à structurer des projets dbt avec des couches staging, intermediate et marts, ainsi qu’avec des recommandations sur les tests, la documentation et les modèles incrémentaux. Utilisez-la pour préparer une installation, poser l’ossature d’un nouveau repo ou refactorer du SQL vers des patterns d’analytics engineering plus propres pour les équipes Database Engineering.

Database Engineering

Favoris 0GitHub 32.6k

spark-optimization

par wshobson

spark-optimization est un guide pratique pour diagnostiquer les jobs Apache Spark lents grâce au partitionnement, au shuffle, au skew, au caching et au réglage mémoire. Utilisez-le pour installer la skill depuis wshobson/agents, consulter SKILL.md et appliquer des correctifs fondés sur des indices concrets issus de Spark UI, des paramètres du cluster et des schémas de requêtes.

Performance Optimization

Favoris 0GitHub 32.6k

data-analytics

par markdown-viewer

La skill data-analytics crée des diagrammes PlantUML pour les workflows d’analyse de données, notamment ETL, ELT, data lakes, entrepôts de données, pipelines de streaming, analyse de logs et tableaux de bord BI. Elle est optimisée pour un flux clair de la source vers la destination, les stencils AWS dédiés à l’analytics et aux bases de données, ainsi que pour des sorties pratiques orientées guide data-analytics — et non pour des diagrammes génériques de logiciel ou d’architecture cloud.

Data Analysis

Favoris 0GitHub 1.1k

tinybird-python-sdk-guidelines

par tinybirdco

tinybird-python-sdk-guidelines vous aide à installer et utiliser tinybird-sdk pour des projets Tinybird en Python. Le guide couvre les datasources, les endpoints, les clients, les connexions, la migration depuis les fichiers hérités, ainsi que les workflows de développement backend avec des indications pour la build et le déploiement.

Backend Development

Favoris 0GitHub 16

lamindb

par K-Dense-AI

Le skill lamindb vous aide à travailler avec LaminDB, un framework open source pour les données biologiques, conçu pour rendre les données interrogeables, traçables, reproductibles et conformes aux principes FAIR. Utilisez-le pour lamindb dans l’analyse de données, la curation des métadonnées, l’annotation fondée sur des ontologies, la validation de schéma et les workflows sensibles à la lignée des données dans les notebooks et les pipelines.

Data Analysis

Favoris 0GitHub 0