data-quality-frameworks

por wshobson

La skill data-quality-frameworks ayuda a los equipos a planificar la validación de datos en producción con pruebas de dbt, Great Expectations y contratos de datos. Úsala para elegir las comprobaciones adecuadas, ubicarlas en una pirámide de testing y orientar flujos de calidad de datos preparados para CI/CD en tareas de Data Cleaning y fiabilidad de pipelines.

Estrellas32.6k

Favoritos0

Comentarios0

Agregado30 mar 2026

CategoríaData Cleaning

Comando de instalación

npx skills add wshobson/agents --skill data-quality-frameworks

Puntuación editorial

Esta skill obtiene una puntuación de 68/100, lo que significa que es razonable incluirla para usuarios del directorio que buscan una referencia sólida sobre patrones de calidad de datos, aunque deberían prever adaptar la guía a su propio entorno en lugar de seguir un flujo totalmente operacionalizado. La evidencia del repositorio muestra contenido real y activadores claros en torno a Great Expectations, pruebas de dbt y contratos de datos, pero faltan detalles de instalación y ejecución, archivos de soporte o ejemplos enlazados que reduzcan aún más la incertidumbre al implementarla.

68/100

Puntos fuertes

Activación clara a partir del frontmatter y de la guía "When to Use", que cubre pipelines de validación, pruebas de dbt, contratos de datos, monitorización y CI/CD.
Documentación sustancial: un SKILL.md extenso con varias secciones, conceptos, restricciones, flujos de trabajo y bloques de código sugiere contenido real de proceso, no un simple marcador de posición.
Cobertura útil de varios frameworks: combina Great Expectations, testing de dbt y patrones de contratos de datos, lo que da a los agentes un punto de partida más sólido que un prompt genérico aislado.

Puntos a tener en cuenta

La claridad operativa es limitada por la ausencia de archivos de soporte, referencias y enlaces a repositorios o archivos, por lo que los agentes deben inferir detalles de implementación para un stack concreto.
La skill no incluye ningún comando de instalación ni recursos ejecutables, lo que reduce la confianza para una adopción rápida y reproducible.

Data Quality Data Validation Data Contracts Dbt Great Expectations Ci Cd Data Engineering Workflow

Resumen

Visión general de la skill data-quality-frameworks

Qué hace la skill data-quality-frameworks

La skill data-quality-frameworks ayuda a un agente a diseñar validaciones prácticas de calidad de datos con tres enfoques habituales: pruebas de dbt, Great Expectations y contratos de datos. Está pensada para equipos que necesitan algo más concreto que un simple prompt de “añade controles de calidad” y quieren una forma estructurada de decidir qué validar, dónde hacerlo y cómo llevar esos controles a pipelines y flujos de CI/CD.

Quién debería usar data-quality-frameworks

Esta skill encaja especialmente bien para data engineers, analytics engineers, equipos de plataforma y responsables técnicos que necesitan controles de calidad repetibles para tablas, modelos e interfaces entre pipelines. Resulta especialmente útil cuando buscas data-quality-frameworks for Data Cleaning en un entorno de producción, no solo para una limpieza exploratoria puntual.

La necesidad real que resuelve

Rara vez alguien busca solo el nombre de un framework. Lo que suele necesitar es responder preguntas como:

¿Qué dimensiones de calidad importan para este dataset?
¿Este control debería vivir en SQL, dbt, Great Expectations o en un contrato?
¿Cuál es la suite mínima viable de pruebas antes de pasar a producción?
¿Cómo evitamos el schema drift y los cambios defectuosos en sistemas upstream?

La data-quality-frameworks skill aporta más valor cuando el objetivo es convertir necesidades de fiabilidad del negocio en patrones de validación concretos.

Qué diferencia esta skill de un prompt genérico

El contenido del repositorio destaca más por su estructura de decisión que por la automatización. Ofrece un modelo mental reutilizable centrado en:

dimensiones clave de calidad de datos
una pirámide de pruebas para datos
selección de framework entre dbt, Great Expectations y contratos
casos de uso orientados a producción como CI/CD y monitorización

Eso la hace más útil que un prompt genérico tipo “escribe algunos controles de datos”, pero sigue necesitando que le des tu stack, tus esquemas y tus umbrales de fallo.

Qué conviene saber antes de instalarla

Es una skill solo de texto, con la guía en SKILL.md. No incluye scripts auxiliares, plantillas ni archivos de referencia dentro de la carpeta de la skill. Adoptarla es sencillo porque apenas requiere configuración, pero la calidad de la salida depende mucho de la información que proporciones. Si buscas configuraciones listas para copiar y pegar sin aportar detalles de tablas, esta skill puede quedarse corta.

Cómo usar la skill data-quality-frameworks

Contexto de instalación de data-quality-frameworks

Instala la skill desde el repositorio wshobson/agents:

npx skills add https://github.com/wshobson/agents --skill data-quality-frameworks

Como la skill se presenta como un único SKILL.md, no hay configuración adicional de paquetes locales dentro de la propia skill. El trabajo real de preparación está en tu entorno: dbt, Great Expectations, acceso al warehouse y cualquier runner de CI que utilices.

Lee primero este archivo

Empieza por:

plugins/data-engineering/skills/data-quality-frameworks/SKILL.md

Como no hay README, resources ni scripts de apoyo, la ruta de lectura más rápida es:

When to Use This Skill
Core Concepts
las secciones sobre la pirámide de pruebas y los patrones por framework
cualquier ejemplo de implementación dentro de bloques de código

Es una skill breve, así que el mayor beneficio no viene de investigar a fondo el repositorio, sino de usarla con un prompt preciso.

Qué información necesita la skill por tu parte

Para un uso sólido de data-quality-frameworks, dale al agente:

nombres de datasets o modelos
lista de columnas con tipos
granularidad esperada o clave primaria
expectativas de freshness
rangos de valores permitidos o enums
campos nulos frente a obligatorios
dependencias upstream/downstream conocidas
dónde deben ejecutarse los controles: ingestión, transformación, publicación o límite contractual
política de gestión de fallos: advertir, fallar el job, cuarentena, alerta

Sin ese nivel de detalle, el agente solo podrá devolverte ejemplos genéricos como comprobaciones de unicidad, nulos y rangos.

Convierte un objetivo difuso en un prompt sólido

Prompt débil:

Help me add data quality checks.

Mejor prompt:

Use the data-quality-frameworks skill to design a validation plan for our orders pipeline. Source is raw event data loaded to BigQuery, transformed with dbt. Key fields: order_id, customer_id, order_status, order_total, created_at, updated_at. order_id must be unique at the mart layer. order_status must be one of pending, paid, shipped, cancelled, refunded. order_total must be >= 0. Freshness target is under 2 hours. We want: 1) source-level checks, 2) dbt tests, 3) any checks that fit Great Expectations, 4) a simple data contract for upstream producers, and 5) CI/CD recommendations with fail-vs-warn guidance.

Ese prompt funciona porque da a la skill el contexto suficiente para mapear los requisitos al framework adecuado.

Cómo pedir el formato de salida correcto

Pide al agente que genere la salida por capas:

dimensiones de calidad por dataset
ubicación en la pirámide de pruebas
mapeo concreto al framework
ejemplos de definiciones de pruebas
orden de despliegue

Ejemplo:

Using the data-quality-frameworks guide, return a table with columns: check, dimension, layer, framework, severity, reason. Then generate sample dbt tests and Great Expectations expectations only for the highest-value checks.

Así reduces la sobreingeniería y mantienes la primera iteración enfocada en la implementación.

Flujo de trabajo práctico para usar data-quality-frameworks

Un buen flujo de trabajo es:

Hacer inventario de tus datasets críticos.
Identificar la granularidad y la superficie contractual.
Clasificar los controles por dimensión de calidad.
Ubicar cada control en la pirámide de pruebas.
Asignar cada control a dbt, Great Expectations o un contrato de datos.
Decidir qué controles bloquean despliegues y cuáles solo generan alertas.
Implementar primero el conjunto mínimo fiable.

Esta skill funciona mejor para diseño de sistemas y planificación de validaciones que para generar por fuerza bruta todas las pruebas posibles.

Cuándo usar dbt, Great Expectations o contratos

Usa la skill para separar responsabilidades:

dbt encaja bien con aserciones a nivel de modelo como unicidad, no nulos, valores aceptados y pruebas de relaciones.
Great Expectations encaja mejor con flujos de validación más ricos, expectativas de estilo profiling y validación en tiempo de ejecución alrededor de etapas del pipeline.
Los contratos de datos encajan con acuerdos entre productor y consumidor, como forma del esquema, campos obligatorios y garantías semánticas en los límites entre sistemas.

Un error habitual es intentar que una sola herramienta lo haga todo. La data-quality-frameworks skill resulta más útil cuando usas cada framework en la capa que le corresponde de forma natural.

Qué significa en la práctica la pirámide de pruebas

La pirámide de pruebas de la skill sirve bien para priorizar. En la práctica:

coloca muchos controles estructurales baratos en los niveles inferiores
añade menos controles entre tablas y reglas de negocio en niveles superiores
reserva la validación end-to-end costosa para los caminos más críticos

Si tu primer plan solo contiene aserciones complejas de negocio y no incluye controles básicos de nulos, unicidad, esquema o freshness, probablemente te estés saltando la capa con mejor retorno.

Qué hace bien esta skill para Data Cleaning

En data-quality-frameworks for Data Cleaning, la skill se aprovecha mejor para definir validación continua una vez que ya existe la lógica de limpieza. Ayuda a responder:

qué entradas defectuosas deben bloquearse
qué valores deberían estandarizarse
qué anomalías deberían activar revisión en lugar de romper el pipeline
cómo garantizar que las salidas ya limpiadas sigan siendo conformes con el tiempo

Se centra menos en las transformaciones de limpieza en sí y más en demostrar que esas transformaciones generan salidas fiables.

Restricciones y tradeoffs de adopción

Esta skill tiene poca fricción de instalación, pero pocos recursos de implementación incorporados. Debes contar con traducir tú mismo las recomendaciones a archivos de proyecto como:

models/*.yml para dbt
expectation suites o checkpoints para Great Expectations
documentos de contrato en el formato de esquema que prefieras

Si necesitas un repositorio con plantillas listas para usar, esta skill es más ligera que eso. Su valor está en ayudar a un agente a razonar correctamente, no en ofrecer un starter kit turnkey.

Preguntas frecuentes sobre la skill data-quality-frameworks

¿data-quality-frameworks es buena para principiantes?

Sí, siempre que ya entiendas lo básico sobre tablas, columnas y pipelines. Los conceptos son accesibles: dimensiones de calidad, capas de pruebas y selección de framework. Aun así, los principiantes absolutos probablemente necesiten documentación aparte sobre la sintaxis de dbt o Great Expectations, porque la skill no es un tutorial completo de ninguna de las dos herramientas.

¿Es mejor que un prompt normal?

Normalmente sí, cuando tu problema es elegir framework y definir estrategia de pruebas. Un prompt corriente puede generar controles al azar. La data-quality-frameworks skill aporta una estructura más disciplinada al agente: dimensiones, pirámide y encaje de cada framework. Eso suele traducirse en menos pruebas irrelevantes.

¿Cuál es su principal limitación?

La skill no incluye archivos auxiliares, plantillas de implementación ni adaptadores específicos para tu proyecto. No puede inferir la semántica de tu warehouse, tus SLA ni tus reglas de negocio si no se los proporcionas. La calidad del resultado depende de forma muy directa de lo específico que sea tu prompt.

¿Cuándo no debería usar data-quality-frameworks?

Sáltatela si solo necesitas una comprobación de una línea sobre un único CSV o un script rápido de limpieza ad hoc. También encaja mal si tu equipo ya está totalmente estandarizado en un solo framework y solo necesita fragmentos de sintaxis, no guía de diseño.

¿Puedo usar data-quality-frameworks solo con dbt?

Sí. Aunque la skill menciona varios frameworks, puedes pedirle que limite las recomendaciones solo a dbt. Lo mismo aplica si tu equipo prefiere Great Expectations o quiere centrarse primero en contratos de datos.

¿Ayuda con decisiones de CI/CD?

Sí. Uno de los casos de uso más claros de la skill original es automatizar validaciones en CI/CD. Pide explícitamente qué controles deberían hacer fallar las pull requests, cuáles deberían ejecutarse después del despliegue y cuáles solo deberían generar alertas. Esa distinción mejora de forma tangible la utilidad del resultado.

Cómo mejorar la skill data-quality-frameworks

Dale al agente semántica del dataset, no solo el esquema

La forma más rápida de mejorar los resultados de data-quality-frameworks es incluir significado, no solo columnas. Por ejemplo:

“customer_id can be null for guest checkout”
“revenue_amount should never be negative except for refunds”
“status values are controlled by the application enum”

Estos detalles permiten al agente recomendar controles realistas de validez y consistencia en lugar de controles genéricos.

Separa los controles críticos de los deseables

Indica al agente qué fallos bloquean producción. Ejemplo:

Tier 1: schema drift, null primary keys, duplicate business keys.
Tier 2: freshness breaches over 2 hours.
Tier 3: soft anomaly detection on distribution shifts.

Esto ayuda a que la skill genere un plan que tu equipo realmente pueda adoptar, en vez de una lista larguísima de pendientes que nunca llega a desplegarse.

Pide mapeo por framework, no solo una lista plana

Un fallo muy común es recibir 30 controles sin ninguna ruta de implementación. Mejora el prompt exigiendo que cada control incluya:

dimension
layer
framework
severity
owner

Así conviertes la data-quality-frameworks guide en un plan de ejecución, no en un simple volcado de ideas.

Proporciona filas de ejemplo y casos erróneos conocidos

Si quieres un mejor uso de data-quality-frameworks, incluye ejemplos tanto de datos válidos como inválidos. Los ejemplos de fallos conocidos ayudan al agente a redactar reglas más precisas sobre:

nulabilidad en casos límite
orden de fechas
deriva de enums
lógica de duplicados
combinaciones de valores imposibles

Los casos reales problemáticos suelen ser más informativos que un esquema perfecto.

Itera después de la primera salida

No te quedes en el primer plan generado. Haz preguntas de seguimiento como:

“Which 5 tests give the highest reliability per hour of work?”
“Which recommendations belong in dbt versus contracts?”
“Which checks are likely too expensive for every run?”
“Rewrite this for BigQuery and incremental models.”

La data-quality-frameworks skill mejora de forma notable cuando se usa como herramienta de afinado a lo largo de dos o tres iteraciones.

Vigila los errores habituales de sobrediseño

Los errores más comunes son:

empezar con aserciones end-to-end costosas
tratar el profiling como sustituto de garantías firmes
mezclar lógica de limpieza de datos con lógica de validación
hacer fallar jobs por cualquier anomalía, generando fatiga de alertas
escribir pruebas sin propietario claro ni ruta de remediación

Si pides al agente que ordene los controles por coste, confianza e impacto operativo, la salida suele ser mucho más desplegable.

Pide un plan de despliegue por fases

Un buen prompt de mejora es:

Using data-quality-frameworks, create a 30/60/90-day rollout: immediate checks, next-layer business assertions, and longer-term contract governance.

Esto evita que los equipos intenten implementar todos los frameworks a la vez. En la mayoría de los casos, la mejor ruta es empezar por pruebas básicas de dbt, después añadir Great Expectations de forma focalizada y, por último, ampliar la disciplina de contratos en los límites entre equipos.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

lamindb

por K-Dense-AI

La skill de lamindb te ayuda a trabajar con LaminDB, un framework de código abierto para datos biológicos que hace que los datos sean consultables, trazables, reproducibles y FAIR. Úsala para lamindb en análisis de datos, curación de metadatos, anotación basada en ontologías, validación de esquemas y flujos de trabajo con conocimiento de linaje en notebooks y pipelines.

Data Analysis

Favoritos 0GitHub 0

exploratory-data-analysis

por K-Dense-AI

La skill exploratory-data-analysis convierte archivos científicos en informes de EDA adaptados al formato. Detecta el tipo de archivo, resume la estructura y la calidad, extrae metadatos clave y sugiere el siguiente análisis. Úsala para exploratory-data-analysis en Data Analysis aplicada a química, bioinformática, microscopía, espectroscopía, proteómica, metabolómica y otros formatos de archivo científicos.

Data Analysis

Favoritos 0GitHub 0

read-file

por duckdb

read-file ayuda a un agente a leer e inspeccionar archivos CSV, JSON, Parquet, Avro, Excel, SQLite, archivos espaciales o URLs remotas con DuckDB. Úsalo para previsualizar filas, comprobar el esquema, perfilar datos y responder qué contiene este archivo. Es ideal para el uso de read-file con artefactos de datos reales, no con código fuente.

Office Documents

Favoritos 0GitHub 443

dummy-dataset

por phuryn

dummy-dataset genera datos de prueba realistas en formato CSV, JSON, SQL o script de Python. Sirve para crear conjuntos de datos ficticios, demos, carga inicial de bases de datos, QA y limpieza de datos, ya que permite definir columnas, número de filas y restricciones para obtener registros de ejemplo creíbles.

Data Cleaning

Favoritos 0GitHub 11.1k

data-analyst

por Shubhamsaboo

data-analyst es una skill mínima de GitHub que orienta a los agentes hacia SQL, pandas y análisis estadístico básico para explorar datos. Encaja mejor para quienes buscan consultas, transformaciones e interpretaciones respaldadas por código desde una sola capa de prompt en SKILL.md.

Data Analysis

Favoritos 0GitHub 104.2k

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k

create-colleague

por titanwings

create-colleague convierte documentos de compañeros, chats, correos, capturas de pantalla, datos de Feishu y DingTalk en una habilidad de IA editable, con salidas separadas de trabajo y persona, además de flujos de actualización para seguir refinándola.

Skill Authoring

Favoritos 1GitHub 747

hyperframes

por heygen-com

hyperframes es una skill de flujo de trabajo para crear composiciones de video basadas en HTML en HyperFrames. Úsala para tarjetas de título, superposiciones, subtítulos, locuciones, movimiento reactivo al audio y transiciones de escena cuando necesites hyperframes estructurados y orientados al código para edición de video. Prioriza decisiones de diseño, tiempo y animación por encima de solicitudes genéricas de video basadas solo en prompts.

Video Editing

Favoritos 0GitHub 2.7k

kreuzberg

por kreuzberg-dev

La skill de kreuzberg te ayuda a instalar y usar Kreuzberg para la extracción de documentos en más de 91 formatos, incluidos PDF, archivos de Office, imágenes, HTML, correo electrónico y archivos comprimidos. Cubre flujos de trabajo en Python, Node.js/TypeScript, Rust y CLI para OCR, tablas, metadatos, procesamiento por lotes y guía práctica de análisis y extracción.

PDF Processing

Favoritos 0GitHub 0

skill-creator

por anthropics

skill-creator es una metahabilidad de creación de Skills para redactar nuevas skills, revisar archivos SKILL.md, ejecutar evaluaciones, comparar variantes y mejorar descripciones de activación con scripts del repositorio y herramientas de revisión.

Skill Authoring

Favoritos 2GitHub 105.1k

azure-identity-py

por microsoft

azure-identity-py ayuda a configurar la autenticación en Azure con Python y Microsoft Entra ID. Úsalo para elegir entre `DefaultAzureCredential`, identidad administrada o autenticación con service principal, configurar variables de entorno y resolver problemas de control de acceso y de la cadena de credenciales. Las indicaciones de instalación, los patrones de uso y las notas prácticas de configuración se basan en el archivo de skill del repositorio.

Access Control

Favoritos 0GitHub 2.2k

claude-api

por anthropics

claude-api es una skill práctica para instalar y usar la Claude API y los SDKs de Anthropic. Ayuda a elegir entre el SDK adecuado o HTTP directo, localizar la documentación por lenguaje e implementar streaming, uso de herramientas, archivos, lotes y manejo de errores con menos prueba y error.

API Development

Favoritos 0GitHub 105k

wrangler

por cloudflare

La skill wrangler te ayuda a encontrar los comandos de CLI correctos, las estructuras de configuración y los pasos de despliegue para Cloudflare Workers. Úsala para el uso de wrangler, para comprobar la instalación de wrangler y como una guía práctica de wrangler al crear o publicar Workers para Backend Development.

Backend Development

Favoritos 0GitHub 1.3k

clickhouse-best-practices

por ClickHouse

clickhouse-best-practices es una skill de mejores prácticas de ClickHouse para Database Engineering. Orienta el diseño de esquemas, la optimización de consultas, la estrategia de inserción y la conectividad con agentes mediante recomendaciones basadas en reglas, lo que facilita activar, revisar y citar el uso de clickhouse-best-practices en flujos de trabajo de ClickHouse.

Database Engineering

Favoritos 0GitHub 412

clickhouse-architecture-advisor

por ClickHouse

clickhouse-architecture-advisor ayuda a diseñar cargas de trabajo de ClickHouse con decisiones adaptadas al workload sobre ingesta, particionamiento, joins, diccionarios, upserts y preagregación. Es especialmente útil para Backend Development, observabilidad, SIEM, analítica de producto, telemetría IoT y pipelines financieros. La skill clasifica la orientación como official, derived o field.

Backend Development

Favoritos 0GitHub 412

figma-generate-library

por figma

figma-generate-library te ayuda a crear o actualizar un sistema de diseño en Figma a partir de una base de código, con un flujo de trabajo ordenado para tokens, bibliotecas de componentes, documentación y temas claro/oscuro. Usa la skill figma-generate-library cuando necesites una guía práctica para Design Systems, no un mockup puntual. Complementa a figma-use para llamadas a la Plugin API.

Design Systems

Favoritos 0GitHub 0