data-quality-frameworks

por wshobson

A skill data-quality-frameworks ajuda equipes a planejar a validação de dados em produção com testes do dbt, Great Expectations e data contracts. Use-a para escolher as verificações certas, mapeá-las para uma pirâmide de testes e orientar fluxos de qualidade de dados prontos para CI/CD em Data Cleaning e confiabilidade de pipelines.

Estrelas32.6k

Favoritos0

Comentários0

Adicionado30 de mar. de 2026

CategoriaData Cleaning

Comando de instalação

npx skills add wshobson/agents --skill data-quality-frameworks

Pontuação editorial

Esta skill recebe nota 68/100, o que indica que vale a pena listá-la para usuários do diretório que buscam uma referência substancial sobre padrões de qualidade de dados, mas que devem esperar adaptar a orientação ao seu próprio ambiente, em vez de seguir um fluxo rigidamente operacionalizado. As evidências no repositório mostram conteúdo real e gatilhos claros em torno de Great Expectations, testes do dbt e data contracts, mas faltam detalhes de instalação/execução, arquivos de suporte ou exemplos vinculados que reduziriam ainda mais a incerteza na implementação.

68/100

Pontos fortes

Boa acionabilidade a partir do frontmatter e da orientação "When to Use", cobrindo pipelines de validação, testes do dbt, data contracts, monitoramento e CI/CD.
Documentação robusta: um SKILL.md extenso com múltiplas seções, conceitos, restrições, fluxos de trabalho e blocos de código indica conteúdo de workflow real, não um placeholder.
Cobertura útil entre frameworks: combina Great Expectations, testes do dbt e padrões de data contracts, oferecendo aos agentes um ponto de partida mais forte do que um prompt genérico e isolado.

Pontos de atenção

A clareza operacional é limitada pela ausência de arquivos de suporte, referências e links para repositório/arquivos, então os agentes precisam inferir detalhes de implementação para uma stack específica.
A skill não fornece comando de instalação nem artefatos executáveis, o que reduz a confiança para adoção rápida e reprodutibilidade.

Data Quality Data Validation Data Contracts Dbt Great Expectations Ci Cd Data Engineering Workflow

Visão geral

Visão geral da skill data-quality-frameworks

O que a skill data-quality-frameworks faz

A skill data-quality-frameworks ajuda um agente a desenhar uma validação prática de qualidade de dados usando três abordagens comuns: testes de dbt, Great Expectations e contratos de dados. Ela foi feita para times que precisam de algo mais concreto do que um pedido vago como “adicione checagens de dados” e querem uma forma estruturada de decidir o que testar, onde testar e como operacionalizar essas checagens em pipelines e em CI/CD.

Quem deve usar data-quality-frameworks

Esta skill é mais indicada para engenheiros de dados, analytics engineers, times de plataforma e lideranças técnicas que estejam criando controles de qualidade repetíveis para tabelas, modelos e interfaces de pipeline. Ela é especialmente útil quando você precisa de data-quality-frameworks for Data Cleaning em contexto de produção, e não apenas para uma limpeza exploratória pontual.

O problema real que ela resolve

Em geral, o usuário não quer apenas o nome de um framework. Ele quer responder a perguntas como:

Quais dimensões de qualidade importam para este dataset?
Esta checagem deve ficar em SQL, dbt, Great Expectations ou em um contrato?
Qual é a suíte mínima viável de testes antes de ir para produção?
Como evitar schema drift e mudanças ruins vindas de upstream?

A data-quality-frameworks skill entrega mais valor quando o objetivo é transformar necessidades de confiabilidade do negócio em padrões concretos de validação.

O que diferencia esta skill de um prompt genérico

O conteúdo do repositório é mais forte em estrutura de decisão do que em automação. Ele oferece um modelo mental reutilizável centrado em:

dimensões centrais de qualidade de dados
uma pirâmide de testes para dados
seleção de framework entre dbt, Great Expectations e contratos
casos de uso orientados à produção, como CI/CD e monitoramento

Isso a torna mais útil do que um prompt genérico do tipo “escreva algumas checagens de dados”, mas ela ainda depende de você fornecer stack, schemas e limites de falha.

O que saber antes de instalar

Esta é uma skill somente de texto, com orientações em SKILL.md. Não há scripts auxiliares, templates nem arquivos de referência na pasta da skill. A adoção é simples porque quase não existe setup, mas a qualidade da saída depende muito dos insumos que você fornecer. Se você quer configs prontas para copiar e colar sem passar detalhes das tabelas, esta skill pode parecer incompleta.

Como usar a skill data-quality-frameworks

Contexto de instalação da data-quality-frameworks

Instale a skill a partir do repositório wshobson/agents:

npx skills add https://github.com/wshobson/agents --skill data-quality-frameworks

Como a skill existe em um único SKILL.md, não há setup adicional de pacote local dentro dela. O trabalho principal de configuração fica no seu próprio ambiente: dbt, Great Expectations, acesso ao warehouse e qualquer runner de CI que você use.

Leia este arquivo primeiro

Comece por:

plugins/data-engineering/skills/data-quality-frameworks/SKILL.md

Como não há README, resources nem scripts de apoio, o caminho mais rápido de leitura é:

When to Use This Skill
Core Concepts
seções sobre a pirâmide de testes e os padrões de framework
eventuais exemplos de implementação nos blocos de código

É uma skill curta de consumir, então o principal ganho vem de usá-la com um prompt preciso, e não de vasculhar profundamente o repositório.

Quais entradas a skill precisa de você

Para um uso forte de data-quality-frameworks, passe ao agente:

nomes de datasets ou modelos
lista de colunas com tipos
grain esperado ou chave primária
expectativas de freshness
faixas de valores permitidas ou enums
campos anuláveis versus obrigatórios
dependências upstream/downstream conhecidas
onde as checagens devem rodar: ingestion, transform, publish ou boundary de contrato
política de tratamento de falhas: warn, fail job, quarantine, alert

Sem esses detalhes, o agente só conseguirá devolver exemplos genéricos como checagens de unicidade, nulos e intervalos.

Como transformar um objetivo vago em um prompt forte

Prompt fraco:

Help me add data quality checks.

Prompt melhor:

Use the data-quality-frameworks skill to design a validation plan for our orders pipeline. Source is raw event data loaded to BigQuery, transformed with dbt. Key fields: order_id, customer_id, order_status, order_total, created_at, updated_at. order_id must be unique at the mart layer. order_status must be one of pending, paid, shipped, cancelled, refunded. order_total must be >= 0. Freshness target is under 2 hours. We want: 1) source-level checks, 2) dbt tests, 3) any checks that fit Great Expectations, 4) a simple data contract for upstream producers, and 5) CI/CD recommendations with fail-vs-warn guidance.

Esse prompt funciona porque dá contexto suficiente para a skill mapear os requisitos ao framework certo.

Como pedir o formato de saída certo

Peça ao agente para produzir a saída em camadas:

dimensões de qualidade por dataset
posicionamento na pirâmide de testes
mapeamento concreto de framework
definições de testes de exemplo
ordem de rollout

Exemplo:

Using the data-quality-frameworks guide, return a table with columns: check, dimension, layer, framework, severity, reason. Then generate sample dbt tests and Great Expectations expectations only for the highest-value checks.

Isso reduz overengineering e mantém a primeira rodada focada em implementação.

Fluxo de trabalho prático para usar data-quality-frameworks

Um bom fluxo para data-quality-frameworks é:

Inventariar seus datasets críticos.
Identificar o grain e a superfície de contrato.
Classificar as checagens por dimensão de qualidade.
Posicionar cada checagem na pirâmide de testes.
Atribuir cada checagem a dbt, Great Expectations ou a um contrato de dados.
Decidir quais checagens bloqueiam deploys e quais apenas geram alerta.
Implementar primeiro o menor conjunto confiável.

Esta skill funciona melhor para desenho de sistema e planejamento de validação do que para geração em massa de todos os testes possíveis.

Quando usar dbt, Great Expectations ou contratos

Use a skill para separar responsabilidades:

dbt se encaixa bem em assertions no nível de modelo, como unicidade, não nulo, valores aceitos e testes de relacionamento.
Great Expectations faz mais sentido para fluxos de validação mais ricos, expectations no estilo profiling e validação em runtime ao redor de etapas do pipeline.
Contratos de dados são ideais para acordos entre produtor e consumidor, como formato do schema, campos obrigatórios e garantias semânticas nas fronteiras.

Um erro comum é tentar forçar uma única ferramenta a fazer tudo. A data-quality-frameworks skill é mais útil quando você usa cada framework na camada em que ele é naturalmente mais forte.

O que a pirâmide de testes significa na prática

A pirâmide de testes da skill é útil para priorização. Na prática:

coloque muitas checagens estruturais baratas nos níveis inferiores
adicione menos checagens entre tabelas e regras de negócio nos níveis superiores
reserve validações end-to-end caras para os caminhos mais críticos

Se o seu primeiro plano contém apenas assertions complexas de negócio e nenhuma checagem básica de nulos, unicidade, schema ou freshness, é bem provável que você esteja pulando a camada de maior ROI.

O que esta skill faz bem para Data Cleaning

Para data-quality-frameworks for Data Cleaning, a skill é mais útil para definir validação contínua depois que a lógica de limpeza já foi introduzida. Ela ajuda a responder:

quais entradas ruins devem ser bloqueadas
quais valores devem ser padronizados
quais anomalias devem disparar revisão em vez de falha no pipeline
como garantir que as saídas limpas continuem conformes ao longo do tempo

Ela trata menos das transformações de limpeza em si e mais de provar que essas transformações produzem saídas confiáveis.

Restrições e trade-offs de adoção

Esta skill tem baixa fricção de instalação, mas poucos artefatos prontos para implementação. Espere fazer sua própria tradução para arquivos de projeto como:

models/*.yml para dbt
expectation suites ou checkpoints para Great Expectations
documentos de contrato no formato de schema que você preferir

Se você precisa de um repositório com templates prontos, esta skill é mais leve do que isso. O valor dela está em ajudar o agente a raciocinar corretamente, e não em entregar um starter kit turnkey.

FAQ da skill data-quality-frameworks

A data-quality-frameworks é boa para iniciantes?

Sim, desde que você já entenda o básico sobre tabelas, colunas e pipelines. Os conceitos são acessíveis: dimensões de qualidade, camadas de teste e escolha de framework. Iniciantes absolutos ainda podem precisar de documentação separada sobre a sintaxe de dbt ou Great Expectations, porque a skill não é um tutorial completo de nenhuma dessas ferramentas.

Isso é melhor do que um prompt comum?

Na maioria dos casos, sim, quando o seu problema é escolher framework e definir estratégia de testes. Um prompt comum pode gerar checagens aleatórias. A data-quality-frameworks skill dá ao agente uma estrutura mais disciplinada: dimensões, pirâmide e adequação de framework. Isso normalmente leva a menos testes irrelevantes.

Qual é a principal limitação?

A skill não inclui arquivos auxiliares, templates de implementação nem adaptadores específicos para projeto. Ela não consegue inferir a semântica do seu warehouse, seus SLAs ou suas regras de negócio a menos que você forneça isso. A qualidade do resultado está diretamente ligada ao nível de especificidade do seu prompt.

Quando eu não deveria usar data-quality-frameworks?

Evite se você só precisa de uma checagem simples, de uma linha, para um único CSV ou de um script rápido de limpeza ad hoc. Ela também é uma escolha fraca se o seu time já padronizou totalmente um único framework e só precisa de snippets de sintaxe, e não de orientação de design.

Posso usar data-quality-frameworks só com dbt?

Sim. Embora a skill mencione vários frameworks, você pode pedir que as recomendações fiquem restritas apenas a dbt. O mesmo vale se o seu time prefere Great Expectations ou quer focar primeiro em contratos de dados.

Ela ajuda com decisões de CI/CD?

Sim. Um dos casos de uso mais claros na skill de origem é automatizar validação em CI/CD. Pergunte explicitamente quais checagens devem falhar pull requests, quais devem rodar pós-deploy e quais devem apenas gerar alertas. Essa distinção melhora de forma material a utilidade da saída.

Como melhorar a skill data-quality-frameworks

Dê ao agente a semântica do dataset, não só o schema

A forma mais rápida de melhorar os resultados de data-quality-frameworks é incluir significado, não apenas colunas. Por exemplo:

“customer_id can be null for guest checkout”
“revenue_amount should never be negative except for refunds”
“status values are controlled by the application enum”

Esses detalhes permitem que o agente recomende checagens realistas de validade e consistência, em vez de sugestões genéricas.

Separe checagens críticas das checagens desejáveis

Diga ao agente quais falhas realmente bloqueiam produção. Exemplo:

Tier 1: schema drift, null primary keys, duplicate business keys.
Tier 2: freshness breaches over 2 hours.
Tier 3: soft anomaly detection on distribution shifts.

Isso ajuda a skill a produzir um plano que o seu time realmente consegue adotar, em vez de um backlog enorme que nunca vai para produção.

Peça mapeamento por framework, não apenas uma lista plana

Um modo comum de falha é receber 30 checagens sem caminho claro de implementação. Melhore o prompt exigindo que toda checagem inclua:

dimension
layer
framework
severity
owner

Isso transforma o data-quality-frameworks guide em um plano de execução, e não em um despejo de ideias.

Forneça linhas de exemplo e casos ruins conhecidos

Se você quer melhorar o uso de data-quality-frameworks, inclua exemplos de dados válidos e inválidos. Exemplos reais de falha ajudam o agente a escrever regras mais precisas sobre:

nulabilidade em casos de borda
ordenação de datas
drift de enum
lógica de duplicidade
combinações impossíveis de valores

Casos reais problemáticos costumam ser mais informativos do que um schema perfeito.

Itere depois da primeira saída

Não pare no primeiro plano gerado. Faça perguntas de continuação como:

“Which 5 tests give the highest reliability per hour of work?”
“Which recommendations belong in dbt versus contracts?”
“Which checks are likely too expensive for every run?”
“Rewrite this for BigQuery and incremental models.”

A data-quality-frameworks skill melhora bastante quando é usada como ferramenta de refinamento ao longo de duas ou três iterações.

Fique atento aos erros comuns de overdesign

Os erros mais comuns são:

começar por assertions end-to-end caras
tratar profiling como substituto de garantias rígidas
misturar lógica de data cleaning com lógica de validação
falhar jobs para toda anomalia, gerando fadiga de alertas
escrever testes sem owner claro nem caminho de remediação

Se você pedir ao agente para ranquear as checagens por custo, confiança e impacto operacional, a saída normalmente fica muito mais fácil de colocar em produção.

Peça um plano de rollout em fases

Um prompt forte de melhoria é:

Using data-quality-frameworks, create a 30/60/90-day rollout: immediate checks, next-layer business assertions, and longer-term contract governance.

Isso evita que os times tentem implementar todos os frameworks de uma vez. Na maioria dos casos, o melhor caminho é começar com testes básicos de dbt, depois adicionar Great Expectations de forma direcionada, e só então ampliar a disciplina de contratos nas fronteiras entre times.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

lamindb

por K-Dense-AI

A skill lamindb ajuda você a trabalhar com o LaminDB, um framework open source para dados de biologia que torna os dados consultáveis, rastreáveis, reproduzíveis e FAIR. Use para lamindb em análise de dados, curadoria de metadados, anotação baseada em ontologia, validação de schema e fluxos de trabalho com noção de linhagem em notebooks e pipelines.

Data Analysis

Favoritos 0GitHub 0

exploratory-data-analysis

por K-Dense-AI

A skill exploratory-data-analysis transforma arquivos científicos em relatórios de EDA sensíveis ao formato. Ela detecta o tipo de arquivo, resume estrutura e qualidade, extrai metadados-chave e sugere análises subsequentes. Use-a para exploratory-data-analysis em Análise de Dados em química, bioinformática, microscopia, espectroscopia, proteômica, metabolômica e outros formatos de arquivos científicos.

Data Analysis

Favoritos 0GitHub 0

read-file

por duckdb

O read-file ajuda um agente a ler e inspecionar CSV, JSON, Parquet, Avro, Excel, SQLite, arquivos espaciais ou URLs remotas com DuckDB. Use-o para pré-visualizar linhas, verificar o schema, perfilar dados e responder ao que há neste arquivo. É mais indicado para uso com read-file em dados reais, não em código-fonte.

Office Documents

Favoritos 0GitHub 443

dummy-dataset

por phuryn

A skill dummy-dataset gera dados de teste realistas em formato CSV, JSON, SQL ou script Python. Ela ajuda na criação de datasets fictícios, demos, seed de banco de dados, QA e limpeza de dados, permitindo definir colunas, quantidade de linhas e restrições para produzir registros de exemplo convincentes.

Data Cleaning

Favoritos 0GitHub 11.1k

data-analyst

por Shubhamsaboo

data-analyst é uma skill enxuta do GitHub que orienta agentes a usar SQL, pandas e análise estatística básica na exploração de dados. É mais indicada para quem quer consultas, transformações e interpretações com base em código, a partir de uma única camada de prompt em SKILL.md.

Data Analysis

Favoritos 0GitHub 104.2k

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k

create-colleague

por titanwings

create-colleague transforma documentos, chats, emails, capturas de tela, dados do Feishu e do DingTalk de colegas em uma skill de IA editável, com saídas separadas de trabalho e persona, além de fluxos de atualização para refinamento contínuo.

Skill Authoring

Favoritos 1GitHub 747

hyperframes

por heygen-com

hyperframes é uma skill de fluxo de trabalho para criar composições de vídeo baseadas em HTML no HyperFrames. Use-a para cards de título, sobreposições, legendas, narração, movimento reativo ao áudio e transições de cena quando precisar de hyperframes estruturados e orientados por código para Edição de Vídeo. Ela prioriza decisões de layout, tempo e animação em vez de pedidos genéricos de vídeo só com prompt.

Video Editing

Favoritos 0GitHub 2.7k

kreuzberg

por kreuzberg-dev

A skill kreuzberg ajuda você a instalar e usar o Kreuzberg para extração de documentos em mais de 91 formatos, incluindo PDFs, arquivos do Office, imagens, HTML, e-mail e arquivos compactados. Ela cobre fluxos de trabalho em Python, Node.js/TypeScript, Rust e CLI para OCR, tabelas, metadados, processamento em lote e orientações práticas de parsing.

PDF Processing

Favoritos 0GitHub 0

skill-creator

por anthropics

skill-creator é uma meta-skill de criação de Skills para rascunhar novas skills, revisar arquivos SKILL.md, rodar evals, comparar variantes e melhorar descrições de trigger com scripts e ferramentas de revisão do repositório.

Skill Authoring

Favoritos 2GitHub 105.1k

azure-identity-py

por microsoft

azure-identity-py ajuda a configurar autenticação Azure em Python com o Microsoft Entra ID. Use-o para escolher entre `DefaultAzureCredential`, managed identity ou autenticação por service principal, configurar variáveis de ambiente e resolver problemas de controle de acesso e da cadeia de credenciais. As orientações de instalação, os padrões de uso e as notas práticas de configuração são baseados no arquivo de skill do repositório.

Access Control

Favoritos 0GitHub 2.2k

claude-api

por anthropics

claude-api é uma skill prática para instalar e usar a Claude API e os SDKs da Anthropic. Ajuda desenvolvedores a escolher entre o SDK certo ou HTTP bruto, encontrar a documentação por linguagem e implementar streaming, tool use, arquivos, batches e tratamento de erros com menos tentativa e erro.

API Development

Favoritos 0GitHub 105k

wrangler

por cloudflare

A skill wrangler ajuda você a encontrar os comandos corretos de CLI, os formatos de configuração e as etapas de deploy para Cloudflare Workers. Use-a para uso do wrangler, checagens de instalação do wrangler e um guia prático de wrangler ao criar ou publicar Workers para Backend Development.

Backend Development

Favoritos 0GitHub 1.3k

clickhouse-best-practices

por ClickHouse

clickhouse-best-practices é uma skill de melhores práticas para ClickHouse voltada para Engenharia de Banco de Dados. Ela orienta o desenho de schema, a otimização de queries, a estratégia de inserts e a conectividade com agentes por meio de recomendações baseadas em regras, deixando o uso de clickhouse-best-practices mais fácil de acionar, revisar e citar em fluxos de trabalho do ClickHouse.

Database Engineering

Favoritos 0GitHub 412

clickhouse-architecture-advisor

por ClickHouse

clickhouse-architecture-advisor ajuda a projetar workloads no ClickHouse com decisões orientadas pela carga de trabalho para ingestão, particionamento, joins, dicionários, upserts e pré-agregação. É especialmente útil para Desenvolvimento Backend, observabilidade, SIEM, analytics de produto, telemetria de IoT e pipelines financeiros. O skill classifica as orientações como official, derived ou field.

Backend Development

Favoritos 0GitHub 412

figma-generate-library

por figma

A skill figma-generate-library ajuda você a criar ou atualizar um sistema de design no Figma a partir de uma base de código, com um fluxo organizado para tokens, bibliotecas de componentes, documentação e temas claro/escuro. Use a skill figma-generate-library quando precisar de um guia prático para Design Systems, e não de um mockup pontual. Ela complementa a figma-use para chamadas à Plugin API.

Design Systems

Favoritos 0GitHub 0