data-quality-frameworks

작성자 wshobson

data-quality-frameworks 스킬은 팀이 dbt tests, Great Expectations, 데이터 계약을 활용해 운영 환경의 데이터 검증을 설계하도록 돕습니다. 어떤 검사를 선택할지 정하고, 이를 테스트 피라미드에 매핑하며, Data Cleaning과 파이프라인 신뢰성을 위한 CI/CD 대응 데이터 품질 워크플로를 구성할 때 유용합니다.

Stars32.6k

즐겨찾기0

추가됨2026년 3월 30일

카테고리Data Cleaning

설치 명령어

npx skills add wshobson/agents --skill data-quality-frameworks

큐레이션 점수

이 스킬의 평점은 68/100입니다. 데이터 품질 패턴에 대한 충분한 참고 자료를 원하는 디렉터리 사용자에게는 등재할 만하지만, 바로 실행 가능한 운영형 워크플로라기보다 각자 환경에 맞게 해석하고 적용해야 하는 가이드에 가깝습니다. 저장소에는 Great Expectations, dbt tests, 데이터 계약을 중심으로 한 실제 콘텐츠와 명확한 사용 트리거가 보이지만, 설치·실행 관련 세부 정보, 보조 파일, 연결된 예제가 부족해 실제 적용 시 시행착오를 더 줄여 주는 수준까지는 아닙니다.

68/100

강점

frontmatter와 "When to Use" 안내를 통해 validation pipelines, dbt tests, data contracts, monitoring, CI/CD까지 사용 트리거가 명확하게 제시됩니다.
문서 분량과 구성이 충분합니다. 여러 섹션, 개념 설명, 제약 사항, 워크플로, 코드 펜스를 포함한 긴 SKILL.md는 자리만 채운 초안이 아니라 실제 활용 가능한 워크플로 콘텐츠임을 보여줍니다.
프레임워크를 가로지르는 범위가 유용합니다. Great Expectations, dbt testing, 데이터 계약 패턴을 함께 다뤄서, 단발성 일반 프롬프트보다 에이전트가 시작하기 좋은 기반을 제공합니다.

주의점

보조 파일, 참고 자료, repo/file 링크가 없어 운영 관점의 명확성이 제한적이며, 특정 스택에 맞는 구현 세부 사항은 에이전트가 직접 추론해야 합니다.
스킬에 install command나 실행 가능한 자산이 제공되지 않아, 빠른 도입과 재현 가능성 측면의 신뢰도는 다소 떨어집니다.

Data Quality Data Validation Data Contracts Dbt Great Expectations Ci Cd Data Engineering Workflow

개요

data-quality-frameworks 스킬 개요

data-quality-frameworks 스킬이 하는 일

data-quality-frameworks 스킬은 에이전트가 실무적인 데이터 품질 검증 체계를 설계하도록 돕습니다. 접근 방식은 dbt 테스트, Great Expectations, 데이터 계약(data contracts)이라는 세 가지 대표적인 방법을 기준으로 합니다. 단순히 “데이터 체크를 추가해줘” 같은 모호한 요청이 아니라, 무엇을 테스트할지, 어디에서 테스트할지, 그리고 그 체크를 파이프라인과 CI/CD에 어떻게 운영 방식으로 녹여낼지까지 구조적으로 판단해야 하는 팀에 적합합니다.

누가 data-quality-frameworks를 써야 하나

이 스킬은 테이블, 모델, 파이프라인 인터페이스에 대해 반복 가능하고 재현성 있는 품질 관리 체계를 만들려는 데이터 엔지니어, 애널리틱스 엔지니어, 플랫폼 팀, 테크 리드에게 가장 잘 맞습니다. 특히 일회성 탐색성 정리가 아니라 운영 환경에서 data-quality-frameworks for Data Cleaning이 필요한 경우에 더 유용합니다.

실제로 해결하려는 일

사용자가 원하는 것은 보통 프레임워크 이름 자체가 아닙니다. 실제로는 이런 질문에 답하고 싶어 합니다.

이 데이터셋에서 어떤 품질 차원이 중요한가?
이 체크는 SQL, dbt, Great Expectations, 계약 중 어디에 두는 게 맞는가?
운영 배포 전 최소한으로 갖춰야 할 테스트 세트는 무엇인가?
스키마 드리프트와 상류 시스템의 잘못된 변경을 어떻게 막을 것인가?

data-quality-frameworks skill의 핵심 가치는 비즈니스 신뢰성 요구사항을 구체적인 검증 패턴으로 번역하는 데 있습니다.

일반적인 프롬프트와 다른 점

이 저장소의 강점은 자동화 그 자체보다도 의사결정 구조에 있습니다. 재사용 가능한 사고 틀을 제공하는데, 중심 요소는 다음과 같습니다.

핵심 데이터 품질 차원
데이터를 위한 테스트 피라미드
dbt, Great Expectations, 계약 간 프레임워크 선택 기준
CI/CD와 모니터링 같은 운영 지향 사용 사례

그래서 “데이터 체크 몇 개 써줘” 같은 범용 프롬프트보다 훨씬 실용적입니다. 다만 여전히 사용자가 자신의 스택, 스키마, 실패 임계값을 구체적으로 제공해야 좋은 결과가 나옵니다.

설치 전에 알아둘 점

이 스킬은 SKILL.md에만 들어 있는 텍스트 기반 스킬입니다. 스킬 폴더 안에 헬퍼 스크립트, 템플릿, 레퍼런스 파일은 없습니다. 설정 부담이 거의 없어 도입은 쉽지만, 결과물의 품질은 사용자가 제공하는 입력 정보에 크게 좌우됩니다. 테이블 상세 정보 없이 바로 복붙 가능한 설정 파일을 기대한다면 이 스킬은 다소 가볍게 느껴질 수 있습니다.

data-quality-frameworks 스킬 사용 방법

data-quality-frameworks 설치 맥락

wshobson/agents 저장소에서 스킬을 설치합니다.

npx skills add https://github.com/wshobson/agents --skill data-quality-frameworks

이 스킬은 단일 SKILL.md로 구성되어 있으므로, 스킬 자체 내부에서 별도의 로컬 패키지 설정은 필요하지 않습니다. 실제 준비 작업은 사용자 환경에 있습니다. 예를 들어 dbt, Great Expectations, 데이터 웨어하우스 접근 권한, 그리고 사용하는 CI 러너 구성이 여기에 해당합니다.

먼저 읽어야 할 파일

가장 먼저 볼 파일은 다음입니다.

plugins/data-engineering/skills/data-quality-frameworks/SKILL.md

지원용 README, resources, scripts가 없기 때문에 가장 빠른 읽기 순서는 다음과 같습니다.

When to Use This Skill
Core Concepts
테스트 피라미드와 프레임워크 패턴을 다루는 섹션
코드 블록에 들어 있는 구현 예시

이 스킬 자체는 분량이 짧아서, 저장소를 깊게 뒤지는 것보다 정확한 프롬프트와 함께 사용하는 편이 훨씬 큰 효과를 냅니다.

data-quality-frameworks가 사용자에게 요구하는 입력

data-quality-frameworks를 제대로 활용하려면 에이전트에게 다음 정보를 주는 것이 좋습니다.

데이터셋 또는 모델 이름
타입이 포함된 컬럼 목록
기대하는 grain 또는 기본 키
freshness 기대치
허용 가능한 값 범위 또는 enum
nullable 필드와 필수 필드 구분
알려진 upstream/downstream 의존성
체크를 실행해야 할 위치: ingestion, transform, publish, 또는 contract boundary
실패 처리 정책: warn, fail job, quarantine, alert

이 정보가 없으면 에이전트는 uniqueness, null, range 체크 같은 일반론적인 예시만 돌려줄 가능성이 큽니다.

거친 목표를 강한 프롬프트로 바꾸기

약한 프롬프트:

Help me add data quality checks.

더 나은 프롬프트:

Use the data-quality-frameworks skill to design a validation plan for our orders pipeline. Source is raw event data loaded to BigQuery, transformed with dbt. Key fields: order_id, customer_id, order_status, order_total, created_at, updated_at. order_id must be unique at the mart layer. order_status must be one of pending, paid, shipped, cancelled, refunded. order_total must be >= 0. Freshness target is under 2 hours. We want: 1) source-level checks, 2) dbt tests, 3) any checks that fit Great Expectations, 4) a simple data contract for upstream producers, and 5) CI/CD recommendations with fail-vs-warn guidance.

이 프롬프트가 잘 작동하는 이유는, 요구사항을 어떤 프레임워크에 매핑해야 하는지 판단할 수 있을 만큼 충분한 맥락을 주기 때문입니다.

원하는 출력 형식을 어떻게 요청할까

에이전트에게 결과를 계층적으로 내놓도록 요청하세요.

데이터셋별 품질 차원
테스트 피라미드 내 배치
구체적인 프레임워크 매핑
샘플 테스트 정의
롤아웃 순서

예시:

Using the data-quality-frameworks guide, return a table with columns: check, dimension, layer, framework, severity, reason. Then generate sample dbt tests and Great Expectations expectations only for the highest-value checks.

이렇게 하면 과한 설계를 줄일 수 있고, 첫 번째 결과물을 실제 구현 중심으로 유지하기 쉬워집니다.

data-quality-frameworks 실무 워크플로

좋은 워크플로는 대체로 다음과 같습니다.

핵심 데이터셋 인벤토리를 만든다.
grain과 contract surface를 식별한다.
체크를 품질 차원별로 분류한다.
각 체크를 테스트 피라미드에 배치한다.
각 체크를 dbt, Great Expectations, 데이터 계약 중 하나에 할당한다.
어떤 체크가 배포를 막아야 하고 어떤 체크는 알림만 줄지 결정한다.
가장 작지만 신뢰할 수 있는 세트부터 먼저 구현한다.

이 스킬은 가능한 모든 테스트를 무차별 생성하는 용도보다, 시스템 설계와 검증 계획 수립에 더 강합니다.

dbt, Great Expectations, 계약은 언제 써야 하나

이 스킬은 역할을 분리해 생각하는 데 유용합니다.

dbt는 uniqueness, non-null, accepted values, relationship tests 같은 모델 수준 단언에 잘 맞습니다.
Great Expectations는 더 풍부한 검증 워크플로, profiling 성격의 expectation, 파이프라인 단계 주변의 런타임 검증에 적합합니다.
데이터 계약은 스키마 형태, 필수 필드, 경계면에서의 의미적 보장처럼 producer-consumer 간 합의에 적합합니다.

흔한 실수는 하나의 도구로 모든 문제를 해결하려는 것입니다. data-quality-frameworks skill은 각 프레임워크를 본래 잘 맞는 계층에 배치할 때 가장 큰 가치를 냅니다.

data-quality-frameworks에서 테스트 피라미드가 실무에서 뜻하는 것

이 스킬의 테스트 피라미드는 우선순위를 정할 때 특히 유용합니다. 실무적으로는 다음을 의미합니다.

하위 계층에는 저렴한 구조적 체크를 많이 둔다
상위 계층으로 갈수록 cross-table 체크와 비즈니스 규칙 검증은 더 적게 둔다
비용이 큰 end-to-end 검증은 정말 중요한 경로에만 남긴다

처음 세운 계획에 복잡한 비즈니스 단언만 있고 기본적인 null, uniqueness, schema, freshness 체크가 없다면, 대개 ROI가 가장 높은 레이어를 건너뛰고 있는 것입니다.

Data Cleaning을 위한 data-quality-frameworks의 강점

data-quality-frameworks for Data Cleaning 관점에서 보면, 이 스킬은 정제 로직을 도입한 뒤 지속적인 검증 체계를 정의하는 데 가장 잘 맞습니다. 예를 들면 이런 질문에 도움이 됩니다.

어떤 잘못된 입력을 차단해야 하는가
어떤 값을 표준화해야 하는가
어떤 이상치는 파이프라인 실패가 아니라 리뷰 대상으로 보내야 하는가
정제된 결과가 시간이 지나도 계속 규격을 만족하도록 어떻게 보장할 것인가

즉, 정제 변환 자체를 만드는 도구라기보다, 그 변환이 신뢰할 수 있는 결과를 내고 있음을 입증하는 데 더 초점이 맞춰져 있습니다.

제약 사항과 도입 시 트레이드오프

이 스킬은 설치 마찰은 낮지만, 기본 제공되는 구현 자산은 제한적입니다. 따라서 다음과 같은 프로젝트 파일로 옮기는 작업은 직접 해야 합니다.

models/*.yml for dbt
expectation suites or checkpoints for Great Expectations
contract documents in your preferred schema format

바로 쓸 수 있는 템플릿이 포함된 저장소를 원한다면, 이 스킬은 그보다 훨씬 가벼운 편입니다. 강점은 턴키 스타터 키트를 제공하는 데 있는 것이 아니라, 에이전트가 올바르게 추론하도록 돕는 데 있습니다.

data-quality-frameworks 스킬 FAQ

data-quality-frameworks는 초보자에게도 괜찮을까?

네. 테이블, 컬럼, 파이프라인의 기본 개념을 이미 이해하고 있다면 충분히 쓸 만합니다. 품질 차원, 테스트 레이어링, 프레임워크 선택 같은 개념은 비교적 접근하기 쉽습니다. 다만 완전 초보자라면 dbt나 Great Expectations 문법 자체는 별도 문서를 함께 봐야 할 수 있습니다. 이 스킬은 두 도구에 대한 풀 튜토리얼은 아니기 때문입니다.

일반 프롬프트보다 더 나은가?

대체로 그렇습니다. 특히 문제의 핵심이 프레임워크 선택과 테스트 전략일 때 차이가 큽니다. 일반 프롬프트는 무작위에 가까운 체크를 생성하기 쉽습니다. 반면 data-quality-frameworks skill은 품질 차원, 피라미드, 프레임워크 적합성이라는 더 엄격한 구조를 제공합니다. 그래서 불필요한 테스트가 줄어드는 경우가 많습니다.

가장 큰 한계는 무엇인가?

이 스킬에는 헬퍼 파일, 구현 템플릿, 프로젝트별 어댑터가 포함되어 있지 않습니다. 사용자가 제공하지 않으면 웨어하우스의 의미론, SLA, 비즈니스 규칙을 스스로 추론할 수 없습니다. 결과 품질은 프롬프트의 구체성에 매우 직접적으로 좌우됩니다.

언제 data-quality-frameworks를 쓰지 말아야 하나?

단일 CSV에 대한 한 줄짜리 체크만 필요하거나, 빠른 ad hoc 정리 스크립트만 만들면 되는 상황이라면 굳이 쓸 필요가 없습니다. 또한 팀이 이미 하나의 프레임워크로 완전히 표준화되어 있고, 설계 가이드가 아니라 문법 스니펫만 필요하다면 적합도가 떨어집니다.

data-quality-frameworks를 `dbt`만으로도 쓸 수 있나?

그렇습니다. 이 스킬은 여러 프레임워크를 언급하지만, 추천 범위를 dbt만으로 제한해 달라고 요청할 수 있습니다. 팀

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

lamindb

작성자 K-Dense-AI

lamindb 스킬은 오픈소스 생물학 데이터 프레임워크인 LaminDB를 활용해 데이터를 질의 가능하고, 추적 가능하며, 재현 가능하고, FAIR 원칙에 맞게 다루도록 도와줍니다. Data Analysis용 lamindb, 메타데이터 큐레이션, 온톨로지 기반 주석, 스키마 검증, 그리고 노트북과 파이프라인 전반에서 계보 추적을 고려한 워크플로에 사용할 수 있습니다.

Data Analysis

즐겨찾기 0GitHub 0

exploratory-data-analysis

작성자 K-Dense-AI

exploratory-data-analysis 스킬은 과학 파일을 형식 인식형 EDA 보고서로 바꿉니다. 파일 유형을 감지하고, 구조와 품질을 요약하며, 핵심 메타데이터를 추출하고, 다음 분석 단계를 제안합니다. 화학, 생정보학, 현미경, 분광학, 프로테오믹스, 메타볼로믹스 등 다양한 과학 파일 형식의 Data Analysis에 필요한 exploratory-data-analysis 용도로 활용하세요.

Data Analysis

즐겨찾기 0GitHub 0

read-file

작성자 duckdb

read-file는 에이전트가 DuckDB로 CSV, JSON, Parquet, Avro, Excel, SQLite, 공간 파일, 원격 URL을 읽고 검사하도록 돕습니다. 행 미리보기, 스키마 확인, 데이터 프로파일링, 그리고 이 파일에 무엇이 들어 있는지 파악할 때 유용합니다. 소스 코드가 아니라 실제 데이터 산출물에 대한 read-file 사용에 가장 적합합니다.

Office Documents

즐겨찾기 0GitHub 443

dummy-dataset

작성자 phuryn

dummy-dataset은 CSV, JSON, SQL 또는 Python script 형식으로 현실감 있는 테스트 데이터를 생성합니다. 컬럼, 행 수, 제약 조건을 지정해 그럴듯한 샘플 레코드를 만들 수 있어, mock 데이터셋, 데모, database seeding, QA, 데이터 정리에 유용합니다.

Data Cleaning

즐겨찾기 0GitHub 11.1k

data-analyst

작성자 Shubhamsaboo

data-analyst는 데이터 탐색을 위해 SQL, pandas, 기본 통계 분석으로 에이전트를 안내하는 미니멀한 GitHub 스킬입니다. 하나의 SKILL.md 프롬프트 레이어에서 코드 기반 질의, 데이터 변환, 해석까지 처리하고 싶은 사용자에게 특히 잘 맞습니다.

Data Analysis

즐겨찾기 0GitHub 104.2k

frontend-design

작성자 anthropics

frontend-design은 막연한 UI 아이디어를 실제 프론트엔드 코드와 뚜렷한 미적 방향성으로 구현해, 생산 단계에 바로 쓸 수 있는 개성 있는 인터페이스를 만들고 흔한 AI 스타일링을 줄여줍니다.

UI Design

즐겨찾기 1GitHub 105.2k

create-colleague

작성자 titanwings

create-colleague는 동료 문서, 채팅, 이메일, 스크린샷, Feishu, DingTalk 데이터를 편집 가능한 AI 스킬로 변환합니다. 업무 결과물과 페르소나 결과물을 분리해 생성할 수 있고, 지속적으로 다듬어 갈 수 있는 업데이트 흐름도 제공합니다.

Skill Authoring

즐겨찾기 1GitHub 747

hyperframes

작성자 heygen-com

hyperframes는 HyperFrames에서 HTML 기반 비디오 컴포지션을 만드는 워크플로 스킬입니다. 제목 카드, 오버레이, 자막, 보이스오버, 오디오 반응형 모션, 장면 전환처럼 구조화된 코드 우선 hyperframes가 필요할 때 사용하세요. 일반적인 프롬프트만으로 만드는 비디오 요청보다 레이아웃, 타이밍, 애니메이션 결정을 더 중시합니다.

Video Editing

즐겨찾기 0GitHub 2.7k

kreuzberg

작성자 kreuzberg-dev

이 kreuzberg 스킬은 PDF, Office 파일, 이미지, HTML, 이메일, 아카이브를 포함한 91개 이상 형식에서 Kreuzberg를 설치하고 사용하는 방법을 안내합니다. OCR, 표, 메타데이터, 일괄 처리, 실전 파싱 가이드를 아우르며 Python, Node.js/TypeScript, Rust, CLI 워크플로까지 폭넓게 다룹니다.

PDF Processing

즐겨찾기 0GitHub 0

skill-creator

작성자 anthropics

skill-creator는 새 스킬 초안 작성, 기존 `SKILL.md` 수정, eval 실행, 변형 비교, 트리거 설명 개선을 지원하는 Skill Authoring 메타 스킬입니다. 저장소 스크립트와 리뷰 도구를 함께 활용하는 워크플로에 적합합니다.

Skill Authoring

즐겨찾기 2GitHub 105.1k

azure-identity-py

작성자 microsoft

azure-identity-py는 Microsoft Entra ID를 사용해 Python에서 Azure 인증을 설정하는 데 도움을 줍니다. DefaultAzureCredential, managed identity, service principal 인증 중 무엇을 쓸지 선택하고, 환경 변수를 구성하며, 액세스 제어와 credential chain 문제를 해결하는 데 활용하세요. 설치 가이드, 사용 패턴, 실전 설정 노트는 repo skill 파일을 바탕으로 정리했습니다.

Access Control

즐겨찾기 0GitHub 2.2k

claude-api

작성자 anthropics

claude-api는 Claude API와 Anthropic SDK를 설치하고 활용할 때 실무적으로 도움이 되는 스킬입니다. 개발자가 적절한 SDK 또는 raw HTTP 방식을 고르고, 언어별 문서를 빠르게 찾고, streaming, tool use, files, batches, error handling까지 시행착오를 줄여 구현할 수 있게 돕습니다.

API Development

즐겨찾기 0GitHub 105k

wrangler

작성자 cloudflare

wrangler 스킬은 Cloudflare Workers에 맞는 정확한 CLI 명령, 설정 형태, 배포 단계를 찾는 데 도움을 줍니다. wrangler 사용법, wrangler 설치 확인, Backend Development에서 Workers를 만들거나 배포할 때 참고할 실용적인 wrangler 가이드가 필요할 때 사용하세요.

Backend Development

즐겨찾기 0GitHub 1.3k

clickhouse-best-practices

작성자 ClickHouse

clickhouse-best-practices는 Database Engineering을 위한 ClickHouse 모범 사례 skill입니다. 스키마 설계, 쿼리 튜닝, insert 전략, 에이전트 연결성을 규칙 기반 권장사항으로 안내해, ClickHouse 워크플로에서 clickhouse-best-practices 사용을 더 쉽게 트리거하고 검토하며 인용할 수 있게 합니다.

Database Engineering

즐겨찾기 0GitHub 412

clickhouse-architecture-advisor

작성자 ClickHouse

clickhouse-architecture-advisor는 수집, 파티셔닝, 조인, 딕셔너리, upsert, 사전 집계까지 워크로드를 고려한 판단으로 ClickHouse 워크로드 설계를 돕습니다. Backend Development, observability, SIEM, 제품 분석, IoT 텔레메트리, 금융 파이프라인에 특히 유용합니다. 이 skill은 안내 내용을 official, derived, field로 구분해 제공합니다.

Backend Development

즐겨찾기 0GitHub 412

figma-generate-library

작성자 figma

figma-generate-library는 코드베이스를 바탕으로 Figma 디자인 시스템을 구축하거나 업데이트할 때, 토큰, 컴포넌트 라이브러리, 문서화, 라이트/다크 테마를 순서대로 진행할 수 있게 도와줍니다. 일회성 목업이 아니라 디자인 시스템을 실무적으로 다뤄야 할 때 사용하는 figma-generate-library 스킬입니다. Plugin API 호출용 figma-use와 함께 쓰면 더 좋습니다.

Design Systems

즐겨찾기 0GitHub 0

data-quality-frameworks

data-quality-frameworks 스킬 개요

data-quality-frameworks 스킬이 하는 일

누가 data-quality-frameworks를 써야 하나

실제로 해결하려는 일

일반적인 프롬프트와 다른 점

설치 전에 알아둘 점

data-quality-frameworks 스킬 사용 방법

data-quality-frameworks 설치 맥락

먼저 읽어야 할 파일

data-quality-frameworks가 사용자에게 요구하는 입력

거친 목표를 강한 프롬프트로 바꾸기

원하는 출력 형식을 어떻게 요청할까

data-quality-frameworks 실무 워크플로

dbt, Great Expectations, 계약은 언제 써야 하나

data-quality-frameworks에서 테스트 피라미드가 실무에서 뜻하는 것

Data Cleaning을 위한 data-quality-frameworks의 강점

제약 사항과 도입 시 트레이드오프

data-quality-frameworks 스킬 FAQ

data-quality-frameworks는 초보자에게도 괜찮을까?

일반 프롬프트보다 더 나은가?

가장 큰 한계는 무엇인가?

언제 data-quality-frameworks를 쓰지 말아야 하나?

data-quality-frameworks를 dbt만으로도 쓸 수 있나?

평점 및 리뷰

data-quality-frameworks를 `dbt`만으로도 쓸 수 있나?