data-quality-frameworks

作成者 wshobson

data-quality-frameworks は、dbt tests、Great Expectations、data contracts を使って本番データの検証計画を立てたいチーム向けのスキルです。適切なチェックの選定、テストピラミッドへの整理、そして Data Cleaning やパイプライン信頼性を支える CI/CD 対応のデータ品質ワークフロー設計に役立ちます。

スター32.6k

お気に入り0

追加日2026年3月30日

カテゴリーData Cleaning

インストールコマンド

npx skills add wshobson/agents --skill data-quality-frameworks

編集スコア

このスキルの評価は 68/100 です。データ品質パターンをしっかり参照したいディレクトリ利用者には掲載価値がありますが、厳密に運用手順化されたワークフローをそのまま実行するというより、自分たちの環境に合わせて内容を落とし込む前提で使うタイプです。リポジトリ上では Great Expectations、dbt tests、data contracts に関する実質的な内容と明確な利用トリガーが確認できますが、インストールや実行時の詳細、補助ファイル、推測を減らせる関連サンプルへのリンクは不足しています。

68/100

強み

frontmatter と「When to Use」ガイダンスが明確で、validation pipelines、dbt tests、data contracts、monitoring、CI/CD といった用途を判断しやすい構成です。
ドキュメント量は十分で、複数セクション、概念説明、制約、ワークフロー、code fence を含む長めの SKILL.md があり、プレースホルダーではない実質的なワークフロー内容が期待できます。
フレームワーク横断の整理が有用で、Great Expectations、dbt testing、data contract パターンを組み合わせているため、単発の汎用プロンプトよりも実務の出発点として強みがあります。

注意点

補助ファイル、参照情報、repo/file links が不足しており、運用面の明確さは限定的です。特定のスタックに実装する際は、エージェント側で詳細を補完・推定する必要があります。
スキル内に install command や実行可能なアセットが用意されていないため、短時間での導入判断や再現性の面ではやや不安が残ります。

Data Quality Data Validation Data Contracts Dbt Great Expectations Ci Cd Data Engineering Workflow

概要

data-quality-frameworks スキルの概要

data-quality-frameworks スキルでできること

data-quality-frameworks スキルは、実務で使えるデータ品質検証を、dbt テスト、Great Expectations、データコントラクトという代表的な3つのアプローチで設計するのに役立ちます。単に「データチェックを追加して」と曖昧に指示するのではなく、何をテストすべきか、どこでテストすべきか、それをパイプラインや CI/CD にどう組み込むかを、筋道立てて判断したいチーム向けのスキルです。

data-quality-frameworks を使うべき人

このスキルは、テーブル、モデル、パイプライン間のインターフェースに対して、再利用可能な品質管理を整備したいデータエンジニア、アナリティクスエンジニア、プラットフォームチーム、テックリードに特に向いています。とりわけ、単発の探索的なクレンジングではなく、本番運用を前提にした data-quality-frameworks for Data Cleaning が必要な場面で有効です。

このスキルが本当に解決する仕事

多くのユーザーが欲しいのは、フレームワーク名そのものではありません。実際に解きたいのは、たとえば次のような問いです。

このデータセットでは、どの品質次元を重視すべきか？
このチェックは SQL、dbt、Great Expectations、コントラクトのどこに置くべきか？
本番投入前の最小限のテストスイートは何か？
スキーマドリフトや上流の不正な変更をどう防ぐか？

data-quality-frameworks skill が最も価値を発揮するのは、業務上求められる信頼性を、具体的な検証パターンへ落とし込むことが目的のときです。

汎用プロンプトと比べて何が違うのか

このリポジトリの内容は、自動化そのものよりも、意思決定の枠組みに強みがあります。中心にあるのは、再利用しやすい次の思考モデルです。

データ品質の中核となる次元
データ向けのテストピラミッド
dbt、Great Expectations、コントラクトをまたぐフレームワーク選定
CI/CD や監視など、本番運用を意識したユースケース

そのため、ただ「データチェックを書いて」と頼む汎用プロンプトより実用的です。一方で、使うスタック、スキーマ、失敗しきい値は、利用者側で明示する前提になっています。

インストール前に知っておきたいこと

これは SKILL.md にガイドがまとまったテキスト専用スキルです。スキルフォルダ内に補助スクリプト、テンプレート、参照ファイルはありません。セットアップ負荷がほとんどないので導入は簡単ですが、出力の質は入力内容に大きく左右されます。テーブル詳細を渡さずに、そのままコピペできる設定ファイルまで欲しい場合は、このスキルだけでは物足りなく感じるはずです。

data-quality-frameworks スキルの使い方

data-quality-frameworks の導入方法

wshobson/agents リポジトリからこのスキルをインストールします。

npx skills add https://github.com/wshobson/agents --skill data-quality-frameworks

このスキルは単一の SKILL.md として提供されているため、スキル自体の中で追加のローカルパッケージ設定は不要です。実際の準備で手がかかるのは、あなたの環境側です。たとえば dbt、Great Expectations、DWH へのアクセス、利用中の CI ランナーなどは別途整える必要があります。

最初に読むべきファイル

まず確認するのは次のファイルです。

plugins/data-engineering/skills/data-quality-frameworks/SKILL.md

補助的な README、resources、scripts はないため、最短で理解したいなら次の順で読むのが効率的です。

When to Use This Skill
Core Concepts
テストピラミッドと各フレームワークのパターンを扱うセクション
コードブロック内の実装例があればそれも確認

スキル自体は短く、リポジトリを深掘りして得られる情報は多くありません。重要なのは、細かく探索することより、精度の高いプロンプトと組み合わせて使うことです。

data-quality-frameworks に渡すべき入力情報

data-quality-frameworks をしっかり活用するには、エージェントに次の情報を渡してください。

データセット名またはモデル名
型付きのカラム一覧
想定粒度または主キー
鮮度要件
許容される値の範囲や enum
nullable と必須項目の区別
既知の upstream / downstream 依存関係
チェックを実行すべき場所: ingestion、transform、publish、または contract boundary
失敗時の扱い: warn、fail job、quarantine、alert

こうした情報がないと、エージェントは一意性、null、range チェックのような汎用例しか返せません。

あいまいな要望を強いプロンプトに変える

弱いプロンプト:

Help me add data quality checks.

よりよいプロンプト:

Use the data-quality-frameworks skill to design a validation plan for our orders pipeline. Source is raw event data loaded to BigQuery, transformed with dbt. Key fields: order_id, customer_id, order_status, order_total, created_at, updated_at. order_id must be unique at the mart layer. order_status must be one of pending, paid, shipped, cancelled, refunded. order_total must be >= 0. Freshness target is under 2 hours. We want: 1) source-level checks, 2) dbt tests, 3) any checks that fit Great Expectations, 4) a simple data contract for upstream producers, and 5) CI/CD recommendations with fail-vs-warn guidance.

このプロンプトが機能するのは、要件を適切なフレームワークへ対応付けるのに十分な文脈が与えられているからです。

望ましい出力形式をどう指定するか

エージェントには、出力を段階ごとに整理して返すよう求めるのがおすすめです。

データセットごとの品質次元
テストピラミッド上の配置
具体的なフレームワークへの割り当て
サンプルのテスト定義
導入順序

例:

Using the data-quality-frameworks guide, return a table with columns: check, dimension, layer, framework, severity, reason. Then generate sample dbt tests and Great Expectations expectations only for the highest-value checks.

こう指定すると、過剰設計を避けつつ、最初の出力を実装寄りに保てます。

data-quality-frameworks を使う実践的な進め方

実務では、次の流れで進めるとうまくいきます。

重要なデータセットを棚卸しする。
粒度とコントラクト境界を明確にする。
チェックを品質次元ごとに分類する。
各チェックをテストピラミッド上に配置する。
各チェックを dbt、Great Expectations、またはデータコントラクトに割り当てる。
どのチェックがデプロイをブロックし、どれが通知のみに留まるかを決める。
まずは最小で信頼できるセットから実装する。

このスキルは、考え得るすべてのテストを力技で生成する用途よりも、システム設計と検証計画の整理に向いています。

dbt、Great Expectations、コントラクトをどう使い分けるか

このスキルは、役割の切り分けに使うと効果的です。

dbt は、一意性、非 null、許容値、リレーションチェックなど、モデルレベルのアサーションに向いています。
Great Expectations は、よりリッチな検証フロー、プロファイリング的な expectation、パイプライン各段階でのランタイム検証に適しています。
データコントラクトは、スキーマ形状、必須項目、境界での意味的保証など、生産者と消費者の合意を表現するのに向いています。

よくある失敗は、ひとつのツールに全部やらせようとすることです。data-quality-frameworks skill は、各フレームワークを本来のレイヤーで使い分けるときに最も役立ちます。

テストピラミッドを実務に落とすとどうなるか

このスキルにあるテストピラミッドは、優先順位付けに便利です。実務では次のように考えるとわかりやすいです。

下層には、安価に回せる構造的なチェックを多く置く
上層には、テーブル横断や業務ルールのチェックを少数に絞って置く
高コストな end-to-end 検証は、最重要経路に限定する

最初の計画に複雑な業務アサーションしかなく、基本的な null、一意性、スキーマ、鮮度チェックが入っていないなら、最も ROI の高い層を飛ばしている可能性が高いです。

Data Cleaning 向けの data-quality-frameworks が得意なこと

data-quality-frameworks for Data Cleaning という観点では、このスキルはクレンジングロジックを導入した後の継続的な検証を設計するのに向いています。たとえば次の判断に役立ちます。

どの不正入力をブロックすべきか
どの値を標準化すべきか
どの異常はパイプライン失敗ではなくレビュー対象にすべきか
クレンジング済みの出力が時間とともに適合性を維持していることをどう担保するか

焦点はクレンジング変換そのものではなく、その変換結果が信頼できる出力を生んでいると証明することにあります。

制約と導入時のトレードオフ

このスキルはインストールの手間が少ない一方で、実装用アセットはほとんど内蔵していません。実際には、以下のようなプロジェクトファイルへ自分で落とし込む必要があります。

models/*.yml for dbt
expectation suites or checkpoints for Great Expectations
contract documents in your preferred schema format

すぐ使えるテンプレート付きのリポジトリを求めているなら、このスキルはかなり軽量です。価値があるのは、エージェントに正しい考え方をさせる点であって、turnkey な starter kit を提供する点ではありません。

data-quality-frameworks スキルの FAQ

data-quality-frameworks は初心者にも向いていますか？

はい。少なくともテーブル、カラム、パイプラインの基本を理解していれば十分使えます。扱う考え方も、品質次元、テストのレイヤリング、フレームワーク選定といった比較的入りやすい内容です。ただし、まったくの初学者は、dbt や Great Expectations の構文について別途ドキュメントを参照したほうがよいでしょう。このスキル自体は、それぞれのツールの完全なチュートリアルではありません。

普通のプロンプトより優れていますか？

多くの場合は優れています。特に、悩みがフレームワーク選定やテスト戦略にあるなら有効です。通常のプロンプトだと、場当たり的なチェックが並ぶことがあります。data-quality-frameworks skill は、品質次元、ピラミッド、各フレームワークの適性という構造をエージェントに与えるため、不要なテストが減りやすくなります。

最大の制約は何ですか？

このスキルには、補助ファイル、実装テンプレート、プロジェクト固有のアダプタが含まれていません。あなたが与えない限り、DWH 固有の意味論、SLA、業務ルールを推測することはできません。結果の質は、プロンプトの具体性に強く依存します。

どんな場合は data-quality-frameworks を使わないほうがよいですか？

単一の CSV に対して1行のチェックを書きたいだけ、あるいはその場しのぎの簡単なクレンジングスクリプトが欲しいだけなら、このスキルは大げさです。また、チームですでに1つのフレームワークに完全統一していて、必要なのが設計指針ではなく構文スニペットだけ、という場合も相性はよくありません。

dbt だけで data-quality-frameworks を使えますか？

はい。複数フレームワークに言及するスキルですが、推奨を dbt のみに限定するよう依頼できます。同様に、チームが Great Expectations を優先したい場合や、まずデータコントラクトに絞りたい場合にも対応できます。

CI/CD の判断にも役立ちますか？

はい。元のスキルでも、CI/CD での検証自動化は比較的わかりやすいユースケースのひとつです。どのチェックを pull request で fail させるべきか、どれをデプロイ後に走らせるべきか、どれを alert のみに留めるべきかを明示的に尋ねてください。この切り分けがあるだけで、出力の実用性はかなり上がります。

data-quality-frameworks スキルを改善する方法

スキーマだけでなく、データセットの意味もエージェントに渡す

data-quality-frameworks の結果を最も手早く改善する方法は、カラム一覧だけでなく、その意味まで伝えることです。たとえば:

“customer_id can be null for guest checkout”
“revenue_amount should never be negative except for refunds”
“status values are controlled by the application enum”

こうした情報があると、エージェントは一般論ではなく、現実に即した妥当性チェックや整合性チェックを提案しやすくなります。

重要なチェックと、あると望ましいチェックを分ける

どの失敗が本番ブロッカーなのかを、エージェントに明示してください。例:

Tier 1: schema drift, null primary keys, duplicate business keys.
Tier 2: freshness breaches over 2 hours.
Tier 3: soft anomaly detection on distribution shifts.

こうしておくと、実際にチームが導入できる計画になりやすく、長いだけで実装されない backlog を量産せずに済みます。

フラットな一覧ではなく、フレームワーク対応付けまで求める

よくある失敗は、実装の道筋がないまま 30 個のチェックだけが並ぶことです。プロンプトを改善するなら、各チェックに必ず次の項目を含めるよう指定してください。

dimension
layer
framework
severity
owner

そうすると、data-quality-frameworks guide は単なるアイデア集ではなく、実行計画として機能するようになります。

サンプル行と既知の不正ケースを渡す

よりよい data-quality-frameworks 活用を目指すなら、正常データと異常データの両方の例を入れてください。既知の失敗パターンがあると、次のような観点でルールを鋭くできます。

例外的な nullable 条件
日付の前後関係
enum drift
重複判定ロジック
あり得ない値の組み合わせ

きれいなスキーマ定義だけより、実際の不正例のほうが有益なことは少なくありません。

初回出力で終わらせず、繰り返し詰める

最初に生成された計画で止めないでください。たとえば次のような追加質問が有効です。

“Which 5 tests give the highest reliability per hour of work?”
“Which recommendations belong in dbt versus contracts?”
“Which checks are likely too expensive for every run?”
“Rewrite this for BigQuery and incremental models.”

data-quality-frameworks skill は、2〜3 回に分けて絞り込む使い方をすると、精度がかなり上がります。

過剰設計でよくある失敗に注意する

特によくある失敗は次のとおりです。

いきなり高コストな end-to-end アサーションから始める
profiling を hard guarantee の代わりにしてしまう
データクレンジングのロジックと検証ロジックを混同する
すべての異常でジョブを fail させ、alert fatigue を招く
owner や remediation path が不明なテストを書く

チェックをコスト、信頼度、運用インパクトで順位付けするようエージェントに求めると、デプロイしやすい出力になりやすいです。

data-quality-frameworks の段階的な導入計画を求める

改善用プロンプトとして強いのは、たとえば次のような依頼です。

Using data-quality-frameworks, create a 30/60/90-day rollout: immediate checks, next-layer business assertions, and longer-term contract governance.

こうしておくと、チームが最初からすべてのフレームワークを一気に実装しようとして失速するのを防げます。多くの場合、最適な進め方は、まず基本的な dbt テスト、その次に絞った Great Expectations、最後にチーム境界でのコントラクト運用を広げる流れです。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

lamindb

作成者 K-Dense-AI

lamindb スキルは、オープンソースの生物学データ基盤 LaminDB を使いこなすためのものです。データを検索可能・追跡可能・再現可能・FAIR に保ちながら扱えます。Data Analysis における lamindb、メタデータのキュレーション、オントロジーに基づくアノテーション、スキーマ検証、ノートブックやパイプラインをまたぐ系譜を意識したワークフローに活用できます。

Data Analysis

お気に入り 0GitHub 0

exploratory-data-analysis

作成者 K-Dense-AI

exploratory-data-analysis スキルは、科学系ファイルを形式に応じた EDA レポートへ変換します。ファイル形式を判別し、構造と品質を要約し、主要メタデータを抽出して、次の分析候補まで提案します。化学、生物情報学、顕微鏡画像、分光、プロテオミクス、メタボロミクスなど、さまざまな科学ファイル形式に対する exploratory-data-analysis を使ったデータ分析に適しています。

Data Analysis

お気に入り 0GitHub 0

read-file

作成者 duckdb

read-file は、DuckDB を使って CSV、JSON、Parquet、Avro、Excel、SQLite、空間データファイル、またはリモート URL を読み取り・確認するための skill です。行のプレビュー、スキーマ確認、データのプロファイリング、そして「このファイルに何が入っているか」の把握に使えます。ソースコードではなく、実データ資産に対する read-file の用途に最適です。

Office Documents

お気に入り 0GitHub 443

dummy-dataset

作成者 phuryn

dummy-dataset は、CSV、JSON、SQL、または Python スクリプト形式で、実在感のあるテストデータを生成します。列名、行数、制約を指定して、モックデータセット、デモ、データベースのシーディング、QA、データクレンジングに使える、信頼感のあるサンプルレコードを作成できます。

Data Cleaning

お気に入り 0GitHub 11.1k

data-analyst

作成者 Shubhamsaboo

data-analyst は、データ探索のために SQL、pandas、基礎的な統計分析へエージェントを導く、最小構成の GitHub スキルです。単一の SKILL.md プロンプト層で、コードに基づくクエリ、変換、解釈までまとめて引き出したいユーザーに向いています。

Data Analysis

お気に入り 0GitHub 104.2k

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k

create-colleague

作成者 titanwings

create-colleague は、同僚に関するドキュメント、チャット、メール、スクリーンショット、Feishu、DingTalk のデータをもとに、編集可能な AI スキルを生成します。業務面と人物像を分けて出力でき、継続的に磨き込むための更新フローにも対応しています。

Skill Authoring

お気に入り 1GitHub 747

hyperframes

作成者 heygen-com

hyperframes は、HyperFrames で HTML ベースの動画コンポジションを構築するためのワークフロースキルです。タイトルカード、オーバーレイ、字幕、ナレーション、音に反応するモーション、シーン遷移など、Video Editing 向けに構造化されたコードファーストの hyperframes が必要なときに使えます。汎用的なプロンプトだけの動画依頼よりも、レイアウト、タイミング、アニメーションの設計を重視します。

Video Editing

お気に入り 0GitHub 2.7k

kreuzberg

作成者 kreuzberg-dev

このkreuzbergスキルは、PDF、Officeファイル、画像、HTML、メール、アーカイブなど91種類以上の形式に対応するKreuzbergの導入と活用を支援します。OCR、表、メタデータ、バッチ処理、実用的な解析の進め方まで、Python、Node.js/TypeScript、Rust、CLI の各ワークフローをカバーします。

PDF Processing

お気に入り 0GitHub 0

skill-creator

作成者 anthropics

skill-creator は、新規スキル作成、既存の SKILL.md 改訂、eval 実行、バリアント比較、トリガー説明の改善を支援する Skill Authoring 向けメタスキルです。リポジトリ内のスクリプトやレビュー補助を使った実務的な運用に向いています。

Skill Authoring

お気に入り 2GitHub 105.1k

azure-identity-py

作成者 microsoft

azure-identity-py は、Microsoft Entra ID を使った Python の Azure 認証設定を支援します。DefaultAzureCredential、マネージド ID、サービスプリンシパル認証の選択、環境変数の設定、アクセス制御や資格情報チェーンの問題のトラブルシュートに活用できます。インストール手順、利用パターン、実践的な設定メモは、repo の skill file に基づいています。

Access Control

お気に入り 0GitHub 2.2k

claude-api

作成者 anthropics

claude-apiは、Claude APIとAnthropic SDKの導入・実装を進めやすくする実用的なスキルです。SDKを使うかraw HTTPを選ぶかの判断、言語別ドキュメントの見極め、streaming、tool use、files、batches、error handlingの実装を、手探りを減らして進められます。

API Development

お気に入り 0GitHub 105k

wrangler

作成者 cloudflare

wranglerスキルは、Cloudflare Workersで正しいCLIコマンド、設定形式、デプロイ手順を見つけるのに役立ちます。wranglerの使い方、wranglerの導入確認、Backend DevelopmentでWorkersを作成・公開する際の実用的なwranglerガイドとして活用してください。

Backend Development

お気に入り 0GitHub 1.3k

clickhouse-best-practices

作成者 ClickHouse

clickhouse-best-practicesは、Database Engineering向けのClickHouseベストプラクティス skill です。スキーマ設計、クエリチューニング、insert戦略、エージェント接続を、ルールベースの推奨で整理して案内します。clickhouse-best-practices の使いどころを見極めやすく、レビューや引用にもつなげやすいので、ClickHouse のワークフローで活用しやすいのが特長です。

Database Engineering

お気に入り 0GitHub 412

clickhouse-architecture-advisor

作成者 ClickHouse

clickhouse-architecture-advisor は、ワークロードを踏まえた判断で ClickHouse の設計を支援します。取り込み、パーティション設計、JOIN、辞書、UPSERT、事前集計まで、負荷特性に合わせて選べるのが強みです。Backend Development、可観測性、SIEM、プロダクト分析、IoT テレメトリ、金融系パイプラインで特に役立ちます。ガイダンスは `official`、`derived`、`field` として分類されます。

Backend Development

お気に入り 0GitHub 412

figma-generate-library

作成者 figma

figma-generate-library は、コードベースから Figma のデザインシステムを構築・更新するためのスキルです。トークン、コンポーネントライブラリ、ドキュメント、ライト/ダークテーマ対応まで、順序立てたワークフローで進められます。単発のモックアップではなく、Design Systems 向けの実践的なガイドが必要なときに使ってください。Plugin API の呼び出しには figma-use を補完的に併用できます。

Design Systems

お気に入り 0GitHub 0