data-quality-frameworks

作者 wshobson

data-quality-frameworks 技能可協助團隊規劃正式環境的資料驗證，涵蓋 dbt tests、Great Expectations 與 data contracts。可用來選擇合適的檢查項目、對應到 testing pyramid，並規劃適合 Data Cleaning 與資料管線穩定性的 CI/CD 資料品質工作流程。

Stars32.6k

評論0

加入時間2026年3月30日

分類数据清洗

安裝指令

npx skills add wshobson/agents --skill data-quality-frameworks

編輯評分

此技能評分為 68/100，代表對於想找一份較完整資料品質模式參考的目錄使用者而言，這個項目可以列入考慮；但實際採用時，需預期要把其中的指引自行轉譯到自家環境，而不是直接照著一套高度操作化的流程執行。從 repository 內容來看，確實有實質內容，並且清楚涵蓋 Great Expectations、dbt tests 與 data contracts 等觸發情境；但仍缺少安裝／執行期細節、支援檔案與可連結的範例，因此在落地執行時，仍需要自行補足不少判斷。

68/100

亮點

從 frontmatter 與「When to Use」說明可清楚判斷適用情境，涵蓋 validation pipelines、dbt tests、data contracts、monitoring 與 CI/CD。
文件內容具相當份量：SKILL.md 篇幅完整，含多個章節、概念、限制、工作流程與程式碼區塊，顯示是有實質工作流程內容，而非佔位性說明。
跨框架覆蓋實用：結合 Great Expectations、dbt testing 與 data contract 模式，對 agent 而言，比起單一、通用型 prompt，更能作為有力的起點。

注意事項

由於缺少支援檔案、參考資料以及 repo/file 連結，操作層面的清晰度有限，agent 必須自行推斷特定技術堆疊的實作細節。
此技能未提供安裝指令或可直接執行的資產，會降低快速採用與可重現性的信心。

Data Quality Data Validation Data Contracts Dbt Great Expectations Ci Cd Data Engineering 工作流

總覽

data-quality-frameworks 技能總覽

data-quality-frameworks 技能能做什麼

data-quality-frameworks 技能可協助代理人用三種常見方法設計實務可落地的資料品質驗證：dbt tests、Great Expectations 與 data contracts。它特別適合那些不想只得到一句模糊的「加一些資料檢查」建議，而是需要一套有結構的方法，來判斷該測什麼、在哪一層測，以及如何把這些檢查實際納入 pipelines 與 CI/CD 的團隊。

哪些人適合使用 data-quality-frameworks

這個技能最適合資料工程師、分析工程師、平台團隊，以及負責建立可重複品質控制的技術主管，用於 tables、models 與 pipeline 介面的品質管理。尤其當你需要的是用在正式環境中的 data-quality-frameworks for Data Cleaning，而不是一次性的探索式清理時，它會特別有幫助。

真正要解決的工作是什麼

使用者通常不是只想知道某個 framework 的名字，而是想回答這些問題：

這份資料最重要的品質維度是哪些？
這個檢查應該寫在 SQL、dbt、Great Expectations，還是 contract？
上線前最小可行的測試組合是什麼？
要怎麼避免 schema drift 與上游錯誤變更？

當目標是把業務對可靠性的要求，轉成具體可執行的驗證模式時，data-quality-frameworks skill 的價值最高。

這個技能和一般 prompt 有什麼不同

這個 repository 的內容強項不在自動化，而在於決策結構。它提供了一套可重複使用的思考模型，核心包括：

資料品質的核心維度
適用於資料驗證的 testing pyramid
在 dbt、Great Expectations 與 contracts 之間做 framework selection
面向正式環境的使用情境，例如 CI/CD 與 monitoring

因此，它比單純的「幫我寫一些 data checks」prompt 更實用；但同時它也預設你會提供自己的技術棧、schemas 與 failure thresholds。

安裝前你該先知道的事

這是一個純文字技能，指引都在 SKILL.md 裡。skill folder 中沒有 helper scripts、templates 或 reference files。由於幾乎不需要額外 setup，所以導入門檻很低；但輸出品質也會非常依賴你提供的輸入內容。如果你期待的是不提供 table 細節也能直接複製貼上的設定檔，這個技能會顯得不夠完整。

如何使用 data-quality-frameworks 技能

data-quality-frameworks 的安裝情境

請從 wshobson/agents repository 安裝這個技能：

npx skills add https://github.com/wshobson/agents --skill data-quality-frameworks

由於這個技能本體只有一份 SKILL.md，skill 內部不需要額外的本機 package setup。真正需要處理的 setup 幾乎都在你自己的環境中：dbt、Great Expectations、warehouse access，以及你使用的任何 CI runner。

先讀這個檔案

從這裡開始：

plugins/data-engineering/skills/data-quality-frameworks/SKILL.md

因為沒有額外的 README、resources 或 scripts，最快的閱讀路徑是：

When to Use This Skill
Core Concepts
與 testing pyramid 和 framework patterns 相關的段落
code blocks 中的任何 implementation examples

這是一個篇幅不長、很快就能讀完的技能；真正的收穫主要來自你是否搭配精準 prompt 使用，而不是深入地在 repository 裡四處翻找。

這個技能需要你提供哪些輸入

若想讓 data-quality-frameworks usage 更有品質，請提供代理人以下資訊：

dataset 或 model 名稱
欄位清單與型別
預期 grain 或 primary key
freshness 要求
合法值範圍或 enums
nullable 與 required fields 的區分
已知的 upstream/downstream dependencies
檢查應在哪一層執行：ingestion、transform、publish 或 contract boundary
failure handling policy：warn、fail job、quarantine、alert

如果沒有這些資訊，代理人通常只能回傳一些泛用範例，例如 uniqueness、null 與 range checks。

把模糊目標改寫成有力的 prompt

較弱的 prompt：

Help me add data quality checks.

較好的 prompt：

Use the data-quality-frameworks skill to design a validation plan for our orders pipeline. Source is raw event data loaded to BigQuery, transformed with dbt. Key fields: order_id, customer_id, order_status, order_total, created_at, updated_at. order_id must be unique at the mart layer. order_status must be one of pending, paid, shipped, cancelled, refunded. order_total must be >= 0. Freshness target is under 2 hours. We want: 1) source-level checks, 2) dbt tests, 3) any checks that fit Great Expectations, 4) a simple data contract for upstream producers, and 5) CI/CD recommendations with fail-vs-warn guidance.

這個 prompt 之所以有效，是因為它提供了足夠的上下文，讓技能能把需求正確映射到合適的 framework。

如何要求正確的輸出格式

可以要求代理人分層輸出結果：

各 dataset 對應的 quality dimensions
testing pyramid 中的位置
具體的 framework mapping
sample test definitions
rollout order

例如：

Using the data-quality-frameworks guide, return a table with columns: check, dimension, layer, framework, severity, reason. Then generate sample dbt tests and Great Expectations expectations only for the highest-value checks.

這樣可以降低過度設計的風險，也能讓第一版結果更聚焦於實作。

data-quality-frameworks usage 的實務工作流程

一個好的工作流程通常是：

盤點你的關鍵 datasets。
釐清 grain 與 contract surface。
依照 quality dimension 分類各項檢查。
把每個檢查放進 testing pyramid 的對應層級。
將每個檢查指派給 dbt、Great Expectations 或 data contract。
決定哪些檢查要阻擋 deployment，哪些只需要 alert。
先實作最小但可靠的一組檢查。

這個技能更適合用來做 system design 與 validation planning，而不是暴力生成所有可能的測試項目。

什麼時候該用 dbt、Great Expectations 或 contracts

你可以利用這個技能把職責切清楚：

dbt 適合 model-level assertions，例如 uniqueness、non-null、accepted values 與 relationship tests。
Great Expectations 適合較豐富的 validation workflows、profiling 類型的 expectations，以及圍繞 pipeline stages 的 runtime validation。
Data contracts 適合 producer-consumer agreements，例如 schema shape、required fields，以及邊界上的 semantic guarantees。

常見錯誤是試圖讓單一工具包辦所有事情。當你願意讓每個 framework 處理它最自然的那一層時，data-quality-frameworks skill 的幫助最大。

testing pyramid 在實務上代表什麼

這個技能中的 testing pyramid 很適合用來排序優先順序。實務上可以這樣理解：

在底層放大量成本低、偏結構性的檢查
在高層加入較少量的跨表檢查與業務規則檢查
昂貴的 end-to-end validation 只留給最關鍵的路徑

如果你的第一版計畫只有複雜的 business assertions，卻沒有基本的 null、uniqueness、schema 或 freshness checks，很可能代表你跳過了投資報酬率最高的那一層。

data-quality-frameworks 在 Data Cleaning 上擅長什麼

在 data-quality-frameworks for Data Cleaning 這個情境下，這個技能最適合拿來定義清理邏輯上線之後的持續驗證。它能幫你回答：

哪些不良輸入應該直接擋下
哪些值應該被標準化
哪些異常應該觸發人工檢視，而不是讓 pipeline 失敗
如何確保清理後的輸出能長期維持符合規格

它著重的不是清理轉換本身，而是證明這些轉換能持續產出可信的結果。

限制與導入上的取捨

這個技能安裝阻力低，但內建的實作資產有限。你需要自行把建議轉譯成專案檔案，例如：

models/*.yml for dbt
expectation suites 或 checkpoints for Great Expectations
你偏好的 schema format 下的 contract documents

如果你想找的是一個內建完整 templates 的 repository，這個技能會比那種方案更輕量。它的價值在於幫代理人做出正確推理，而不是直接提供一套 turnkey starter kit。

data-quality-frameworks 技能 FAQ

data-quality-frameworks 適合初學者嗎？

適合，但前提是你已經理解 tables、columns 與 pipelines 的基本概念。這裡的核心概念其實不難：quality dimensions、test layering，以及 framework selection。若是完全初學者，可能仍需要另外查閱 dbt 或 Great Expectations 的語法文件，因為這個技能本身並不是任一工具的完整教學。

這比一般 prompt 更好嗎？

通常是的，尤其當你的問題重點在 framework 選擇與 test strategy 時。一般 prompt 很容易產出隨機拼湊的 checks；data-quality-frameworks skill 則會讓代理人依照 dimensions、pyramid 與 framework fit 來思考，通常能明顯減少不相關的測試。

主要限制是什麼？

這個技能沒有附 helper files、implementation templates 或 project-specific adapters。除非你主動提供，否則它無法推斷你的 warehouse semantics、SLAs 或 business rules。結果品質和你的 prompt 具體程度高度綁定。

什麼時候不該用 data-quality-frameworks？

如果你只需要替單一 CSV 補一條一行式檢查，或是寫個臨時的 ad hoc cleanup script，就不太需要它。若你的團隊早已完全標準化在單一 framework 上，而且只缺 syntax snippets、不是設計層建議，那它也不是最佳選擇。

我可以只搭配 dbt 使用 data-quality-frameworks 嗎？

可以。雖然這個技能會提到多種 frameworks，但你完全可以要求它把建議限制在 dbt。如果你的團隊偏好 Great Expectations，或想先聚焦於 data contracts，也是同樣的做法。

它對 CI/CD 決策有幫助嗎？

有。原始技能裡較清楚的一個 use case，就是把 validation 自動化納入 CI/CD。你可以明確要求它區分：哪些 checks 應該讓 pull requests fail、哪些適合在 deploy 後執行、哪些只需要產生 alerts。這個區分會實質提升輸出的可用性。

如何提升 data-quality-frameworks 技能的效果

提供 dataset 語意，不要只給 schema

想提升 data-quality-frameworks 的結果，最快的方法是補上欄位意義，而不只是欄位清單。例如：

“customer_id can be null for guest checkout”
“revenue_amount should never be negative except for refunds”
“status values are controlled by the application enum”

這些資訊能讓代理人提出更貼近實際的 validity 與 consistency checks，而不是只生成泛用規則。

把關鍵檢查與加分檢查分開

告訴代理人哪些 failure 會阻擋正式環境。例子如下：

Tier 1: schema drift, null primary keys, duplicate business keys.
Tier 2: freshness breaches over 2 hours.
Tier 3: soft anomaly detection on distribution shifts.

這樣能幫助技能產出你的團隊真正能導入的計畫，而不是一長串永遠排不完、也上不了線的 backlog。

要求 framework mapping，不要只要平面清單

常見失敗情況是拿到 30 個 checks，卻沒有任何落地路徑。改善方式是要求每個 check 都必須包含：

dimension
layer
framework
severity
owner

如此一來，data-quality-frameworks guide 就會從靈感清單變成可執行計畫。

提供 sample rows 與已知壞案例

若想提升 data-quality-frameworks usage 的品質，請一併提供合法與不合法資料的樣本。已知的失敗案例能幫代理人針對以下面向寫出更精準的規則：

edge-case nullability
date ordering
enum drift
duplicate logic
impossible value combinations

很多時候，真實的

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

lamindb

作者 K-Dense-AI

lamindb 技能可協助你使用 LaminDB——一個開源的生物資料框架，讓資料具備可查詢、可追蹤、可重現與 FAIR 特性。適合用於 lamindb 的資料分析、metadata 整理、基於 ontology 的標註、schema 驗證，以及跨 notebooks 與 pipelines 的 lineage-aware 工作流程。

数据分析

收藏 0GitHub 0

exploratory-data-analysis

作者 K-Dense-AI

exploratory-data-analysis 技能可將科學檔案轉為支援格式感知的 EDA 報告。它會偵測檔案類型、摘要結構與品質、擷取關鍵中繼資料，並建議後續分析方向。適合用於 Data Analysis 中的 exploratory-data-analysis，涵蓋化學、生物資訊、顯微影像、光譜、蛋白質體、代謝體與其他科學檔案格式。

数据分析

收藏 0GitHub 0

read-file

作者 duckdb

read-file 可協助代理讀取與檢視 CSV、JSON、Parquet、Avro、Excel、SQLite、空間檔案，或透過 DuckDB 存取遠端 URL。可用來預覽資料列、檢查 schema、分析資料，並回答這個檔案裡有什麼。它最適合用在實際資料檔案上的 read-file 使用情境，不適合原始程式碼。

辦公文件

收藏 0GitHub 443

dummy-dataset

作者 phuryn

dummy-dataset 可產生接近真實的測試資料，輸出格式包含 CSV、JSON、SQL 或 Python script。它可用於 mock dataset、demo、資料庫種子資料、QA 與資料清理；你可以定義欄位、列數與限制條件，生成更像真的範例紀錄。

数据清洗

收藏 0GitHub 11.1k

data-analyst

作者 Shubhamsaboo

data-analyst 是一個精簡的 GitHub skill，會引導代理以 SQL、pandas 與基礎統計分析來進行資料探索。適合希望透過單一 SKILL.md 提示層，就能完成具程式碼支撐的查詢、轉換與結果解讀的使用者。

数据分析

收藏 0GitHub 104.2k

frontend-design

作者 anthropics

frontend-design 協助你把模糊的 UI 構想變成具有明確美感方向的獨特、可上線前端介面，產出真實可用的 frontend 程式碼，減少千篇一律的 AI 風格。

UI 設計

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可將同事文件、聊天紀錄、電子郵件、截圖、Feishu 與 DingTalk 資料整理成可編輯的 AI 技能，並分別產出工作與人物設定內容，也提供後續持續優化的更新流程。

Skill 編寫

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能，用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時，可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態，以及場景轉場。它更重視版面配置、時間安排與動畫決策，而不是泛用的、只靠提示詞的影片需求。

视频编辑

收藏 0GitHub 2.7k

kreuzberg

作者 kreuzberg-dev

這個 kreuzberg 技能可協助你安裝並使用 Kreuzberg 進行文件擷取，支援 91 種以上格式，包括 PDF、Office 檔案、圖片、HTML、電子郵件與壓縮檔。內容涵蓋 Python、Node.js/TypeScript、Rust 與 CLI 工作流程，適用於 OCR、表格、中繼資料、批次處理，以及實務解析指引。

PDF 处理

收藏 0GitHub 0

skill-creator

作者 anthropics

skill-creator 是一個用於撰寫技能的 meta-skill，可協助起草新技能、修改既有 `SKILL.md`、執行 eval、比較不同版本，並透過 repository 腳本與審查工具優化觸發描述。

Skill 編寫

收藏 2GitHub 105.1k

azure-identity-py

作者 microsoft

azure-identity-py 可協助你在 Python 中使用 Microsoft Entra ID 設定 Azure 驗證。可用來選擇 DefaultAzureCredential、managed identity 或 service principal 驗證，設定環境變數，並排除存取控制與 credential chain 問題。安裝指引、使用模式與實用設定說明皆根據 repo skill file 整理而成。

存取控制

收藏 0GitHub 2.2k

claude-api

作者 anthropics

claude-api 是一個實用技能，協助安裝並使用 Claude API 與 Anthropic SDK。它可幫助開發者在 SDK 與原生 HTTP 方案間做選擇、辨識對應語言文件，並以較少摸索完成串流、工具使用、檔案、批次與錯誤處理。

API 开发

收藏 0GitHub 105k

wrangler

作者 cloudflare

wrangler 技能可協助你找到 Cloudflare Workers 正確的 CLI 指令、設定結構與部署步驟。適合用在 wrangler 的使用方式、wrangler 安裝檢查，以及在為 Backend Development 建置或交付 Workers 時，取得實用的 wrangler 指南。

後端开发

收藏 0GitHub 1.3k

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是一個用於資料庫工程的 ClickHouse 最佳實務技能。它以規則式建議引導 schema 設計、查詢調校、寫入策略與 agent 連線，讓 clickhouse-best-practices 在 ClickHouse 工作流程中的使用更容易被觸發、審查與引用。

資料庫工程

收藏 0GitHub 412

clickhouse-architecture-advisor

作者 ClickHouse

clickhouse-architecture-advisor 協助設計 ClickHouse 工作負載，針對資料攝取、分區、JOIN、字典、upsert 與預先聚合做出符合工作負載的決策。它特別適合後端開發、可觀測性、SIEM、產品分析、IoT 遙測，以及金融資料管線。此技能會將建議標示為 official、derived 或 field。

後端开发

收藏 0GitHub 412

figma-generate-library

作者 figma

figma-generate-library 可協助你從程式碼庫建立或更新 Figma 設計系統，並以有順序的工作流程處理 tokens、元件庫、文件與明暗主題切換。當你需要的是 Design Systems 的實作指南，而不是一次性的 mockup 時，就適合使用 figma-generate-library 技能。它也會與 figma-use 互補，用於 Plugin API 呼叫。

設計系统

收藏 0GitHub 0