airflow-dag-patterns

airflow-dag-patterns 可帮助你设计可用于生产环境的 Apache Airflow DAG，提供更完善的任务模式、依赖关系、operators、sensors、测试与定时作业部署指导。

Stars32.6k

收录时间2026年3月30日

分类定时任务

安装命令

npx skills add wshobson/agents --skill airflow-dag-patterns

编辑评分

该技能评分为 76/100，说明它是一个质量不错的目录收录候选：智能体大概率可以在 Airflow DAG 创建与优化场景中正确触发它，用户也能获得足够具体的示例和最佳实践背景来支持安装决策；不过其运维配置与可执行支持仍然较弱，整体仍以文档说明为主。

76/100

亮点

frontmatter 与“何时使用”部分具备较强的可触发性，覆盖 DAG 创建、编排、测试、部署和调试等场景。
教学内容较为充实，包含代码块以及依赖关系、operators 和 DAG 结构等具体 Airflow 模式，而非占位式说明。
范围聚焦生产环境实践：强调幂等性、可观测性、sensors、测试和部署等最佳实践，而不只是停留在玩具级示例。

注意点

采用门槛主要仍依赖文档：缺少支持脚本、参考实现或安装命令，无法有效降低实际落地时的执行猜测成本。
从仓库呈现的信息来看，明确的工作流与约束信号仍然有限，因此智能体在特定 Airflow 环境中可能仍需自行推断部分实现细节。

Python 工作流 Automation Data Engineering Data Pipelines Jobs 后端

概览

airflow-dag-patterns 技能概览

airflow-dag-patterns 是做什么的

airflow-dag-patterns 技能用于帮助你设计并生成更接近生产标准的 Apache Airflow DAG，而不是停留在通用“帮我写个 DAG”的提示词层面。它重点覆盖那些最容易在后期返工的部分：任务结构、依赖关系、operators、sensors、测试、可观测性，以及面向部署的默认设计。

谁适合使用 airflow-dag-patterns

这个技能最适合数据工程师、分析工程师、平台工程师，以及负责构建或审查定时 Airflow pipeline 的 AI agents。尤其适用于你已经清楚自己需要什么工作流，但希望实现模式更稳健、DAG 结构更安全、并尽量减少隐藏运维问题的场景。

它真正解决的核心需求是什么

大多数用户要的并不是“一个 Airflow 示例”。他们需要的是一个能经受真实调度、重试、失败恢复，以及团队交接的 DAG。airflow-dag-patterns 的价值在于：它可以把一个粗略的编排目标，转成一个可落地的 DAG 骨架，并配上合理的依赖模式和具备生产意识的设计选择。

这个技能和通用提示词的区别在哪里

它最核心的差异化能力在于“模式指导”。它不只是输出代码，而是把重点放在以下方面：

幂等、原子化、增量式、可观测的任务设计
清晰的依赖结构，例如线性、fan-out、fan-in
在真实编排场景中如何使用 operator 和 sensor
在合并 DAG 之前就需要考虑的测试与部署问题

因此，当你更看重可靠性时，airflow-dag-patterns 会比单纯的代码生成提示更有用。

适合与不适合的使用场景

适合：

为 ETL、ELT、批处理任务或工作流编排构建新的 DAG
将混乱的 DAG 重构为更清晰的依赖模式
让 agent 提出更接近生产可用的 Airflow 结构
创建 airflow-dag-patterns for Scheduled Jobs，尤其是在重试、backfill 和监控都很重要时

不适合：

不需要 Airflow 的一次性脚本
已明确统一使用其他 orchestrator 的团队
需要深度环境定制部署代码、但技能本身无法凭空推断这些信息的请求
只给极少输入，却期待一键式基础设施搭建的用户

如何使用 airflow-dag-patterns 技能

如何安装 airflow-dag-patterns

从包含该技能的仓库安装：

npx skills add https://github.com/wshobson/agents --skill airflow-dag-patterns

如果你的 client 支持安装后的技能发现，请刷新或重新加载 skills，这样 agent 才能显式调用 airflow-dag-patterns。

使用前先看什么

建议先阅读：

plugins/data-engineering/skills/airflow-dag-patterns/SKILL.md

这个技能的内容集中在单个文件中，因此你不需要再去翻辅助脚本或额外参考资料。优先阅读 “When to Use This Skill”、“Core Concepts” 和 quick-start 这些部分。它们会直接告诉你，这个技能最擅长处理哪些 DAG 需求。

这个技能需要你提供哪些输入

airflow-dag-patterns 在你提供“工作流事实”而不只是“主题”时，效果最好。建议包含：

DAG 的业务目标
调度方式或触发方式
数据源与目标端
预期的任务执行顺序
对失败和重试的要求
任务属于 batch、API、SQL、file 还是 Python 类型
任何 Airflow 版本或 operator 限制
对测试的预期

弱输入示例：

“Create an Airflow DAG for ingestion.”

强输入示例：

“Create a daily Airflow DAG that pulls data from a REST API, writes raw JSON to S3, transforms it with Spark, loads curated tables to Snowflake, alerts on failure, and supports backfills without duplicate loads.”

之所以后者更强，是因为它给了技能足够的上下文，去选择依赖模式、重试策略、任务边界和可观测性建议。

如何把一个模糊目标变成高质量的 airflow-dag-patterns 提示词

你可以按下面这个结构来写提示词：

先说明编排目标。
按顺序列出任务。
指定调度方式和 backfill 行为。
说明每个任务会涉及哪些系统。
明确失败处理与告警需求。
要求输出代码，并解释模式选择的理由。

示例：

“Use the airflow-dag-patterns skill to design a production Airflow DAG for a weekday 6am batch job. Tasks: extract from PostgreSQL, validate row counts, upload to GCS, run dbt, notify Slack. Make tasks idempotent, show dependency structure, recommend operators and sensors, and include how to test the DAG locally.”

面向真实使用的推荐 workflow

一个实用的 airflow-dag-patterns usage 流程通常是：

先让它给出第一版 DAG 设计和依赖图。
审查任务边界是否满足幂等和重试安全。
再让 agent 把设计转成 Airflow 代码。
补充要求本地测试建议和失败场景检查。
最后根据你的环境，细化 operator 选择和部署假设。

相比一开始就直接要最终代码，这个顺序通常更好，因为大多数 DAG 问题都不是语法问题，而是任务拆分本身就不合理。

这个技能最擅长的地方

当你的需求涉及以下内容时，这个技能表现尤其强：

DAG 设计原则
依赖建模
面向生产的任务结构
基于 Airflow 核心原语的示例
测试与部署讨论的起点

但在一些强依赖具体环境的细节上，它的权威性会弱一些，例如你的 executor、secrets backend、cloud IAM 或组织内部 CI/CD 规范，除非你明确把这些信息提供出来。

这个技能能帮助你选择哪些实用模式

原始内容非常明确地强调了常见依赖结构：

线性链路，适合简单的顺序型任务
fan-out，适合可并行分支
fan-in，适合分支完成后的汇总或校验
混合图结构，适合分阶段 pipeline

你可以要求这个技能解释：为什么某个分支应该并行、join 应该放在哪里，以及哪些任务为了保证重试安全必须保持隔离。

如何将 airflow-dag-patterns 用于 Scheduled Jobs

在使用 airflow-dag-patterns for Scheduled Jobs 时，建议补充：

cron 或 timetable
SLA 或 freshness 目标
backfill 策略
对迟到数据的处理方式
重试次数与间隔
是否允许重复数据
告警发送目标

很多定时任务之所以在生产中出问题，就是因为这些信息一开始没有说清楚。这个技能可以帮你补出更合适的默认值，但前提是它知道你的调度要求和数据正确性要求。

一份好的输出应包含什么

一份高质量的 airflow-dag-patterns 输出通常应包含：

DAG 的目标和前提假设
任务列表及其依赖设计理由
operator 或 sensor 推荐
重试与超时建议
关于幂等和增量处理的说明
日志、指标或告警方面的考虑
本地测试方案
部署时需要注意的事项

如果输出里只有代码，没有这些设计决策，建议先要求它补一轮设计审查，再进入实现。

常见的采用阻碍

用户之所以会犹豫是否安装 airflow-dag-patterns，往往是因为不确定它相比模板化 boilerplate 到底多了什么。如果你需要的是“编排质量”，答案通常是有价值；但以下情况会阻碍采用：

你提供的工作流细节太少
你希望它在没有上下文的情况下直接给出基础设施级部署代码
你真正想要的是完整 Airflow 平台搭建，而不是 DAG 指导
你把所有逻辑都塞进一个 Python 函数，而不是拆成可分离的任务单元

airflow-dag-patterns 技能 FAQ

airflow-dag-patterns 对新手友好吗？

是的，前提是你已经理解 DAG、task 这类基础 Airflow 概念。这个技能并不是完整的 Airflow 教程，但对于需要实战型 DAG 模式、而不是抽象解释的初学者来说，它能提供很有帮助的结构化指导。

airflow-dag-patterns 比普通的 Airflow 提示词更好吗？

对于稍微复杂一些的 pipeline，通常是的。普通提示词也许能生成可运行代码，但 airflow-dag-patterns skill 更可能主动暴露出那些在生产中真正重要的问题，例如依赖设计、幂等性和测试。

airflow-dag-patterns 会帮我安装 Airflow 吗？

不会。airflow-dag-patterns install 这一步只是把该技能加到你的 agent 环境里，并不会安装 Apache Airflow 本身。你仍然需要自己的 Airflow 项目、运行环境和依赖。

我可以用 airflow-dag-patterns 来重构已有 DAG 吗？

可以，而且这是它很适合的用法。你可以拿现有 DAG 来让它重点审查：

依赖是否可以简化
operator 是否需要现代化
重试策略是否更安全
可观测性是否足够
任务边界是否更清晰

把当前 DAG 贴进去，然后让这个技能基于生产 DAG 原则给出批判式审查。

什么情况下不该使用 airflow-dag-patterns？

以下情况不建议使用：

你的工作流简单到 cron job 或单脚本就足够
你需要的是深度厂商定制的部署自动化，但又没有提供额外上下文
你的团队并不使用 Airflow
你的核心需求是基础设施 provisioning，而不是 DAG 设计

它涵盖测试和部署吗？

涵盖，但主要是指导层面。原始内容明确提到本地测试 DAG 和生产环境 Airflow 搭建，但你应当预期得到的是模式与建议，而不是完全按你环境定制好的部署资产。

如何提升 airflow-dag-patterns 技能的使用效果

提供完整工作流细节，而不只是工具名

提升质量最明显的方法，就是把工作流从头到尾说明清楚。“Use S3 and Snowflake” 这种输入很弱；而 “Extract hourly CSVs to S3, validate schema drift, load curated Snowflake tables, and alert on missing files” 这类描述，才能让技能有足够上下文去合理推荐 operators、sensors 和依赖设计。

先问设计，再要代码

一个很常见的失败模式，就是一上来就直接要代码。更好的 airflow-dag-patterns usage 方式是先问：

应该有哪些任务
依赖该在哪里分支或汇合
哪些地方需要重试或超时
哪些任务必须做到幂等
哪些环节需要可观测性

之后再要求输出代码。这样可以显著减少因任务边界选错而导致的脆弱 DAG。

明确你的运维约束

请把这些信息告诉技能：

Airflow 版本
scheduler 节奏
backfill 要求
cloud 平台
包依赖限制
executor 或运行时限制
告警工具

如果没有这些约束，技能给出的模式即使在通用层面是合理的，落到你的环境里往往仍然需要大量改造。

强制要求解释任务边界的理由

很多质量差的 DAG，都把过多逻辑塞进了一个 task。你可以要求 airflow-dag-patterns 明确解释：

为什么每个 task 要单独拆开
哪些 task 可以安全重试
哪些 task 可以并行运行
数据校验应该放在哪个环节

这会明显改善可维护性和故障隔离能力。

用具体示例帮助它选对 operator

如果你希望输出更强，就把实际工作内容说具体，例如：

API extraction
SQL transform
file wait
dbt run
Spark submit
warehouse load
Slack alert

具体的任务类型能帮助技能跳出泛泛的 PythonOperator 示例，转而给出更合适的模式建议。

围绕失败场景继续追问

拿到第一版回答后，可以继续追问：

“What happens if the source API returns partial data?”
“How should this DAG behave on backfill?”
“Where should alerts trigger?”
“What tasks must be skipped vs retried?”

这类问题会让 airflow-dag-patterns 的价值远高于一次性代码生成器。

用四个生产特征来检查输出质量

可以用这个技能，按原始内容强调的四个原则去审查每一版 DAG：

idempotent
atomic
incremental
observable

如果其中任何一个维度偏弱，就明确要求 agent 针对该特征重新修订 DAG。

把它当评审工具，而不只是生成工具

提升 airflow-dag-patterns skill 结果质量的最佳方式之一，是把你现有的 DAG 草稿交给它，要求做结构化评审，例如：

anti-patterns
dependency risks
retry hazards
missing alerts
test gaps
deployment concerns

相比从零开始让它新写一个 DAG，这种方式通常能得到更可执行、更有操作价值的建议。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

continuous-learning-v2

作者 affaan-m

continuous-learning-v2 将 Claude Code 会话转化为按项目作用域的学习流程，结合 hooks、observer agents、置信度评分，以及把重复模式晋升为 skills、commands 或 agents。

Skill 编写

收藏 0GitHub 156.1k

gstack-upgrade

作者 garrytan

gstack-upgrade 是用于安全更新 gstack 的技能。它会识别全局安装与 vendored 安装，执行升级流程，并汇总变更内容，方便你验证结果。若你需要安装与使用细节、考虑迁移影响的行为说明，以及工作流自动化场景，这份 gstack-upgrade 指南会很有用。

工作流自动化

收藏 0GitHub 91.8k

python-background-jobs

作者 wshobson

python-background-jobs 帮助你用更适合生产环境的模式设计 Python 任务队列、workers、重试机制、任务状态跟踪以及定时后台处理。

定时任务

收藏 0GitHub 32.6k

gws-calendar

作者 googleworkspace

gws-calendar 是 googleworkspace/cli 中用于管理日历、ACL 和事件的 Google Calendar 技能，基于结构化的 gws CLI 操作完成管理。适合需要可靠工作流自动化的场景，包括 gws-calendar install 和 gws-calendar usage，以及像 +insert 和 +agenda 这样的辅助命令。

工作流自动化

收藏 0GitHub 25.5k

autonomous-agent-harness

作者 affaan-m

autonomous-agent-harness 将 Claude Code 变成一个具备记忆、定时运行、任务分发和电脑操作能力的持续自驱代理系统。它适用于代理编排、周期性检查以及长生命周期工作流，尤其是在你需要的不只是一次性提示词时。

Agent 编排

收藏 0GitHub 156.1k

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一项工作流技能，用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景，比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策，而不是泛泛的只靠提示词生成视频请求。

视频编辑

收藏 0GitHub 2.7k

kreuzberg

作者 kreuzberg-dev

kreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取，支持 91+ 种格式，包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流，适用于 OCR、表格、元数据、批量处理以及实用的解析指导。

PDF 处理

收藏 0GitHub 0

skill-creator

作者 anthropics

skill-creator 是一个用于 Skill 编写的元技能，可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案，并借助仓库脚本和审查工具优化触发描述。

Skill 编写

收藏 2GitHub 105.1k

azure-identity-py

作者 microsoft

azure-identity-py 帮助你在 Python 中使用 Microsoft Entra ID 配置 Azure 身份验证。它适合用于选择 DefaultAzureCredential、managed identity 或 service principal 认证，配置环境变量，并排查访问控制和凭据链问题。安装说明、使用模式和实用的配置提示均基于 repo skill file。

访问控制

收藏 0GitHub 2.2k

claude-api

作者 anthropics

claude-api 是一项实用技能，帮助开发者安装并使用 Claude API 与 Anthropic SDK。它可协助选择合适的 SDK 或原生 HTTP 方案，识别对应语言文档，并更稳妥地实现流式输出、tool use、文件、批处理和错误处理，减少试错成本。

API 开发

收藏 0GitHub 105k

wrangler

作者 cloudflare

wrangler 技能可帮助你找到 Cloudflare Workers 的正确 CLI 命令、配置结构和部署步骤。可用于 wrangler 的使用、wrangler 安装检查，以及在构建或交付 Workers 时获取一份实用的 wrangler 指南，适合 Backend Development 场景。

后端开发

收藏 0GitHub 1.3k

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是面向数据库工程的 ClickHouse 最佳实践技能。它围绕 schema 设计、查询调优、写入策略和 agent 连接提供基于规则的建议，让 clickhouse-best-practices 在 ClickHouse 工作流中的触发、审阅和引用都更容易。

数据库工程

收藏 0GitHub 412

clickhouse-architecture-advisor

作者 ClickHouse

clickhouse-architecture-advisor 可帮助设计 ClickHouse 工作负载，并针对数据摄取、分区、JOIN、字典、upsert 和预聚合做出符合工作负载的决策。它尤其适用于后端开发、可观测性、SIEM、产品分析、IoT 遥测和金融数据管道。该技能会将建议标记为 official、derived 或 field。

后端开发

收藏 0GitHub 412

figma-generate-library

作者 figma

figma-generate-library 可帮助你从代码库出发，按顺序完成 tokens、组件库、文档以及浅色/深色主题的设计系统构建或更新。需要的是面向 Design Systems 的实用指南，而不是一次性的 mockup 时，就该用 figma-generate-library。它与 figma-use 互补，用于 Plugin API 调用。

设计系统

收藏 0GitHub 0