spark-optimization

作者 wshobson

spark-optimization 是一份实用指南，帮助诊断运行缓慢的 Apache Spark 作业，重点覆盖 partitioning、shuffle、skew、caching 和 memory tuning。你可以用它从 wshobson/agents 安装该 skill，阅读 SKILL.md，并结合 Spark UI 症状、集群配置与查询模式，采用有依据的优化方案。

Stars32.6k

收录时间2026年3月30日

分类性能优化

安装命令

npx skills add wshobson/agents --skill spark-optimization

编辑评分

该 skill 评分为 78/100，适合作为目录中的稳妥候选，面向希望让 agent 较有把握地提供 Spark 性能调优建议的用户。仓库内容显示，它在 partitioning、caching、减少 shuffle、memory tuning 以及慢作业排查方面提供了较扎实的实操指导，因此整体上会比泛泛的提示词更有帮助。主要限制在于它只提供文档，没有配套脚本、参考资料或安装/运行脚手架，因此更适合用作建议型指导，而不是可直接执行的优化工具包。

78/100

亮点

触发场景明确：描述和“何时使用”部分清楚覆盖了慢作业、memory tuning、partitioning、skew 以及扩缩容等场景。
工作流内容充实：较长的 SKILL.md 包含 quick-start 代码块，以及 shuffle、serialization、memory 和 partition 策略等具体优化主题。
对 agent 赋能明显：它将生产环境中的 Spark 优化模式集中整理在一处，相比宽泛的通用性能提示，能显著减少试错和猜测。

注意点

仅提供文档：没有脚本、参考资料、资源文件或安装命令，实际执行效果取决于 agent 能否把这些指导正确转化到用户环境中。
实践验证信号偏少：从结构化证据来看，明确的约束条件和实践验证信号相对有限，导致某些边缘场景下的调优选择依据可能不够充分。

Python Data Engineering Data Pipelines Performance Sql

概览

spark-optimization 技能概览

spark-optimization 是用来做什么的

spark-optimization 是一个专门用于诊断和提升 Apache Spark 作业性能的技能。它最适合用在这样的场景：你的 pipeline 在功能上已经跑通，但执行速度过慢、频繁 spill、shuffle 过多、存在数据倾斜，或者在数据规模上来后成本迅速升高。它不是给出一套泛泛的“如何让 Spark 更快”的建议，而是围绕 Spark 的执行模型来组织优化思路：jobs、stages、tasks、partitions、memory，以及 shuffle 行为。

谁适合使用这个 spark-optimization 技能

这个 skill 很适合数据工程师、分析工程师、平台团队，以及需要对 Spark SQL 或 PySpark 做性能调优的 agent 用户。尤其当你能提供一些 workload 上下文时，它的效果会更好，比如 join 模式、数据规模、partition 数量、executor 配置，或者来自 Spark UI 的异常现象。如果你是初学者，它同样有帮助，但前提是最好能结合具体作业细节，而不是只给一个空泛的请求。

用户真正想解决的问题

大多数用户并不是抽象地想“优化 Spark”，他们真正想回答的问题通常是：

为什么这个 join stage 明显比其他 stage 慢得多？
为什么 executors 一直 spill，或者直接因为 OOM 挂掉？
为什么数据量上来之后，这条 pipeline 变慢了？
我到底该 repartition、cache、broadcast，还是调整 executor 配置？
在不改业务逻辑的前提下，怎样降低 shuffle 成本？

spark-optimization 的价值在于，它会把这些问题当成可以诊断的性能问题来分析，而不是停留在代码风格层面的泛泛建议。

它和通用 prompt 有什么不同

通用模型 prompt 往往会一次性罗列所有常见 Spark 调优技巧。相比之下，spark-optimization skill 更适合一种更收敛的工作流：先理解执行行为，再选择正确的调优杠杆。它最突出的差异在于，强调 partition 策略、shuffle 缩减、内存调优，以及用 Spark 执行模型解释“为什么这个改动会有效”。

如何使用 spark-optimization 技能

spark-optimization 的安装上下文

这个 skill 位于 wshobson/agents 仓库中的：

plugins/data-engineering/skills/spark-optimization

如果你的 skill runner 支持直接从 GitHub 安装，常见方式是：

npx skills add https://github.com/wshobson/agents --skill spark-optimization

如果你的环境使用别的安装方式，就从该仓库添加这个 skill，并选择 spark-optimization 这个 slug。根据仓库里目前能看到的内容，只有 SKILL.md，因此可以预期它主要是文档驱动的指导，而不是依赖辅助脚本或参考文件。

先读这个文件

先从这里开始：

plugins/data-engineering/skills/spark-optimization/SKILL.md

由于这个 skill 看不到额外的脚本、规则或参考资料，大部分价值都在于认真阅读它的主优化框架。不要期待它会自动帮你检查 Spark UI 或集群状态；运行时事实需要你自己提供。

让这个技能发挥作用需要哪些输入

spark-optimization usage 的输出质量，非常依赖你提供的信息是否足够具体。高价值输入包括：

使用的 Spark API：PySpark DataFrame、Spark SQL、Scala Spark、streaming、batch
数据规模：行数、文件数、partition 大小、增长趋势
集群形态：executor memory、cores、executor 数量、autoscaling 行为
症状：task 倾斜、shuffle read 很长、spill、OOM、straggler、GC pause
查询模式：joins、aggregations、UDFs、window functions、repartitioning
存储格式：Parquet、Delta、Iceberg、CSV、JSON
Spark UI 观察结果：慢 stage 的 ID、shuffle 大小、task 分布、输入规模
当前配置：spark.sql.shuffle.partitions、broadcast 阈值、serializer

如果缺少这些信息，模型基本就只能退回到泛化建议。

如何把模糊目标变成高质量 prompt

较弱的 prompt：

Optimize my Spark job.

更强的 prompt：

Use the spark-optimization skill to diagnose a slow PySpark batch job. It reads 1.2 TB of Parquet, joins a 1.2 TB fact table with a 20 MB dimension table and a 40 GB history table, then aggregates by customer and day. The slowest stage shows high shuffle read and a few tasks run 10x longer than others. Cluster: 20 executors, 8 cores each, 32 GB memory each. Current spark.sql.shuffle.partitions=200. Suggest likely bottlenecks, code-level fixes, and config changes in priority order, with tradeoffs.

这个 prompt 给了 skill 足够多的证据，能够围绕 broadcast join、数据倾斜、partition 大小和 shuffle 压力进行推理。

一套实用的 spark-optimization 工作流

一套更稳妥的使用方式是：

描述 workload 和症状。
提供 Spark UI 里慢 stage 的特征。
让它输出“瓶颈优先级排序”，而不是随机罗列调优建议。
按层次请求修改建议：
- query/code 改动
- partitioning 改动
- join strategy 改动
- memory/config 改动
先应用最小、且置信度最高的修复。
重新运行，并按 stage 级别对比行为变化。

这样可以让 spark-optimization guide 始终围绕可度量的结果展开，而不是陷入“别人都这么调”的经验主义。

这个技能最擅长什么

从仓库文本来看，这个 skill 的重点非常明确，主要集中在：

partitioning strategy
caching choices
shuffle optimization
memory tuning
scaling Spark pipelines
reducing data skew

落到实际使用上，这意味着它最适合处理 batch 性能问题，尤其是那些主要成本来自 stage 结构和数据移动的场景。

你应该明确要求它输出什么

建议直接让这个 skill 产出便于落地的内容，例如：

一张 bottleneck hypothesis table
推荐的配置改动及其预期效果
可能存在的数据倾斜点和验证方法
是否适合使用 broadcast join
repartition 和 coalesce 哪个更合适
cache 或 persist 建议，并说明理由
你的 transformations 中有哪些 anti-pattern

这比单纯要求一份通用的“best practices list”要有效得多。

基于仓库内容，prompt 应重点聚焦哪些主题

从可见源码来看，在 prompt 里优先点名以下主题，通常最容易得到对路的输出：

Spark execution model
key performance factors
shuffle minimization
data skew handling
serialization choices
memory pressure reduction
partition right-sizing

这些都是该 skill 明确围绕的核心概念，因此在提问时直接点出来，更容易得到结构一致、方向对口的回答。

用于 Performance Optimization 的 spark-optimization 实用 prompt 模板

可以使用这样的 prompt：

Use the spark-optimization skill for Performance Optimization. Analyze this Spark job for shuffle, skew, memory, and partition issues. Here is the job summary: [pipeline description]. Here are the slow stages and Spark UI symptoms: [details]. Here is current cluster config: [details]. Here is a simplified code excerpt: [code]. Recommend the

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

vercel-react-best-practices

作者 vercel-labs

vercel-react-best-practices 是由 Vercel Engineering 提供的 skill，用优先级规则引导 AI 优化 React 和 Next.js 性能，涵盖瀑布流请求、bundle 体积和渲染等关键问题。

前端开发

收藏 0GitHub 24k

performance-optimization

作者 addyosmani

performance-optimization 技能帮助你先测量、找出真正瓶颈、完成优化，并验证结果。适用于已有性能要求、怀疑出现性能回退，或需要改善 Core Web Vitals、加载时间与交互延迟的场景。

性能优化

收藏 0GitHub 18.7k

supabase-postgres-best-practices

作者 supabase

supabase-postgres-best-practices 是一项面向 Supabase Postgres 优化的技能，覆盖查询调优、索引、Schema 设计、RLS 性能、锁竞争与连接管理等核心主题。

数据库工程

收藏 0GitHub 1.7k

wp-performance

作者 WordPress

使用 wp-performance 从后端排查并提升 WordPress 性能，无需浏览器界面。它支持先测量、后诊断的方式，适用于前台请求缓慢、后台页面、REST 路由和 WP-Cron 等场景，并提供关于 WP-CLI profile/doctor、通过 REST 头查看 Query Monitor、Server-Timing、数据库查询、autoloaded options、对象缓存、cron 和远程 HTTP 调用的指导。

性能优化

收藏 0GitHub 1.4k

web-perf

作者 cloudflare

web-perf 使用 Chrome DevTools MCP 分析 Web 性能。它可衡量 Core Web Vitals、基于 trace 的加载问题、阻塞渲染的资源、布局偏移、缓存问题以及可访问性缺口。适合用于性能优化、慢页面排障，以及依赖最新文档和实时 trace 的基于证据的 web-perf 指南式工作流。

性能优化

收藏 0GitHub 1.3k

react-native-best-practices

作者 callstackincubator

react-native-best-practices 是一份实用的 React Native 性能优化指南，聚焦启动慢、掉帧、重渲染过重、内存泄漏、bundle 体积膨胀和动画卡顿等问题。适用于需要有证据支撑的修复方案，例如 Hermes、bridge 开销、FlashList、原生模块，或排查线上版本回归性能时使用。

性能优化

收藏 0GitHub 1.3k

swift-nio

作者 Joannis

swift-nio 是一项面向 SwiftNIO 后端开发的技能，涵盖 servers、clients、pipelines、buffers、codecs，以及 EventLoop 安全的异步代码。适用于 swift-nio 使用问题、协议解析、TCP/UDP 服务、NIOAsyncChannel 集成，以及排查 EventLoop 上的阻塞工作。它是一本面向正确架构与实现的实用 swift-nio 指南。

后端开发

收藏 0GitHub 0

audit-website

作者 squirrelscan

audit-website 技能通过 squirrel CLI，基于 230+ 条规则对网站和 Web 应用进行审计，覆盖 SEO、技术、内容、性能、安全、链接和站点健康等维度，并输出可直接供 LLM 使用的可执行报告。

UX 审计

收藏 0GitHub 68

autoresearch

作者 github

autoresearch 是一套面向编码任务的自主实验循环，适用于结果可衡量的场景。它帮助开发者先明确目标、基线、指标和范围，再借助由 git 检查点支撑的流程，在代码修改、测试以及保留或回退决策之间持续迭代。

工作流自动化

收藏 0GitHub 0

godot-gdscript-patterns

作者 wshobson

godot-gdscript-patterns 可帮助 Godot 4 用户生成和审查 GDScript，改进场景结构、signals、状态机、autoloads 和 async loading 模式。适合在玩法系统、UI 流程和可维护的项目代码中引入经过验证的 Godot 架构实践，便于安装后直接用于实际开发决策。

前端开发

收藏 0GitHub 32.5k

pytorch-patterns

作者 affaan-m

pytorch-patterns 帮助你使用与设备无关的模式、可复现实验和显式张量处理来编写、审查和调试 PyTorch 代码。将 pytorch-patterns 技能用于更干净的训练循环、模型重构以及实用的 PyTorch 指南。

代码编辑

收藏 0GitHub 156.2k

nextjs-turbopack

作者 affaan-m

nextjs-turbopack 技能可帮助你在 Next.js 16+ 中使用 Turbopack，以获得更快的本地开发、HMR 以及打包器决策参考。它适合作为一份实用的 nextjs-turbopack 指南，用于安装、使用，以及在 Frontend Development 工作流中判断何时切回 webpack。

前端开发

收藏 0GitHub 156.2k

jpa-patterns

作者 affaan-m

jpa-patterns 是一份面向 Spring Boot 后端开发的实用 JPA/Hibernate 指南，涵盖实体设计、关系映射、查询调优、事务、审计、分页和连接池，帮助减少 ORM 误用并提升持久化性能。

后端开发

收藏 0GitHub 156.2k

rust-async-patterns

作者 wshobson

rust-async-patterns 是一项面向 Tokio 异步 Rust 的实用技能，涵盖任务、通道、流、超时、取消、tracing 和错误处理，适合后端开发场景。

后端开发

收藏 0GitHub 32.6k

go-concurrency-patterns

作者 wshobson

go-concurrency-patterns 帮助你以符合 Go 习惯的方式运用并发模式，涵盖 worker pools、pipelines、channels、sync primitives 以及基于 context 的取消控制。你可以根据 SKILL.md 中的指导，用它来设计更稳健的后端服务、排查竞态条件，并改进优雅关闭行为。

后端开发

收藏 0GitHub 32.6k

async-python-patterns

作者 wshobson

async-python-patterns 是一份实用指南，帮助你为 I/O 密集型 Python 系统选择更安全的 asyncio 模式。可用于了解安装与使用背景、审查用法、避免阻塞事件循环，并在设计异步 API、worker、爬虫和后端服务时，更好地权衡有界并发、取消机制，以及同步与异步之间的取舍。

后端开发

收藏 0GitHub 32.6k