spark-optimization

作者 wshobson

spark-optimization 是一份實用指南，協助診斷執行緩慢的 Apache Spark 工作，重點涵蓋 partitioning、shuffle、skew、caching 與記憶體調校。你可以用它從 wshobson/agents 安裝此技能、閱讀 SKILL.md，並根據 Spark UI 徵兆、叢集設定與查詢模式，採取有憑有據的最佳化修正。

Stars32.6k

評論0

加入時間2026年3月30日

分類性能优化

安裝指令

npx skills add wshobson/agents --skill spark-optimization

編輯評分

此技能評分為 78/100，對於希望讓 agent 以相對可靠的方式提供 Spark 效能調校建議的使用者而言，是值得收錄的目錄項目。從 repository 內容來看，它確實涵蓋 partitioning、caching、降低 shuffle、記憶體調校，以及慢工作除錯等實務主題，因此比起一般化提示，更有助於 agent 提供可操作的建議。主要限制在於它僅提供文件說明，沒有搭配的 scripts、references 或安裝／執行腳手架，因此使用者應將其視為顧問式最佳化指引，而非可直接執行的最佳化工具包。

78/100

亮點

觸發情境明確：description 與「When to Use」段落清楚涵蓋慢工作、記憶體調校、partitioning、skew 與擴展等情境。
工作流程內容扎實：篇幅完整的 SKILL.md 包含 quick-start code fences，以及 shuffle、serialization、memory、partition strategy 等具體最佳化主題。
對 agent 的實用性高：它將正式環境常見的 Spark 最佳化模式整理在同一處，比起籠統的通用效能提示，更能減少猜測空間。

注意事項

這是純文件型技能：未提供 scripts、references、assets 或 install command，實際執行仍取決於 agent 是否能將指引轉譯到使用者的環境中。
實務驗證訊號偏少：從結構面來看，明確限制與實際驗證訊號較有限，遇到邊界案例時，調校決策的依據可能不夠扎實。

Python Data Engineering Data Pipelines Performance Sql

總覽

spark-optimization 技能總覽

spark-optimization 是做什麼用的

spark-optimization 技能是一份專門用來診斷並改善 Apache Spark 工作效能的聚焦指南。它最適合用在：你的 pipeline 功能上已經能正常運作，但執行速度太慢、spill 很嚴重、shuffle 過多、出現資料傾斜，或是在規模放大後成本明顯升高的情況。它不是提供泛泛的「讓 Spark 變快」建議，而是依照 Spark 的執行模型來組織優化思路：jobs、stages、tasks、partitions、memory，以及 shuffle 行為。

哪些人適合用這個 spark-optimization 技能

這個技能很適合資料工程師、分析工程師、平台團隊，以及需要實際協助處理 Spark SQL 或 PySpark 效能調校的 agent 使用者。若你能提供一些 workload 背景資訊，例如 join 型態、資料量、partition 數、executor 設定，或 Spark UI 中觀察到的症狀，效果會特別好。即使你是初學者，它仍然有幫助；只是相較於空泛提問，它更適合搭配具體的 job 細節一起使用。

真正要解決的工作問題

多數使用者其實不是抽象地想「優化 Spark」，而是想回答這些更具體的問題：

為什麼這個 join stage 比其他 stage 慢很多？
為什麼 executors 一直 spill，或直接因為 OOM 掛掉？
為什麼資料量變大之後，這條 pipeline 明顯變慢？
我到底該 repartition、cache、broadcast，還是調整 executor 設定？
在不改動商業邏輯的前提下，要怎麼降低 shuffle 成本？

spark-optimization 技能的價值，在於它會把這些問題當成可診斷的效能問題來處理，而不只是停留在程式碼風格層面的建議。

這和一般泛用 prompt 有什麼不同

一般模型 prompt 往往會一次列出所有常見的 Spark 調校技巧。spark-optimization skill 則更適合一個更聚焦的工作流：先理解實際執行行為，再選對該動的槓桿。它最明顯的差異，在於特別強調 partition 策略、降低 shuffle、記憶體調校，以及 Spark 執行模型本身，來說明某個改動為什麼會有效。

如何使用 spark-optimization 技能

spark-optimization 的安裝背景

這個技能位於 wshobson/agents repository 的：

plugins/data-engineering/skills/spark-optimization

如果你的 skill runner 支援直接從 GitHub 安裝，常見做法是：

npx skills add https://github.com/wshobson/agents --skill spark-optimization

如果你的環境使用的是其他安裝方式，就從該 repository 加入 skill，並選擇 spark-optimization 這個 slug。從 repository 目前可見的內容來看，只有 SKILL.md，所以你可以預期這個技能是以文件指引為主，而不是由輔助 script 或參考檔案支撐。

先讀這個檔案

先從這裡開始：

plugins/data-engineering/skills/spark-optimization/SKILL.md

由於這個技能看不到額外的支援 scripts、rules 或 references，多數價值都在於把主要的優化框架仔細讀懂。不要預期它會自動幫你檢查 Spark UI 或叢集狀態；執行期的事實與觀察，還是要由你提供。

這個技能要吃到哪些輸入才會發揮效果

spark-optimization 的使用品質，很大程度取決於你提供的細節。以下這些輸入都很有幫助：

使用的 Spark API：PySpark DataFrame、Spark SQL、Scala Spark、streaming、batch
資料規模：row counts、file counts、partition sizes、成長模式
叢集規模：executor memory、cores、executor 數量、autoscaling 行為
症狀：task skew、shuffle read 很長、spill、OOM、stragglers、GC pauses
查詢型態：joins、aggregations、UDFs、window functions、repartitioning
儲存格式：Parquet、Delta、Iceberg、CSV、JSON
Spark UI 觀察：慢的 stage IDs、shuffle size、task 分布、input size
目前設定：spark.sql.shuffle.partitions、broadcast thresholds、serializer

如果沒有這些資訊，模型就很容易退回到泛用建議。

把模糊目標改寫成有力的 prompt

弱的 prompt：

Optimize my Spark job.

更強的 prompt：

Use the spark-optimization skill to diagnose a slow PySpark batch job. It reads 1.2 TB of Parquet, joins a 1.2 TB fact table with a 20 MB dimension table and a 40 GB history table, then aggregates by customer and day. The slowest stage shows high shuffle read and a few tasks run 10x longer than others. Cluster: 20 executors, 8 cores each, 32 GB memory each. Current spark.sql.shuffle.partitions=200. Suggest likely bottlenecks, code-level fixes, and config changes in priority order, with tradeoffs.

這樣的 prompt 能讓技能有足夠證據去推理 broadcast joins、資料傾斜、partition sizing，以及 shuffle 壓力等問題。

一套實用的 spark-optimization 工作流程

一個好的工作流程通常是：

描述 workload 與症狀。
分享 Spark UI 中慢速 stage 的特徵。
要求先做 bottleneck 排序，而不是隨機丟一串 tuning tips。
要求分層提出修改建議：
- query/code changes
- partitioning changes
- join strategy changes
- memory/config changes
先套用最小、但高信心的修正。
重新執行並比較 stage-level 行為。

這樣可以讓 spark-optimization guide 保持在可量測的結果上，而不是落入照單全收的 cargo-cult tuning。

這個技能最擅長的地方

從 repository 文字內容來看，它明顯聚焦在這幾個面向：

partitioning strategy
caching choices
shuffle optimization
memory tuning
scaling Spark pipelines
reducing data skew

實務上，這代表它特別適合拿來處理 batch 效能問題，尤其是當 stage 結構與資料搬移才是真正主要成本來源時。

有哪些內容值得你明確要求它輸出

你可以直接要求這個技能產出容易落地的結果，例如：

bottleneck hypothesis table
建議的 config changes 與預期效果
可能的 skew 點，以及怎麼驗證
是否適合使用 broadcast join
repartition 還是 coalesce 比較適合
cache 或 persist 建議，並附上理由
transformations 中的 anti-patterns

這比起要求一份泛用的「best practices list」要有效得多。

根據 repository 內容，最值得聚焦的主題

根據目前可見的 source，最值得在 prompt 中點名的方向包括：

Spark execution model
key performance factors
shuffle minimization
data skew handling
serialization choices
memory pressure reduction
partition right-sizing

這些都是這個技能明確圍繞的核心概念，所以在提問時直接點出來，通常更容易得到對齊的輸出。

用於 Performance Optimization 的 spark-optimization 實用 prompt 模板

你可以用這樣的 prompt：

Use the spark-optimization skill for Performance Optimization. Analyze this Spark job for shuffle, skew, memory, and partition issues. Here is the job summary: [pipeline description]. Here are the slow stages and Spark UI symptoms: [details]. Here is current cluster config: [details]. Here is a simplified code excerpt: [code]. Recommend the top 3 changes by expected impact, explain why each helps in Spark’s execution model, and note any tradeoffs or validation steps.

這種寫法通常比單純說「improve performance」更能產出可做決策的內容。

spark-optimization 技能 FAQ

沒有 Spark UI 資料，spark-optimization 還有用嗎

有用，但結果的可靠性會比較低。這個技能仍然可以根據程式碼結構、join 規模、檔案布局與叢集設定來推理。不過，如果你想對資料傾斜、shuffle 熱點或記憶體壓力得到更有把握的建議，Spark UI 的證據會顯著提升回答品質。

這個 spark-optimization 技能適合初學者嗎

適合，前提是你已經懂 Spark 的基本概念。這個技能會透過 jobs、stages、tasks、partitions 與 shuffle 行為來解釋優化邏輯，對中階使用者特別有助於快速進階。若是完全初學者，可能還是需要先補一點 Spark 入門知識，後續建議才會更容易實作。

什麼情況不該用 spark-optimization

如果問題本質其實是下面這些，就不建議把 spark-optimization 當成主要工具：

商業邏輯錯誤
上游來源資料品質不佳
orchestration 失敗
storage layer 故障
引擎外部、與 Spark 無關的瓶頸

如果你完全無法提供任何執行期事實，只是想拿一份泛用 tuning checklist，它也不是很適合。

這和一般 Spark 建議有什麼差別

一般 prompt 常常只會吐出很寬泛的建議，例如「多用 cache」、「增加 partitions」或「使用 broadcast joins」。如果你想要的是一套以診斷為核心的流程，先判斷哪個槓桿最該優先處理、原因是什麼，並用 Spark 執行概念來串起來，而不是零散技巧，那麼 spark-optimization install 是值得考慮的選擇。

這個技能能取代 benchmarking 嗎

不能。它可以提升你提出假設與建議修改的品質，但你仍然需要做前後測試。Spark 優化高度依賴 workload；某些改動可能改善某個 stage，卻讓另一個 stage 變差。

如何改善 spark-optimization 技能的使用效果

提供症狀，不要只給目標

要提升 spark-optimization 的使用效果，最快的方法就是把抽象目標換成具體症狀，例如：

「stage 14 有 2 個 tasks 跑了 12 分鐘，其他 tasks 40 秒就結束」
「groupBy 之後 shuffle read 來到 600 GB」
「executors 在 sortMergeJoin 期間 spill 到磁碟」
「每日輸入量從 200 GB 增加到 900 GB 後，job 明顯變慢」

這些線索能讓技能直接對應到資料傾斜、partitioning、memory 或 shuffle 等可能原因。

提供造成瓶頸的程式碼形狀

你不需要把整個專案都貼上來。通常只要一小段能看出以下內容的摘錄就夠了：

joins
aggregations
repartition calls
cache 或 persist usage
Python UDFs
file reads and writes

Spark 效能問題很多時候從 transformation 的形狀就看得出來，不只是 config 的問題。

要求依優先順序排序建議

一種很常見的失敗情況，是你收到十個建議，卻完全不知道先做哪個。你可以要求技能依下列標準排序修正方案：

預期效能影響
實作成本
營運風險

這會迫使輸出更聚焦，也更容易實際採納。

對每個建議都要求驗證步驟

好的 spark-optimization guide 使用方式，一定包含驗證。你可以要求技能說明如何確認每個修正是否真的有效，例如：

shuffle read/write 是否下降
task durations 是否更平均
spills 是否減少
GC time 是否降低
stages 是否變少
input partition balance 是否更好

這能避免落入「憑經驗傳說調參」的情況。

先講清楚限制條件，建議才會實際

請明確說出你的限制，例如：

不能增加 cluster size
不能改寫成 Scala
必須保留目前 table format
latency target 已固定
broadcast join 可用記憶體有限
這個 sprint 只能做 config changes

當技能知道哪些事情不能動，它給出的建議會實用得多。

拿到第一輪 spark-optimization 輸出後要再迭代

第一輪分析之後，請帶著以下資訊再回來一次：

哪些地方改了
哪些地方改善了
哪些地方變差了
更新後的 Spark UI 觀察

這時候這個技能才會真正變得有價值。Spark 優化本來就是迭代式過程；下一步最好的動作，往往取決於前一個改動帶來的副作用。

留意 spark-optimization 常見失準情況

最常見的低品質結果，通常都發生在使用者：

問優化問題時完全沒提供 workload 細節
忽略資料傾斜，只盯著 executor memory
在沒有重複使用證據時過度 cache 大型資料集
盲目修改 partition 數量
把每個 join 都當成 broadcast 候選
還沒處理昂貴的 transformations，就先調 config

如果你想得到更好的結果，請讓技能根據證據推理，而不是根據泛用偏好下結論。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

vercel-react-best-practices

作者 vercel-labs

vercel-react-best-practices 是 Vercel Engineering 推出的 skill，用優先級規則引導 AI agent 優化 React 與 Next.js 效能，聚焦 waterfall、bundle size 與 rendering。

前端开发

收藏 0GitHub 24k

performance-optimization

作者 addyosmani

performance-optimization 技能可協助你先量測、找出真正瓶頸、修正問題，並驗證成效。當有效能需求、懷疑出現回歸，或需要改善 Core Web Vitals、載入時間或互動延遲時，這項技能特別適合使用。

性能优化

收藏 0GitHub 18.7k

supabase-postgres-best-practices

作者 supabase

supabase-postgres-best-practices 是一個用於 Supabase Postgres 最佳化的技能，涵蓋查詢調校、索引、綱要設計、RLS 效能、鎖定與連線管理。

資料庫工程

收藏 0GitHub 1.7k

wp-performance

作者 WordPress

使用 wp-performance 從後端調查並改善 WordPress 效能，不需要瀏覽器介面。它支援先量測、後診斷的流程，適用於緩慢的前台請求、管理後台頁面、REST 路由與 WP-Cron，並提供 WP-CLI profile/doctor、透過 REST header 使用 Query Monitor、Server-Timing、資料庫查詢、autoloaded options、物件快取、cron 與遠端 HTTP 呼叫等指引。

性能优化

收藏 0GitHub 1.4k

web-perf

作者 cloudflare

web-perf 透過 Chrome DevTools MCP 分析網站效能。它會衡量 Core Web Vitals、以 trace 為基礎的載入問題、阻擋渲染的資源、版面位移、快取問題與可及性缺口。若你需要 Performance Optimization、除錯緩慢頁面，或依據最新文件與即時 traces 進行的 web-perf 指南式工作流程，都適合使用 web-perf skill。

性能优化

收藏 0GitHub 1.3k

react-native-best-practices

作者 callstackincubator

react-native-best-practices 是一份實用的 React Native 效能優化指南，涵蓋啟動緩慢、掉幀、重繪過重、記憶體洩漏、bundle 膨脹與動畫卡頓等問題。當你需要針對 Hermes、bridge overhead、FlashList、原生模組，或排查 release regression 時，它能提供有依據的修正方向。

性能优化

收藏 0GitHub 1.3k

swift-nio

作者 Joannis

swift-nio 是一個用於 SwiftNIO 後端開發的技能，涵蓋 server、client、pipeline、buffer、codec，以及 event-loop 安全的 async 程式碼。可用來處理 swift-nio 使用問題、protocol parsing、TCP/UDP 服務、NIOAsyncChannel 整合，以及排查 EventLoop 上的 blocking work。這是一份實用的 swift-nio 指南，著重正確的架構與實作方式。

後端开发

收藏 0GitHub 0

audit-website

作者 squirrelscan

audit-website skill 透過 squirrel CLI，依據 230+ 項規則稽核網站與 Web App，涵蓋 SEO、技術、內容、效能、安全性、連結與網站健康度，並回傳可直接供 LLM 使用、具體可執行的報告。

UX 稽核

收藏 0GitHub 68

autoresearch

作者 github

autoresearch 是一套用於程式開發任務的自主實驗迴圈，特別適合有可量化成果的情境。它會協助開發者先定義目標、基準、衡量指標與範圍，再透過以 git 檢查點為基礎的流程，反覆進行程式碼修改、測試，以及保留或還原變更的判斷。

工作流自動化

收藏 0GitHub 0

godot-gdscript-patterns

作者 wshobson

godot-gdscript-patterns 可協助 Godot 4 使用者產生與檢視更完善的 GDScript，涵蓋場景結構、signals、state machines、autoloads 與 async loading 等常見模式。適合用來把經驗驗證過的 Godot 架構導入遊戲系統、UI 流程與較易維護的專案程式碼。

前端开发

收藏 0GitHub 32.5k

pytorch-patterns

作者 affaan-m

pytorch-patterns 可協助你以裝置無關的模式、可重現的實驗，以及明確的 tensor 處理來撰寫、審閱與除錯 PyTorch 程式碼。這個 pytorch-patterns 技能適合用來打造更乾淨的訓練迴圈、重構模型，以及取得實用的 PyTorch 指引。

程式碼编辑

收藏 0GitHub 156.2k

nextjs-turbopack

作者 affaan-m

nextjs-turbopack 技能可協助你在 Next.js 16+ 中使用 Turbopack，以提升本機開發速度、HMR 與打包器決策效率。它可作為實用的 nextjs-turbopack 指南，涵蓋安裝、使用，以及在 Frontend Development 工作流程中何時切回 webpack。

前端开发

收藏 0GitHub 156.2k

jpa-patterns

作者 affaan-m

jpa-patterns 是一份實用的 JPA/Hibernate 指南，適用於 Spring Boot 後端開發。內容涵蓋 entity 設計、關聯關係、查詢調校、交易、稽核、分頁與 pooling，協助減少 ORM 常見錯誤並提升 persistence 效能。

後端开发

收藏 0GitHub 156.2k

rust-async-patterns

作者 wshobson

rust-async-patterns 是一項實用的 Tokio 非同步 Rust 技能，涵蓋 tasks、channels、streams、timeouts、cancellation、tracing 與 error handling，適合後端開發使用。

後端开发

收藏 0GitHub 32.6k

go-concurrency-patterns

作者 wshobson

go-concurrency-patterns 協助你以符合 Go 慣用法的方式運用並行模式，涵蓋 worker pools、pipelines、channels、sync primitives，以及以 context 為基礎的 cancellation。你可以依據 SKILL.md 的指引，用它來設計更安全的後端服務、排查 race conditions，並改善 graceful shutdown 的行為。

後端开发

收藏 0GitHub 32.6k

async-python-patterns

作者 wshobson

async-python-patterns 是一份實用指南，協助你為以 I/O 為主的 Python 系統選擇安全的 asyncio 模式。可用來掌握安裝與採用情境、檢視使用方式、避免阻塞 event loop，並在設計 async API、workers、scrapers 與後端服務時，妥善處理有限並發、取消機制，以及 sync 與 async 之間的取捨。

後端开发

收藏 0GitHub 32.6k