python-resilience

作者 wshobson

python-resilience 是一項協助強化 Python 失敗處理安全性的指引型技能，涵蓋重試、指數退避、jitter、timeout 與有界重試視窗。可用來導入實用的外部呼叫韌性模式，並套用 tenacity 風格的包裝方式，讓重試規則更清楚一致。

Stars32.6k

評論0

加入時間2026年3月30日

分類可靠性

安裝指令

npx skills add wshobson/agents --skill python-resilience

編輯評分

這項技能評分為 78/100，對於需要 Python retry、timeout 與容錯模式的目錄使用者而言，是值得納入的穩健選項。從儲存庫內容來看，已具備實際可用的操作導向內容，包含明確的觸發情境、核心概念與程式碼範例，因此代理在套用時，推測所需成本會低於一般泛用提示；不過，由於缺少配套檔案、安裝指引與可執行的參考資產，實際採用信心仍會受到一些影響。

78/100

亮點

觸發條件清楚：frontmatter 與「When to Use This Skill」明確涵蓋 retries、timeouts、transient failures、rate limiting 與 circuit breakers。
實務價值不錯：技能內含 Quick Start，提供使用 tenacity 的具體 Python 程式碼，以及 exponential backoff、jitter、bounded retries 等韌性概念。
可獨立使用的內容相當完整：SKILL.md 篇幅充實、結構清楚，並非占位內容，透過多個標題涵蓋概念與工作流程導向的建議。

注意事項

未附支援檔案、腳本或參考資料，使用者需要自行把指引轉譯到自己的專案情境中，且沒有可直接執行的範例可依循。
SKILL.md 未提供 install command，也沒有 repository/file references，這會降低對相依套件、設定方式，以及這些模式應如何整合進實際程式碼庫的判斷信心。

Python 後端微服务分布式系统 API 工作流

總覽

python-resilience skill 概覽

python-resilience 能做什麼

python-resilience skill 可協助你設計在相依服務不穩定時，仍能更安全失敗的 Python 程式碼。它的重點是實用的韌性模式：重試、exponential backoff、jitter、timeout、具上限的重試時間窗，以及包住外部呼叫的容錯 wrapper。

哪些人適合安裝這個 skill

這個 python-resilience skill 特別適合開發者、平台團隊，以及正在處理會連到 API、資料庫、佇列或其他網路系統的 agent 使用者。尤其當你需要的不只是「加個 retry」，而是希望程式產生工具能幫你合理劃定失敗處理邊界時，它會很有價值。

這個 skill 真正解決的工作

大多數使用者並不需要一頁可靠性理論；他們需要的是能實際落地的 Python 模式，來回答像這些問題：

「這個錯誤該重試，還是應該立刻失敗？」
「在負載下，哪種 backoff 策略比較安全？」
「timeout 應該設在哪一層？」
「我要怎麼避免無限重試和 thundering herd？」
「這個外部呼叫應該用哪種 decorator 或 helper 包起來？」

python-resilience skill 的價值在於，它會把這些判斷明確攤開來處理，而不是把 retry logic 當成一行補丁草草帶過。

它和一般 prompt 有什麼不同

一般的 coding prompt 可能會到處加 retries，或忽略 transient failure 和 permanent failure 的差異。python-resilience for Reliability 則更有主張：只重試可重試的失敗、加入 jitter、限制嘗試次數與總時間，並把外部邊界視為放置韌性邏輯的主要位置。

原始內容實際涵蓋什麼

上游 skill 雖然只有一個 SKILL.md 檔案，但內容並不空泛。它主要聚焦於：

transient 與 permanent failures
exponential backoff
jitter
bounded retries
使用 tenacity 的實用 Python 範例

這代表它很輕量、容易檢視，也能快速採用；但也表示你應該把它視為指引，而不是現成打包好的 library 或測試框架。

什麼情況下這個 skill 很適合

當你正在做以下事情時，python-resilience 會很適合：

呼叫第三方 API
包裝不穩定的網路或服務互動
建構 microservices 或 workers
在共用 client utility 中加入可靠性控制
處理 rate limiting、暫時性中斷或間歇性 timeout

如果你的程式大多是單純的 in-process 邏輯，這個 skill 可能就不是最有槓桿的安裝選擇。

如何使用 python-resilience skill

python-resilience 的安裝情境

請從 wshobson/agents repository 安裝此 skill：

npx skills add https://github.com/wshobson/agents --skill python-resilience

安裝後，先打開 skill 檔案：

plugins/python-development/skills/python-resilience/SKILL.md

這個 repository 區域看起來只包含 skill 文件，因此採用流程很直接：先讀 skill，再把其中的模式套用到你自己的 codebase。

先讀哪個檔案

先從頭到尾讀一次 SKILL.md。最值得優先看的段落是：

When to Use This Skill
Core Concepts
Quick Start

這樣的閱讀順序，能讓你在請模型修改程式碼之前，先掌握適用情境、設計規則與實作輪廓。

這個 skill 需要你提供哪些輸入

python-resilience usage 的品質，高度取決於你提供的上下文是否完整。在啟用這個 skill 之前，先整理好以下資訊：

要保護的 function 或 service boundary
相依類型：HTTP API、DB、queue、cache、filesystem
觀察到的確切 exception 或失敗症狀
這些失敗屬於 transient 還是 permanent
timeout 預期
idempotency 限制
可接受的最大 latency
retry budget：嘗試次數或總時長
是否可能有大量 client 同時重試

缺少這些輸入時，模型常會產生範圍過大的 retry logic。

把模糊需求改寫成有力的 prompt

較弱的 prompt：

Add resilience to this Python API client.

較好的 prompt：

Use the python-resilience skill to refactor this Python client method.

Context:
- Dependency: third-party HTTP API
- Library: httpx
- Traffic: moderate, bursty
- Common failures: read timeout, connect timeout, occasional 429 and 503
- Permanent failures: 400, 401, 403 should not be retried
- Idempotency: safe to retry GET requests only
- SLO: fail within 8 seconds total
- Requirement: use bounded retries, exponential backoff with jitter, and clear logging

Task:
- Propose a retry policy
- Implement the wrapper/decorator
- Explain which exceptions and status codes are retryable
- Show where timeout configuration should live

這樣效果比較好，因為它提供了這個 skill 最擅長判斷的決策邊界。

先問 policy，再問程式碼

一個好的 python-resilience guide 使用流程通常是：

先請它做 failure classification
再請它提出 retry/timeout policy
檢視 tradeoffs
最後才產生實作程式碼

這能避免你還沒釐清哪些該重試、哪些不該重試，就直接跳進 decorator 實作。

把 skill 用在外部邊界

這個 skill 在處理跨 process 或網路邊界的程式碼時最有效，例如：

httpx 或 requests 呼叫
message 的發布或消費
已知存在 transient failure 模式的資料庫查詢
cloud SDK 呼叫
service client methods

不要一開始就把大型 business workflow 從頭到尾整段包起來。先把韌性控制放在最不穩定的相依點外圍。

好的 python-resilience 輸出應該包含什麼

當 skill 發揮得好時，輸出通常應該包含：

明確區分 transient 與 permanent failure 的規則
有限的 retry 上限
exponential backoff
jitter
timeout 的放置位置
使用 Python 工具（例如 tenacity）的範例
關於 idempotency 與 side effects 的說明

如果結果只寫「retry 3 次」，就應該進一步要求更明確的 retry policy。

實作上值得直接要求的模式

原始 skill 內含一個基於 tenacity 的 quick start。實務上，你可以直接要求像這些模式：

包在 service client method 外的 decorator
統一處理所有 outbound HTTP calls 的 wrapper helper
分開處理 read 與 write 的 retry policy
依 exception type 或 status code 過濾的 retries

對於 mutation 操作，記得要求模型說明為什麼可以安全重試。忽略 idempotency 的可靠性模式，很容易造成重複 side effects。

python-resilience 使用時常見的錯誤

請特別留意產生出的程式碼是否出現以下問題：

重試 authentication 或 validation failures
只有 retries，沒有 timeout
retry loop 沒有總預算上限
backoff 沒有 jitter
包了太多程式碼，反而掩蓋 root cause
預設重試 non-idempotent writes

這些才是真正在實務上會卡住你的問題，比 code style 更重要。

在你的 repo 中實用的工作流程

為了得到更好的結果，建議你提供這個 skill：

目前的 client function
你在 logs 中看到的 exception classes
範例 status codes
latency 或 retry budget
一到兩個具有代表性的 failure traces

然後再要求它輸出：

policy 摘要
code changes
應該補上的 tests
應記錄的 monitoring 欄位

這樣的順序通常比只要求程式碼，更容易得到可直接採用的輸出。

python-resilience skill 常見問題

python-resilience 只適用於 web API 嗎？

不是。python-resilience skill 處理的是廣義的「不穩定相依」。HTTP 呼叫只是最容易理解的例子；同樣的判斷方式也適用於 queues、databases、caches，以及常見 transient failures 的 cloud services。

它是 library，還是指引型 skill？

它是指引型 skill，不是獨立的 Python package。它會教你模式、展示實作風格，也包含基於 tenacity 的範例，但真正把這些模式落到你的 codebase 裡，仍然要由你自己完成。

什麼時候不該使用 python-resilience？

不要把 python-resilience 當成每個 function 上都要預設加的一層。以下情況就不太適合：

純 CPU-bound 的本機邏輯
明顯屬於 permanent 的錯誤
重試會造成不安全重複 side effects 的 workflow
latency budget 緊到無法容納 retry window 的系統

遇到這些情況，應該選擇 fail fast，或重新設計整合方式。

python-resilience 適合初學者嗎？

可以，只要你已經具備基本的 Python 與 exception handling 概念。這個 skill 的核心想法並不難懂，但使用者仍然需要提供業務脈絡，例如 retry 是否安全、timeout 預算有多少，以及哪些失敗是可以接受重試的。

它比直接叫 LLM 幫我加 retries 好在哪裡？

python-resilience for Reliability 的優勢不只是產生程式碼。它能幫模型一起推理 failure 類型、bounded retries 與 backoff 行為。一般 prompt 常常忽略這些邊界，最後產生在負載下不安全、或過度吵雜的 retry logic。

python-resilience 會直接幫我選好精確的 retry policy 嗎？

不會自動決定。它提供的是一套很強的模式語彙，但最佳 policy 仍取決於你的相依行為、latency 要求與 idempotency 規則。你應該預期需要依照環境調整 attempts、wait ranges 與 retry filters。

如何改善 python-resilience skill 的使用效果

先把 failure classification 提供得更清楚

提升 python-resilience 結果品質最快的方法，就是明確指出哪些失敗是 transient、哪些是 permanent。例如：

transient: ConnectTimeout, ReadTimeout, 503, 部分 429
permanent: 400, 401, 403, schema errors, bad credentials

這個單一區分，通常就足以決定產生出的 policy 是否安全。

提供 latency 與 retry budget

如果你沒有提供預算，模型很可能會隨意選擇 retry 次數。請直接說清楚限制，例如：

最多 3 次 attempts
總 retry window 不超過 8 秒
單次 request timeout 2 秒
background job 可容忍總計 30 秒

這些限制會讓產生的程式碼更貼近真實情境。

告訴它操作是否具備 idempotent 特性

許多韌性設計錯誤，都是因為缺少 side-effect 上下文。若想改善 python-resilience usage，請把操作標記為：

可安全重試
只有搭配 idempotency key 才安全
不可自動重試

這會同時影響 decorator 設計與 exception filters。

要求它明確列出不可重試規則

不要只問「哪些應該重試？」也要問：

哪些應該 fail fast？
哪些應該立刻回傳給呼叫端？
哪些只需要記錄 log，不應重試？

這會讓輸出更接近可直接上線的實務內容。

要求實作同時具備 observability

好的 python-resilience guide 不該只停在 decorators。請要求模型同時加入：

logs 中的 attempt count
exception type
elapsed time
最終失敗原因
retry exhaustion 訊息

否則你的 resilience layer 很可能會把呼叫失敗的真正原因藏起來。

在第一版之後持續迭代

拿到第一版輸出後，請用具體回饋繼續收斂，例如：

「不要重試 POST requests。」
「限制總時間，不要只限制 attempts。」
「429 和 500 要分開處理。」
「加入 jitter，避免同步重試。」
「把 timeout config 和 retry config 分開。」

這類迭代通常能明顯改善最終實作。

測試這個 skill 提出的失敗路徑

請要求模型產生以下測試：

transient exception 的 retries
permanent exception 的 fast-fail 行為
retry exhaustion
timeout enforcement
backoff policy 的邊界

沒有經過測試的 resilience code 很容易被錯誤設定，也很難真正建立信心。

用真實 traces 改善 skill 輸出

如果你有 logs 或 stack traces 範例，請一併提供。真實的 failure 證據，能幫助 python-resilience 比抽象 prompt 更精準地建議 exception filters，以及更可信的 timeout/backoff 設定。

把抽象層級維持在適中範圍

常見失敗模式之一，是明明只需要一個可靠的 client wrapper，卻要求 skill 設計整套完整的 resilience framework。建議從小處開始：

一個 function
一個 dependency
一套 retry policy

等這個模式證明有效後，再逐步擴大。

把 python-resilience 當成檢查既有程式碼的審查視角

即使你已經寫好程式碼，python-resilience 仍很適合拿來做 reviewer prompt。你可以請它檢查既有 retry logic 是否有：

無上限 retries
缺少 jitter
timeout 放錯位置
重試了 permanent failures
隱藏的 side-effect 風險

在成熟的 codebase 中，這種偏審查用途的用法，往往才是這個 skill 最有價值的切入點。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

error-handling-patterns

作者 wshobson

error-handling-patterns 可協助團隊判斷何時該用 exceptions 或 Result types、如何分類失敗、傳遞上下文，以及設計優雅降級，進而打造更可靠的 API 與服務。

可靠性

收藏 1GitHub 32.6k

on-call-handoff-patterns

作者 wshobson

了解 on-call-handoff-patterns 技能，讓值班交接更可靠順暢。可用於整理事故交接內容，記錄目前進行中的問題、近期變更、升級處理狀態，以及 Reliability 團隊的下一步行動。

可靠性

收藏 0GitHub 32.5k

incident-runbook-templates

作者 wshobson

incident-runbook-templates 可協助團隊建立結構化的事件應變 runbook，針對服務中斷與營運 Playbooks，提供清楚的初步研判、緩解、升級通報、溝通與復原步驟。

操作手册

收藏 0GitHub 32.5k

upgrade-stripe

作者 stripe

upgrade-stripe 指南，協助在真實程式碼庫中升級 Stripe API 版本、伺服器端 SDK、Stripe.js 與行動端 SDK，並提供 Backend Development 的實作步驟。

後端开发

收藏 0GitHub 1.5k

slo-implementation

作者 wshobson

使用 slo-implementation skill 來定義可靠性工作的 SLI、SLO、錯誤預算與 burn-rate 警示。它能協助團隊把服務目標轉成可衡量的指標，並提供 PromQL 風格範例與來自 SKILL.md 的實務指引。

可靠性

收藏 0GitHub 32.6k

istio-traffic-management

作者 wshobson

istio-traffic-management 協助團隊撰寫 Istio 流量策略，如 VirtualService、DestinationRule、Gateway、ServiceEntry，涵蓋金絲雀、重試、斷路器與鏡像流量。用它把部署意圖轉成清楚的路由與韌性清單，並提供實用提示與審查檢核。

部署

收藏 0GitHub 32.6k

linkerd-patterns

作者 wshobson

linkerd-patterns 可協助團隊將 Linkerd 模式套用到 Kubernetes 工作負載，涵蓋 mTLS、sidecar injection、traffic splits、retries、timeouts、service profiles，以及以 Deployment 為基礎的 rollout 所需的 multi-cluster 規劃。

部署

收藏 0GitHub 32.6k

frontend-design

作者 anthropics

frontend-design 協助你把模糊的 UI 構想變成具有明確美感方向的獨特、可上線前端介面，產出真實可用的 frontend 程式碼，減少千篇一律的 AI 風格。

UI 設計

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可將同事文件、聊天紀錄、電子郵件、截圖、Feishu 與 DingTalk 資料整理成可編輯的 AI 技能，並分別產出工作與人物設定內容，也提供後續持續優化的更新流程。

Skill 編寫

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能，用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時，可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態，以及場景轉場。它更重視版面配置、時間安排與動畫決策，而不是泛用的、只靠提示詞的影片需求。

视频编辑

收藏 0GitHub 2.7k

kreuzberg

作者 kreuzberg-dev

這個 kreuzberg 技能可協助你安裝並使用 Kreuzberg 進行文件擷取，支援 91 種以上格式，包括 PDF、Office 檔案、圖片、HTML、電子郵件與壓縮檔。內容涵蓋 Python、Node.js/TypeScript、Rust 與 CLI 工作流程，適用於 OCR、表格、中繼資料、批次處理，以及實務解析指引。

PDF 处理

收藏 0GitHub 0

skill-creator

作者 anthropics

skill-creator 是一個用於撰寫技能的 meta-skill，可協助起草新技能、修改既有 `SKILL.md`、執行 eval、比較不同版本，並透過 repository 腳本與審查工具優化觸發描述。

Skill 編寫

收藏 2GitHub 105.1k

azure-identity-py

作者 microsoft

azure-identity-py 可協助你在 Python 中使用 Microsoft Entra ID 設定 Azure 驗證。可用來選擇 DefaultAzureCredential、managed identity 或 service principal 驗證，設定環境變數，並排除存取控制與 credential chain 問題。安裝指引、使用模式與實用設定說明皆根據 repo skill file 整理而成。

存取控制

收藏 0GitHub 2.2k

claude-api

作者 anthropics

claude-api 是一個實用技能，協助安裝並使用 Claude API 與 Anthropic SDK。它可幫助開發者在 SDK 與原生 HTTP 方案間做選擇、辨識對應語言文件，並以較少摸索完成串流、工具使用、檔案、批次與錯誤處理。

API 开发

收藏 0GitHub 105k

wrangler

作者 cloudflare

wrangler 技能可協助你找到 Cloudflare Workers 正確的 CLI 指令、設定結構與部署步驟。適合用在 wrangler 的使用方式、wrangler 安裝檢查，以及在為 Backend Development 建置或交付 Workers 時，取得實用的 wrangler 指南。

後端开发

收藏 0GitHub 1.3k

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是一個用於資料庫工程的 ClickHouse 最佳實務技能。它以規則式建議引導 schema 設計、查詢調校、寫入策略與 agent 連線，讓 clickhouse-best-practices 在 ClickHouse 工作流程中的使用更容易被觸發、審查與引用。

資料庫工程

收藏 0GitHub 412