temporal-python-testing

作者 wshobson

temporal-python-testing 帮助团队用 pytest 测试 Temporal Python workflows，涵盖 time-skipping、mocked-activity 集成测试、replay testing 和本地环境搭建指导，便于更稳妥地迭代 workflow 变更并接入 CI。

Stars32.6k

收录时间2026年3月30日

分类测试自动化

安装命令

npx skills add wshobson/agents --skill temporal-python-testing

编辑评分

该技能评分为 78/100，说明它是面向 Temporal Python 测试场景的代理工具目录中一个较可靠的收录候选。仓库提供了清晰的使用触发场景、实用的测试分类，以及围绕单元测试、集成测试、replay testing 和本地环境配置的大量示例化指导；不过，用户仍需自行补齐部分项目级 wiring 和安装细节。

78/100

亮点

触发场景明确：`SKILL.md` 清楚说明其适用于 Temporal Python 的单元测试、集成测试、replay、本地开发以及测试失败排查等工作流。
实操深度较好：资源文件提供了具体的 pytest、WorkflowEnvironment、Worker、mocking、replay 和 Docker Compose 示例，而不只是停留在高层建议。
渐进式引导清晰：主技能内容会把用户导向更聚焦的资源，分别覆盖单元测试、集成测试、replay testing 和本地环境搭建。

注意点

`SKILL.md` 中没有提供安装命令或明确的配置检查清单，因此在采用时，用户需要自行判断依赖项和环境准备方式。
现有内容更偏重示例，而不是决策规则或约束条件；在一些边界场景下，代理可能需要自己推断应选择哪种测试策略。

Python 测试后端工作流 Docker Postgres Ci Cd

概览

temporal-python-testing skill 概览

temporal-python-testing skill 能做什么

temporal-python-testing skill 的价值不只是帮你写几个通用的 pytest 示例，而是帮助你为 Temporal Python workflows 设计并运行更可靠的测试。它面向的是工作流占比较高的系统团队：既需要快速反馈，也需要安全重构，还要确保 workflow 代码始终保持 determinism。

谁适合安装

这个 skill 特别适合以下人群：

已经在使用 Temporal 的 Python 开发者
正在为 workflow 代码补测试覆盖的团队
在排查 flaky Temporal 测试的工程师
在上线前审核 workflow 变更的评审者
需要 temporal-python-testing for Test Automation，而不是临时拼凑 prompt 建议的人

如果你还在比较不同 workflow engine，或者项目本身并没有使用 Temporal Python SDK，那它的帮助就会相对有限。

它真正解决的是什么问题

大多数用户并不只是想要“一个测试”。他们真正想快速回答的是这些实际问题：

不依赖真实时间，怎么测试 workflow 逻辑？
什么时候该 mock activities，什么时候该跑更完整的 worker 测试？
在部署 workflow 变更前，怎么检查 determinism？
本地和 CI 要怎么搭环境，测试才能稳定一致地跑起来？

temporal-python-testing skill 的价值，在于它把这些决策整理成几类明确的测试方式：带 time-skipping 的 unit testing、使用 mocked activities 的 integration testing、用于兼容性验证的 replay testing，以及本地环境搭建指导。

它和通用 Temporal 提示词有什么不同

普通 prompt 当然也能生成示例代码，但这个 skill 提供的是更清晰的测试策略：

它围绕 Temporal 特有的测试边界来组织建议
它把 integration tests 作为默认主力方案来推动
它包含 replay testing，而很多通用回答往往会漏掉这一层
它会把你引导到更聚焦的资源文件，而不是塞给你一篇大而全的单一文档

这让它更适合做安装决策，也更适合那些想把 workflow 测试方式标准化的团队。

决定安装前先看什么

如果你正在评估 temporal-python-testing，建议先按下面顺序看这些文件：

SKILL.md
resources/unit-testing.md
resources/integration-testing.md
resources/replay-testing.md
resources/local-setup.md

这个阅读顺序基本对应最常见的采用路径：先拿到本地快速测试，再做 orchestration 测试，最后补上部署前的安全保障。

如何使用 temporal-python-testing skill

如何安装 temporal-python-testing

从 wshobson/agents 仓库安装：

npx skills add https://github.com/wshobson/agents --skill temporal-python-testing

由于这个仓库把该 skill 存放在 plugins/backend-development/skills/temporal-python-testing 下，安装后要确认你的工具确实可以访问这个 repo path。

第一次使用时的最佳起步流程

第一次上手不要一口气全读完。更推荐按这个顺序来：

先看 SKILL.md，了解范围和测试方法论。
如果你当前最急的是做快速 workflow 测试，就打开 resources/unit-testing.md。
如果你需要 mocked activities 和基于 worker 的测试，就看 resources/integration-testing.md。
如果你要修改已经被线上执行见过的 workflow 代码，先看 resources/replay-testing.md。
如果卡点在环境而不是测试设计，就去看 resources/local-setup.md。

这条路径能有效缓解大家常遇到的“Temporal 测试选项太多，不知道先用哪个”的问题。

这个 skill 需要你提供哪些输入

temporal-python-testing usage 的输出质量，非常依赖你提供的细节。建议至少带上这些信息：

workflow class 名称
activity 名称及其 side effects
这次要做的是 unit、integration 还是 replay 测试
当前技术栈：pytest、temporalio、Docker、本地 Temporal server
失败模式：timeout、nondeterminism、mock setup、worker registration、flaky assertions
你希望达到的置信级别：本地开发、CI，还是部署前兼容性检查

如果没有这些上下文，输出通常会停留在比较泛的层面。

把模糊目标改写成高质量 prompt

弱 prompt：

“Help me test a Temporal workflow in Python.”

更好的 prompt：

“Use the temporal-python-testing skill to propose pytest tests for a Temporal Python workflow that waits on timers, calls two activities, and must stay deterministic across deployments. I want a fast local test, an integration test with mocked activities, and guidance on replay testing before release.”

最佳 prompt：

“Use the temporal-python-testing skill. I have OrderWorkflow.run(order_id) that sleeps for retries, calls charge_card and send_receipt, and currently fails in CI. Generate a test plan using pytest async fixtures, WorkflowEnvironment.start_time_skipping(), mocked activity patterns where appropriate, and a replay testing step for deployment safety. Explain what should be unit tested versus integration tested.”

这些更强的写法之所以效果更好，是因为它们会强制 skill 进入正确的测试模式，而不是只给你泛泛的样例。

这个 skill 主要围绕哪些使用模式构建

从仓库内容来看，实际可落地的使用路径主要有四条：

Unit testing

当你需要快速验证 workflow 行为、timers 和分支逻辑时使用。这个 skill 会指向 WorkflowEnvironment.start_time_skipping()，让长时间等待可以瞬间完成。

Integration testing

当你想验证 worker registration 和 workflow orchestration，同时 mock 外部 activity 行为时使用。这也是大多数 workflow 逻辑最推荐的默认测试方式。

Replay testing

在发布可能影响已运行 execution 的 workflow 代码变更前使用。这部分对生产安全的价值最高。

Local setup

当你的真正阻碍不是测试设计，而是如何让 Temporal server、UI 和 pytest 环境稳定跑起来时使用。

这个 skill 隐含推荐的测试策略

temporal-python-testing guide 并不是对各种测试策略一视同仁。它明显更偏向：

以 integration tests 为主
unit tests 用于隔离的 workflow 行为和 activity 逻辑
end-to-end tests 谨慎少量使用
replay tests 用于向后兼容和 determinism 检查

这种倾向其实很有用，因为它能避免团队把精力过度投入到缓慢又脆弱的 end-to-end 测试套件里。

实际安装环境与依赖前提

这个 skill 本身更偏文档与方法指导，但它默认你的项目至少能支持：

使用 pytest 的 Python 项目
Temporal Python SDK
async 测试执行
在测试中完成 worker setup
可选的基于 Docker 的本地 Temporal 开发/CI 环境

从这些资源文件来看，本地环境通常会涉及 Docker Compose，连同 Temporal、Postgres 和 Temporal UI 一起跑起来。如果你的团队没法在本地或 CI 里运行 Docker，最好尽早确认，因为这会直接影响你能有多少内容可以原样采用这个 skill。

你可以让它产出哪些结果

高质量的 temporal-python-testing usage 请求通常像这样：

“Generate a pytest fixture for time-skipping workflow tests.”
“Show how to mock activities in a worker-based integration test.”
“Design replay tests for multiple stored workflow histories.”
“Recommend a split between unit, integration, and end-to-end tests for this workflow.”
“Help debug a nondeterminism failure after refactoring a workflow.”

这些都比笼统地要“test examples”更有效。

立刻提升输出质量的技巧

明确写出你要测试的 workflow entrypoint。
说明 activities 是要 mock 还是真实执行。
提到 timers、retries、signals 或长时间等待。
说明这个 workflow 是否已经有生产历史。
如果 replay 或 worker startup 失败，把当前报错一并贴上。

Temporal 测试问题通常卡在边界，而不是语法。你把边界描述得越清楚，这个 skill 就越有用。

这个 skill 最省时间的地方

它最大的价值不在于生成模板代码，而在于帮你避开一些非常常见的错误方向：

只写 end-to-end tests
对 timer-heavy workflow 没有使用 time-skipping
mock 过多或过少
在 workflow 变更前跳过 replay testing
把本地环境问题和测试设计问题混在一起处理

如果这些正是你团队现在的痛点，那么安装 temporal-python-testing 大概率是值得的。

temporal-python-testing skill 常见问题

temporal-python-testing 适合新手吗？

适合，但前提是你已经懂基础 pytest 和基础 Temporal 概念；如果这两者你都刚入门，那就不太合适。这个 skill 默认你已经理解 workflows、activities、workers 以及 async Python，至少能把测试放到正确层级。

它比直接问 LLM 要 Temporal 测试代码更好吗？

通常是的，尤其在真实项目里更明显。通用 prompt 往往会漏掉 Temporal 特有的问题，比如 determinism、replay validation 和 time-skipping。temporal-python-testing skill 更适合那些“正确性比快速样例更重要”的场景。

它会专门帮助 replay testing 吗？

会。这恰恰是使用 temporal-python-testing 最强的理由之一。仓库里有专门的 resources/replay-testing.md，重点就是用已记录的 event histories 来验证 workflow 变更。

什么情况下不该用 temporal-python-testing？

以下情况可以跳过：

你并没有使用 Temporal Python
你只需要一个很基础的 pytest 复习
你的问题是通用 mocking，而不是 workflow 行为
你更需要的是生产架构建议，而不是测试建议

它本身就是一个高度专门化的 skill，而这种专门性只有在问题匹配时才是优势。

它覆盖本地 Temporal 环境搭建吗？

覆盖。resources/local-setup.md 提供了基于 Docker Compose 的本地搭建模式，涉及 local Temporal server、Postgres 和 UI。如果你的测试需要更完整的开发环境，这部分会很关键。

它主要是给 unit tests 用的吗？

不是。原始资料里明确把 integration tests 定位为主要测试方式，而 unit tests 和 end-to-end tests 更偏选择性使用。如果你的团队只想做隔离的 unit tests，那你实际上只会用到这个 skill 的一部分。

temporal-python-testing 能帮到 CI 吗？

能，尤其适用于：

workflow 自动化测试套件
面向覆盖率的测试策略
部署前 replay 检查
跨机器保持一致的环境搭建

这个 skill 不直接提供 CI scripts，但它提供的是能被你落实进 CI pipeline 的测试模式和组织方法。

如何提升 temporal-python-testing skill 的使用效果

先明确你需要的是哪一种测试

想让 temporal-python-testing 更快给出高质量结果，最有效的方法就是一开始先说明你属于哪一条路径：

unit test
integration test
replay test
local setup/debugging

如果不先选，回答很容易把多种模式混在一起，反而增加后续整理成本。

提供 workflow 级细节，而不是只讲架构概况

差的输入：

“We have a Temporal-based order system.”

更好的输入：

“OrderWorkflow waits for payment confirmation, retries every hour, calls charge_card, and emits a receipt activity. We need tests for timeout handling and replay safety after refactoring retry logic.”

这会显著改变答案质量，因为 timer 行为、activity orchestration 和兼容性关注点都被明确说出来了。

告诉这个 skill 目前到底哪里坏了

以下这些常见失败模式里，这个 skill 都能给出更有针对性的帮助：

代码变更后出现 workflow nondeterminism
worker 没有注册到预期的 activity 或 workflow
mocked activity assertions 没有触发
长时间 timers 导致测试过慢
本地 Temporal 环境无法正常启动
搞不清哪些该做 unit test，哪些该做 integration test

优先先说失败点，而不只是描述理想终态。

有选择地使用资源文件

一个很常见的误区，是把整个 skill 当成一篇文档从头看到尾。更好的方式是按场景取用：

用 resources/unit-testing.md 处理 time-skipping fixtures 和隔离行为
用 resources/integration-testing.md 处理以 mock 驱动的 orchestration 测试
用 resources/replay-testing.md 处理部署安全检查
只有当环境问题卡住执行时，再看 resources/local-setup.md

这样能减少上下文噪音，也更容易得到相关性更高的帮助。

不要只要代码，也要让它解释取舍

一个高质量的 temporal-python-testing guide prompt，应该要求模型说明测试层级为什么这么选：

为什么这里是 integration test，而不是 unit test？
哪些 activities 应该 mock，哪些应该保留真实执行？
哪些代码变更必须做 replay testing？
哪些检查应该放在 CI，哪些只适合本地跑？

这些问题比单纯要代码片段，更能产出可持续的测试策略。

在 prompt 里加入真实约束

可以直接写出这些约束：

CI runtime 限制
开发者电脑上不能用 Docker
是否有生产 histories 可用
是否需要达成覆盖率目标
外部依赖是否 flaky
是否有多个 workflows 共享 activities

这些约束会迫使 skill 推荐你真正能落地的模式，而不是纸面上好看的方案。

第一轮输出后继续迭代

拿到第一版结果后，可以继续这样追问：

“Convert this into pytest fixtures.”
“Reduce this to the minimum deterministic test set.”
“Show where to use mocked activities versus real ones.”
“Add replay testing for existing workflow histories.”
“Rewrite for our exact workflow names and task queues.”

第一轮回答通常更像策略草稿；第二轮开始，temporal-python-testing skill 往往才会进入真正可实施的状态。

留意最常见的采用陷阱

最大的误区，是以为一种测试风格就能解决所有问题。Temporal 代码通常需要分层组合：

用快速的 time-skipping tests 验证 workflow 逻辑
用 integration tests 建立 orchestration 置信度
用 replay tests 保证演进过程安全

如果你带着这种分层思路去使用这个 skill，产出的内容会更可执行，也会更贴近真实生产需求。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

playwright-interactive

作者 openai

playwright-interactive 是一项浏览器自动化技能，适用于本地 Web 和 Electron 应用中的持久 Playwright 会话。它可用于检查 UI 状态、重试交互，以及在不重启工具链的情况下执行功能或视觉 QA。非常适合需要一份实用的 playwright-interactive 迭代调试指南的场景。

浏览器自动化

收藏 0GitHub 0

playwright-skill

作者 testdino-hq

playwright-skill 是一份面向 Playwright 的可靠浏览器自动化指南。它帮助团队编写、调试并扩展 E2E 流程、API 检查、组件测试、视觉回归、可访问性、认证、CI/CD，以及从 Cypress 或 Selenium 迁移的测试。需要的不是泛泛的测试建议，而是可直接落地的实践模式时，就用 playwright-skill。

测试自动化

收藏 0GitHub 0

laravel-tdd

作者 affaan-m

laravel-tdd 是一份面向 Laravel 的测试驱动开发指南，覆盖 PHPUnit 和 Pest。它帮助你选择单元测试、功能测试和集成测试，制定数据库策略，使用 fake，并设定覆盖率目标，形成一套实用的测试自动化工作流。

测试自动化

收藏 0GitHub 156.2k

cpp-testing

作者 affaan-m

cpp-testing 技能可帮助你使用 GoogleTest、GoogleMock、CMake 和 CTest 编写、运行并调试 C++ 测试。它适用于覆盖率分析、修复 flaky test、借助 sanitizer 进行诊断，以及在现代 C++ 项目中更高效地使用 cpp-testing。

测试自动化

收藏 0GitHub 156.1k

test-driven-development

作者 addyosmani

test-driven-development 技能帮助你通过先写一个会失败的测试，再做最小修改让它通过来改代码。适用于逻辑变更、修复 bug、回归问题和边界场景——当你更看重可验证的证据，而不是看起来合理的补丁时尤其合适。

Skill 测试

收藏 0GitHub 18.8k

wp-playground

作者 WordPress

wp-playground 技能可帮助你创建一次性、可复现的 WordPress Playground 环境，用于插件和主题测试、版本切换、blueprints、快照以及隔离式调试。它通过 `@wp-playground/cli` 支持浏览器或 CLI 工作流，尤其适合后端开发、QA 和受控问题复现。

后端开发

收藏 0GitHub 1.4k

playwright-best-practices

作者 currents-dev

playwright-best-practices 是一项面向 Playwright + TypeScript 的技能，聚焦编写稳定测试、减少 flaky 问题、优化认证流程、判断 fixtures 与 page objects 的取舍，并基于仓库中的实战指导覆盖 CI、popups、mobile、iframes、websockets 和多用户场景。

测试自动化

收藏 0GitHub 174

playwright-skill

作者 lackeyjb

playwright-skill 是一个浏览器自动化 skill，适合用于测试页面、填写表单、检查链接、截图、验证响应式布局，以及处理登录或结账流程。它能自动检测开发服务器，使用通用执行器，并帮助你以更少的配置和猜测运行可靠的 Playwright 任务。

浏览器自动化

收藏 0GitHub 0

property-based-testing

作者 trailofbits

用于在多种语言和智能合约中编写、审查和改进 PBT 的 property-based-testing 技能指南。使用这份 property-based-testing 指南来识别 roundtrip、idempotence、invariant、parser、validator 和 normalization 场景，选择 generators，并判断何时 property-based-testing 比 example-based tests 更有优势。

Skill 测试

收藏 0GitHub 5k

terraform-test

作者 hashicorp

terraform-test 是一份实用指南，教你如何使用 `.tftest.hcl` 文件、`run` 块、断言、mock，以及适合 CI 的工作流来编写和运行 Terraform 测试。可用于在合并前验证 module 输出、资源参数、条件逻辑以及 plan 或 apply 行为。

代码生成

收藏 0GitHub 583

browser-testing-with-devtools

作者 addyosmani

browser-testing-with-devtools 可让智能体通过 Chrome DevTools MCP 测试并调试真实浏览器中的行为。你可以用它检查 DOM、捕获 console 报错、分析网络请求、进行性能分析，并在真实浏览器环境中验证修复是否生效。

测试自动化

收藏 0GitHub 18.7k

ios-simulator-skill

作者 conorluddy

ios-simulator-skill 是一款面向任务的 iOS Simulator skill，支持基于可访问性的应用启动、导航、文本输入、手势操作、截图、状态捕获、构建/测试循环以及 Simulator 生命周期控制。它旨在为 AI 代理、QA 工程师和开发者减少在可重复的 iOS 测试自动化中的试错成本。

测试自动化

收藏 0GitHub 0

autoresearch

作者 github

autoresearch 是一套面向编码任务的自主实验循环，适用于结果可衡量的场景。它帮助开发者先明确目标、基线、指标和范围，再借助由 git 检查点支撑的流程，在代码修改、测试以及保留或回退决策之间持续迭代。

工作流自动化

收藏 0GitHub 0

atheris

作者 trailofbits

Atheris 是一个基于 libFuzzer 的覆盖引导式 Python 模糊测试技能。使用 atheris 技能可以对纯 Python 代码和 Python C 扩展进行 fuzz 测试，发现崩溃、卡死和内存安全问题，并为 Security Audit 工作流提供快速、实用的 harness 指导。

安全审计

收藏 0GitHub 5k

playwright-cli

作者 VoltAgent

playwright-cli 是一个通过命令行使用 Playwright 进行浏览器自动化的技能。它可用于打开页面、检查元素、按流程点击、填写表单、截取截图、模拟请求，以及根据真实交互生成测试代码。适合需要可重复执行的浏览器自动化和 UI 测试场景。

浏览器自动化

收藏 0GitHub 8.5k

playwright

作者 openai

使用 playwright skill 通过终端和一个包装脚本、`playwright-cli` 来自动化真实浏览器。它适合导航、表单填写、截图、快照、内容提取和 UI 流调试等浏览器自动化任务。先检查 `npx`，安装该 skill，设置 `PWCLI`，然后按 CLI 优先的工作流执行。

浏览器自动化

收藏 0GitHub 0