distributed-tracing

作者 wshobson

使用 distributed-tracing 技能，在 Jaeger 和 Tempo 环境中设计并讲解微服务间的请求追踪方案。内容涵盖安装基础、trace 与 span 概念、Kubernetes 部署模式、上下文传播，以及面向可观测性与延迟排障的实用用法。

Stars32.6k

收录时间2026年3月30日

分类可观测性

安装命令

npx skills add wshobson/agents --skill distributed-tracing

编辑评分

该技能评分为 68/100，说明它适合收录给希望系统了解 distributed tracing 的目录用户，但用户仍需自行补足一部分集成思路。仓库内容显示其围绕 Jaeger 和 Tempo 提供了真实的工作流内容、清晰的使用场景和实用示例；不过在分步骤执行结构、支持文件以及安装层面的具体指引上仍然偏弱，无法充分降低 agent 的试错和判断成本。

68/100

亮点

触发场景明确：描述和“何时使用”部分清楚对应微服务调试、请求链路分析、瓶颈定位和错误追踪等需求。
操作内容较扎实：技能中包含具体概念、代码块和配置示例，例如 Jaeger 的 Kubernetes 部署，而不是停留在占位式说明。
作为参考资料对 agent 有较高利用价值：它提供了 distributed tracing 领域术语，以及针对 Jaeger 和 Tempo 的平台化指导，比通用的 observability 提示更具可执行性。

注意点

采用门槛较高：缺少支持文件、脚本、参考资料或安装命令，agent 在执行这套流程时较难保持一致性。
工作流清晰度有限：由于 workflow 结构信号和约束说明较弱，用户往往需要自行推断执行顺序、前置条件以及与环境相关的具体选择。

分布式系统微服务 Sre Service Level Indicators Performance Kubernetes

概览

distributed-tracing skill 概览

distributed-tracing skill 用来帮助 agent 为微服务设计并讲清楚端到端请求追踪方案，重点围绕 Jaeger 和 Tempo 提供可落地的配置思路。它尤其适合正在做可观测性建设、延迟排障、请求链路分析，以及分布式系统中服务依赖关系梳理的团队。

这个 distributed-tracing skill 适合解决什么问题

当你的需求不只是“随便把 tracing 加上”时，就该用这个 distributed-tracing skill。它面向的是更实际的工作场景，比如：

为服务做埋点，让一个请求可以跨多个跳点被持续追踪
在 Kubernetes 中部署 tracing backend
理解和分析 traces、spans、context propagation 以及过滤逻辑
在多服务调用链中定位延迟热点或故障传播路径

谁适合安装它

这个 distributed-tracing skill 特别适合：

需要在集群里引入 tracing 的平台团队和 SRE 团队
排查微服务延迟问题的后端工程师
正在比较或实施 Jaeger 与 Tempo 的可观测性负责人
需要结构化指导、而不是泛泛 observability 提示词的 agent 使用者

如果你只是想了解 traces 和 spans 的基本定义，那它可能比你当前需要的更重一些。

它和通用 prompt 的区别在哪里

普通 prompt 也能从概念层面解释 distributed tracing，但这个 skill 更适合需要贴着实施流程来回答的场景：包括 trace 结构、核心概念，以及面向常见 observability 技术栈的部署示例。

它最核心的价值在于：把模型聚焦到面向 Observability 的 distributed-tracing，而不是把建议发散到 logging、metrics 或 APM 的大而全讨论里。

采用前你需要知道什么

这个 skill 很聚焦，也很轻量：从仓库内容来看，基本就是一个 SKILL.md，没有额外的辅助脚本、规则文件或参考资料。这意味着上手很容易，但你应当把它看作“指导”，而不是“自动化工具”。它能帮助 agent 更好地思考和回答，但不会附带安装器、校验器，或针对具体环境的检查能力。

如何使用 distributed-tracing skill

如何安装 distributed-tracing

使用下面的命令，从仓库安装 distributed-tracing skill：

npx skills add https://github.com/wshobson/agents --skill distributed-tracing

安装完成后，打开：

plugins/observability-monitoring/skills/distributed-tracing/SKILL.md

由于这个 skill 没有额外的支持文件，SKILL.md 就是最主要、也最权威的内容来源。

这个 skill 需要什么输入

如果你希望输出足够有用，就要给 agent 提供具体的系统上下文。distributed-tracing skill 在以下信息齐全时效果最好：

你的服务列表和请求路径
每个服务使用的 runtime 或 framework
部署目标，尤其是 Kubernetes 还是本地/dev 环境
tracing backend 偏好：Jaeger、Tempo，还是尚未决定
你要解决的具体问题：延迟、依赖关系映射，还是错误追踪
任何约束条件：成本、retention、sampling、现有 OpenTelemetry 使用情况

如果这些信息缺失，输出通常会停留在比较泛的层面。

如何把模糊目标改写成可用 prompt

较弱的 prompt：

Help me add distributed tracing.

更好的 prompt：

Use the distributed-tracing skill. I run 6 Kubernetes microservices behind an API gateway. We already use Prometheus and Grafana, but no tracing yet. I need to trace a checkout request across gateway, auth, cart, payment, and Postgres access. Recommend whether to use Jaeger or Tempo, show the trace flow we should expect, explain context propagation, and give a rollout plan that starts in staging.

为什么这个版本更好：

说明了运行环境
给出了真实的请求路径
交代了当前 observability 基线
要求做选择，而不只是解释概念
产出的内容更便于评审和落地

这个 skill 实际能帮助 agent 产出什么

在实际使用中，distributed-tracing 的常见产出通常包括以下几类：

tracing 架构建议
面向 Jaeger 的 Kubernetes 部署路径
偏向 Tempo 的 observability 方案
针对你的请求流解释 trace/span 结构
基于现有 trace 数据的瓶颈分析思路
服务间 context propagation 建议

当你希望模型把 tracing 概念和真实系统设计连接起来时，这类能力最有价值。

首次使用的推荐工作流

一个比较稳妥的工作流是：

先说明分布式系统结构和请求路径。
再说明你当前已有的 observability 技术栈。
让 agent 先为一个关键请求映射 traces 和 spans。
再要求 backend 的部署建议，通常是 Jaeger 或 Tempo。
复查 context propagation 可能在哪些地方断掉。
首轮结果出来后，再迭代 sampling、tags 和排障细节。

相比一步到位地要求“完整 observability 架构”，这个顺序通常能得到更好、更可执行的结果。

节省时间的仓库阅读顺序

建议按下面顺序阅读 SKILL.md：

Purpose
When to Use
Distributed Tracing Concepts
Trace Structure
各类 backend 配置章节，例如 Jaeger deployment

这样你会先建立决策上下文，再进入实施层面的结构理解。由于这个 skill 没有额外文档，花时间去找隐藏的支持材料，收益通常不大。

如何请求 Jaeger 或 Tempo 相关建议

如果你已经确定 backend，直接说清楚即可。如果还没定，就让 agent 按你的约束做比较。

示例：

Use the distributed-tracing skill to compare Jaeger and Tempo for a Kubernetes environment where we already use Grafana, need low operational overhead, and mainly want request debugging rather than long-term trace analytics.

这样的 prompt 往往能得到可用于决策的回答，而不是对两个工具做一层很浅的介绍。

哪些 prompt 细节能明显提高输出质量

尽量补充模型无法自行推断的信息：

ingress 路径以及异步跳点
服务是否已经会传播 headers
希望打上的 tags，例如 tenant、region、endpoint
预期流量规模，以便做 sampling 决策
你需要的是仅 dev 可见性，还是生产环境 tracing

对于 distributed-tracing 场景，这些输入会实质性影响 span 边界、存储策略，以及 rollout 顺序的建议。

常见采用阻碍

真正的阻碍通常不在安装本身，而在需求不够明确：

不知道应该先追哪一条请求链路
不确定当前问题更适合 tracing，还是 logs/metrics
服务之间缺少 context propagation
把需求泛化成“observability”，导致建议被稀释

这个 distributed-tracing 指南最有用的方式，是把范围收窄到一条具体请求旅程和一个 backend 决策上。

distributed-tracing skill 常见问题

这个 distributed-tracing skill 对新手友好吗？

友好，但前提是你已经大致理解自己的服务拓扑。这个 skill 会解释 traces、spans、tags、logs 和 context propagation 等核心概念，不过整体更偏向实施，而不是入门教程。如果你面对的是一个简单 monolith，它可能会显得有些过度。

什么时候应该用它，而不是普通 observability prompt？

当你明确需要看清跨服务的请求流时，就应该用 distributed-tracing skill。通用的 observability prompt 往往会把 logs、metrics、alerts、dashboards 和 tracing 混在一起回答；而这个 skill 的优势是让模型始终围绕 tracing 的决策和工作流来展开。

它会自动把 tracing 安装到我的集群里吗？

不会。安装 distributed-tracing skill，增加的是 agent 的指导能力，不是 operator 或部署脚本。这个 skill 会提供一些 setup 示例，但 manifests 的应用、服务埋点，以及结果验证，仍然要你在自己的环境中完成。

它是不是只适用于 Jaeger？

不是。Jaeger 是明确覆盖的内容，Tempo 也是这个 skill 定位的一部分。更合适的理解方式是：它是一个面向 Observability 的 distributed-tracing 指南，而 Jaeger 和 Tempo 是其中重点落地的 backend 目标。

哪些情况下它不太适合用？

以下情况可以跳过，或者只轻量参考：

你运行的是单进程应用或简单 monolith
你只需要 application logs
你需要的是某个 framework 的厂商级埋点说明
你期待这个 skill 单独完成自动环境发现

在这些场景下，更窄的 framework 文档或厂商集成指南通常会更快。

好的 distributed-tracing 使用方式是什么样的？

好的 distributed-tracing 使用方式，通常是从一笔真实事务开始，比如 login 或 checkout，然后定义预期的 spans、propagation 边界，以及 backend 配置。相比一上来就问“完整 tracing 策略”，先从具体请求流切入的团队通常能得到更好的结果。

如何改进 distributed-tracing skill 的使用效果

给这个 skill 一条请求路径，而不是一个模糊目标

提升效果最明显的一点，就是把输入说具体。不要只说“帮我看延迟”，而要像这样描述：

Use the distributed-tracing skill for this path: frontend → gateway → auth-service → order-service → payment-service → database. We see p95 latency spikes during checkout and want to know where to place spans and what tags to capture.

这样 agent 才能产出真正有用的 trace 模型，而不是泛泛的 observability 建议。

按实施顺序请求输出

分阶段提问，通常效果更好：

map the trace
define span boundaries
choose backend
outline deployment
identify troubleshooting checks

如果你一开始就把所有问题一起抛出来，回答通常会更宽泛、可执行性也更差。

尽早说明你的约束

当你尽早给出这些运行约束时，这个 skill 的效果会明显提升，比如：

现有 Grafana 技术栈
存储预算
retention 需求
流量规模
生产环境 sampling 顾虑
仅限 Kubernetes 的部署要求

这些约束会直接影响模型更偏向 Jaeger、Tempo，还是建议你采用更轻量的 rollout 方案。

留意常见失败模式

最常见的低质量输出通常有这些表现：

tracing 建议忽略了 context propagation
backend 推荐没有结合生态适配度
spans 设计过多，却没有讨论 sampling
图示很抽象，和你的真实服务结构对不上

如果你看到这些问题，就继续细化 prompt，补上服务名、预期调用顺序，以及当前 telemetry 技术栈。

让模型显式验证假设

一个很强的跟进 prompt 是：

Using the distributed-tracing skill, list the assumptions in your design and mark which ones I should verify before rollout.

这很有用，因为原始 skill 更偏重指导，本身并不包含自动检查或脚本。

通过要求比较和权衡来提升输出质量

如果你正在做采用决策，不要只问推荐哪个工具，也要让模型说清楚 tradeoffs。

示例：

Use the distributed-tracing skill to recommend Jaeger or Tempo for our platform, then give the top 3 reasons against the recommendation so we can review the tradeoffs.

相比单边式推荐，这类问法通常能得到更可信的回答。

在第一版回答后，围绕真实追踪目标继续迭代

拿到第一版后，可以继续用下面这类 refinement prompt：

“Now optimize for debugging error propagation.”
“Now optimize for low-overhead production sampling.”
“Now revise for a team already using Grafana.”
“Now focus on the minimum viable rollout for staging.”

这种迭代方式，通常比单纯要求模型“写得更详细”更能提高决策质量。

distributed-tracing skill 本身还可以怎样做得更好

从采用角度看，这个 skill 如果补充以下内容，会更强：

更明确的 Jaeger vs Tempo 决策标准
面向常见 observability 场景的示例 prompt 库
从 proof of concept 到 production 更清晰的 rollout 顺序
针对 context propagation 断裂的排障检查项
更具体的 framework 示例或 OpenTelemetry 映射

就目前来看，distributed-tracing skill 依然是一个易安装、也有实际价值的工具，但它很依赖用户提供足够的系统上下文，才能把指导真正转化为可部署的方案。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

configuring-suricata-for-network-monitoring

作者 mukul975

configuring-suricata-for-network-monitoring 技能可帮助部署和调优 Suricata，用于 IDS/IPS 监控、EVE JSON 日志记录、规则管理以及面向 SIEM 的输出。它适合用于 Security Audit 流程中的 configuring-suricata-for-network-monitoring 场景，尤其是在你需要可落地的部署、验证和降低误报时。

安全审计

收藏 0GitHub 0

auditing-tls-certificate-transparency-logs

作者 mukul975

auditing-tls-certificate-transparency-logs 技能可帮助安全团队监控自有域名的 Certificate Transparency 日志，发现未授权证书签发，识别证书暴露的子域名，并通过可重复执行的 Security Audit 工作流跟踪可疑 CA 活动。

安全审计

收藏 0GitHub 0

analyzing-docker-container-forensics

作者 mukul975

analyzing-docker-container-forensics 可通过分析 Docker 容器的镜像、层、卷、日志和运行时工件，协助调查已被入侵的容器，识别恶意活动并保全证据。适用于安全审计、事件复盘或容器加固评估。

安全审计

收藏 0GitHub 0

aws-serverless-eda

作者 zxkane

aws-serverless-eda 是一份面向 AWS 无服务器与事件驱动架构的后端开发指南。可用于设计 Lambda API、异步工作流、微服务、队列、发布/订阅和编排，涵盖 API Gateway、DynamoDB、Step Functions、EventBridge、SQS 和 SNS 等组件。它强调符合 Well-Architected 的决策、可观测性、安全性和部署规范。

后端开发

收藏 0GitHub 0

sentry

作者 openai

sentry skill 是一款只读的 Observability 工具，可用于查看 Sentry 的 issue、event 和 health 信号。你可以用它排查最近的生产错误、汇总影响范围，并通过结构化输出运行可重复的基于 CLI 的查询。它最适合需要一份实用的 sentry 分诊指南，而不是全面可观测性总览的场景。

可观测性

收藏 0GitHub 0

datadog-cli

作者 softaworks

datadog-cli 可帮助 agent 执行 Datadog CLI 工作流，处理 logs、traces、metrics、services 和 dashboards。你可以了解如何配置 DD_API_KEY 与 DD_APP_KEY，使用 `npx @leoflores/datadog-cli` 命令，并掌握 `--site` 的用法及 dashboard 更新的安全注意事项，以便进行 incident triage。

可观测性

收藏 0GitHub 0

building-cloud-siem-with-sentinel

作者 mukul975

building-cloud-siem-with-sentinel 是一份面向实践的指南，用于将 Microsoft Sentinel 作为云端 SIEM 和 SOAR 层来部署。它涵盖多云日志接入、KQL 检测、事件调查，以及面向 Security Audit 和 SOC 运营的 Logic Apps 响应 playbook。當你需要一个有 repo 支撑的起点来做集中式云安全监控时，可以使用这个 building-cloud-siem-with-sentinel skill。

安全审计

收藏 0GitHub 0

aws-cost-operations

作者 zxkane

aws-cost-operations 是一款用于 AWS 成本与运维的技能，可帮助估算费用、查看账单、监控 CloudWatch、检查 CloudTrail，并为运维决策提供建议。它尤其适合需要经过验证的 AWS 事实和可直接用于决策输出的财务、FinOps、平台团队和运维人员。

金融

收藏 0GitHub 0

canary-watch

作者 affaan-m

canary-watch 是一款发布后监控技能，用于在上线、合并或依赖更新后，对线上 URL 进行回归检查，适用于 staging 或 production 场景。

监控

收藏 0GitHub 156.1k

python-observability

作者 wshobson

python-observability 可帮助你为 Python 服务接入结构化日志、指标、链路追踪、correlation ID 以及有界基数模式，用于生产环境排障，并更稳妥地推进可观测性落地。

可观测性

收藏 0GitHub 32.6k

prometheus-configuration

作者 wshobson

prometheus-configuration 帮助你在 Kubernetes、Docker Compose 和服务器环境中安装并使用 Prometheus，完成抓取配置、数据保留、告警以及 recording rules 设置。

可观测性

收藏 0GitHub 32.6k

appinsights-instrumentation

作者 github

appinsights-instrumentation 用于为托管在 Azure 上的 Web 应用接入 Application Insights。它涵盖 App Service 自动插桩，以及 ASP.NET Core 和 Node.js 的手动配置，包括 connection string 与 IaC 更新。

可观测性

收藏 0GitHub 27.8k

analyzing-security-logs-with-splunk

作者 mukul975

analyzing-security-logs-with-splunk 通过将 Windows、防火墙、代理和身份验证日志关联成时间线与证据，帮助在 Splunk 中调查安全事件。这份 analyzing-security-logs-with-splunk skill 是面向安全审计、事件响应和威胁狩猎的实用指南。

安全审计

收藏 0GitHub 6.1k

azure-monitor-opentelemetry-ts

作者 microsoft

azure-monitor-opentelemetry-ts 可帮助你用 Azure Monitor 和 OpenTelemetry 为 Node.js 应用接入分布式追踪、指标和日志。使用这个 azure-monitor-opentelemetry-ts skill 来安装包、设置 `APPLICATIONINSIGHTS_CONNECTION_STRING`，并按正确的启动顺序完成自动埋点配置。

可观测性

收藏 0GitHub 2.3k

conducting-cloud-incident-response

作者 mukul975

conducting-cloud-incident-response 是一款面向 AWS、Azure 和 GCP 的云事件响应技能。它聚焦于基于身份的遏制、日志审查、资源隔离和取证证据采集。适用于可疑 API 活动、访问密钥泄露或云上工作负载被入侵等场景，当你需要一份实用的 conducting-cloud-incident-response 指南时尤其合适。

事件响应

收藏 0GitHub 0

building-threat-intelligence-platform

作者 mukul975

building-threat-intelligence-platform 适用于使用 MISP、OpenCTI、TheHive、Cortex、STIX/TAXII 和 Elasticsearch 设计、部署并评审威胁情报平台的技能。可用于安装指引、使用流程，以及基于仓库参考和脚本的 Security Audit 规划。

安全审计

收藏 0GitHub 0