grafana-dashboards

grafana-dashboards 可帮助智能体为可观测性场景设计生产可用的 Grafana 仪表板。你可以用它规划基于 RED 和 USE 方法的布局、确定面板层级，并为 Prometheus 风格指标起草仪表板结构。

Stars32.6k

收录时间2026年3月30日

分类可观测性

安装命令

npx skills add wshobson/agents --skill grafana-dashboards

编辑评分

该技能评分为 68/100，说明它可以收录给想寻找 Grafana 仪表板设计指导的目录用户，但更适合预期为一份以文档说明为主的技能，而不是具备完善运维护栏的可执行工作流。仓库内容足以帮助理解其使用场景和可能产出，但部分实现细节与是否采用，仍需要用户自行判断。

68/100

亮点

触发场景清晰：描述和“何时使用”部分明确覆盖监控仪表板、Prometheus 可视化、SLO 仪表板、基础设施监控和 KPI 跟踪等场景。
工作流内容扎实：该技能包含信息层级、RED 与 USE 方法等仪表板设计原则，并提供了用于说明仪表板结构的具体 Grafana JSON 示例。
内容足够充实，不只是通用提示词：较长的 `SKILL.md` 包含多个章节、标题、代码块和仓库引用，说明它提供的是可复用的仪表板模式，而非占位式草稿。

注意点

运维可执行性中等而非很强：没有 install 命令、没有配套支持文件，也缺少把示例接入真实 Grafana 环境所需的明确约束或实操检查清单。
适用范围比标题暗示的更窄：现有证据表明它主要提供设计思路和示例指导，而不是可用于稳定完成端到端创建或更新仪表板的脚本、API 辅助工具或校验资产。

Grafana Dashboard Prometheus Metrics 报告制作

概览

grafana-dashboards 技能概览

grafana-dashboards 能做什么

grafana-dashboards 技能用于帮助代理为可观测性场景设计并起草偏生产环境风格的 Grafana dashboard。它的重点不是给你一个模糊提示后产出一堆泛泛的图表想法，而是把“展示 API 健康状况”或“跟踪基础设施饱和度”这类监控目标，落成更合理的 dashboard 结构，包括面板组织、指标分组和布局优先级。

谁适合使用 grafana-dashboards

这个技能最适合平台工程师、SRE、DevOps 团队、后端工程师，以及需要为 Prometheus 风格指标构建 Grafana dashboard 的技术负责人。尤其适合这样一种情况：你已经清楚要观测哪个系统，但希望基于成熟的监控模式，得到一套更清晰、更可落地的 dashboard 设计。

它真正解决的工作问题

大多数用户并不需要一个抽象意义上的“dashboard”。他们真正需要的是：在故障处理、复盘和日常健康检查时，能让值班人员快速回答关键问题的 dashboard。grafana-dashboards 最有价值的地方，就在于它会引导代理围绕运维决策来组织指标：哪里坏了、严重到什么程度、下一步该看哪里、情况是否还在恶化。

这个技能和普通提示词有什么不同

grafana-dashboards 最核心的差异，是它把 dashboard 设计建立在可观测性启发式方法上，而不是单纯做 UI 生成。源码重点强调了：

信息层级
面向服务的 RED 方法
面向基础设施与资源的 USE 方法

因此，如果你在意的是可执行的布局逻辑和面板选择，而不只是导出一份 JSON，那么它会比普通的“帮我做一个 Grafana dashboard”提示词更有用。

它看起来不包含什么

这个技能本身比较轻量。根据仓库内容判断，它主要在 SKILL.md 中提供指导，并没有附带 helper scripts、规则文件或其他支持资产。这意味着 grafana-dashboards 更适合被当作提示与设计骨架来使用，而不是完整的 dashboard provisioning 工具包。

如何使用 grafana-dashboards 技能

grafana-dashboards 的安装上下文

如果你的 skills 运行时支持从仓库添加技能，可以从 wshobson/agents 仓库安装，然后在面向可观测性的工作流中调用 grafana-dashboards 技能。常见方式是：

npx skills add https://github.com/wshobson/agents --skill grafana-dashboards

如果你的环境是整仓加载，或通过其他方式同步 skills，关键点是让代理能够访问这个路径下的技能：

plugins/observability-monitoring/skills/grafana-dashboards

先读这个文件

建议先看：

plugins/observability-monitoring/skills/grafana-dashboards/SKILL.md

从仓库里看不出这个技能还有什么强依赖的配套文件，因此几乎所有有价值的使用指导都在这里。这对快速上手是好事，但也意味着 dashboard schema 规范、datasource 细节，以及导入导出流程，需要你自己补齐。

这个技能需要你提供哪些输入

grafana-dashboards 在你提供运维上下文时效果最好，而不是只给一个 dashboard 标题。建议至少告诉代理：

被监控的系统是什么
dashboard 的目标受众是谁
datasource 以及指标命名风格
最重要的故障模式有哪些
需要关注的时间范围和刷新频率
你想要的是 service、infrastructure、SLO 还是 business KPI 视角

如果没有这些信息，代理仍然能给出一个结构建议，但面板定义通常会更泛、更像模板。

最适合交给 grafana-dashboards 的 dashboard 需求

适合用 grafana-dashboards 处理的请求包括：

API 或微服务健康 dashboard
基于 Prometheus 的 RED dashboard
使用 USE 方法的基础设施 dashboard
以 SLO 和延迟为重点的可观测性看板
带下钻分区的生产总览 dashboard

它不太适合一次性的临时画图、 heavily customized 的 Grafana 插件场景，或者那种“查询语言细节比 dashboard 结构更重要”的环境。

把模糊需求改成高质量提示词

较弱的提示词：

“Create a Grafana dashboard for my app.”

更好的提示词：

“Use the grafana-dashboards skill to design a production Grafana dashboard for a customer-facing API. Datasource is Prometheus. Focus on RED metrics, 30s refresh, last 6h by default, and an on-call audience. Include top-row stat panels for traffic, error rate, p95 latency, and saturation signals. Then propose panel titles, layout order, and example PromQL queries.”

为什么这样更有效：

明确了系统对象
指定了设计方法
说明了受众和时间窗口
同时要求结构与查询建议
给了代理足够多的约束，避免输出过于泛化

grafana-dashboards 的提示词模板

你可以按这个模板改写：

“Use the grafana-dashboards skill to design a Grafana dashboard for [service/system].
Audience: [on-call / engineering managers / platform team]
Datasource: [Prometheus / other]
Dashboard goal: [incident response / daily health review / SLO tracking]
Key metrics: [request rate, error rate, p95 latency, CPU saturation, queue depth]
Default time range: [1h / 6h / 24h]
Refresh interval: [15s / 30s / 1m]
Constraints: [must fit single screen / include variables / separate business KPIs from infra]
Output wanted: [panel plan / Grafana JSON draft / PromQL suggestions / layout rationale]”

grafana-dashboards 的推荐实战流程

比较稳妥的 grafana-dashboards 使用流程通常是：

先用一句话定义 dashboard 的目的。
再选择分析视角：RED、USE、SLO 或 KPI 导向。
列出 datasource 中真实存在的指标。
先让代理给出面板层级和结构。
再让它补示例查询。
对照你真实的 label 和 metric 名称检查缺口。
最后再要求生成 Grafana JSON 或 provisioning 输出。

这样的顺序能避开一个常见问题：在指标模型都还没确认前，代理先“脑补”出一份看起来很完整、实际上不可用的 dashboard JSON。

这个技能体现出的设计模式

源码材料里突出了几个很值得保留的实用模式：

关键指标优先放在前排，使用 big-number 或 stat panel
趋势可视化优先使用 time series
详细诊断信息放在 dashboard 下半部分
服务行为优先用 RED
主机、节点、磁盘、队列等资源优先用 USE

对可观测性团队来说，这正是 grafana-dashboards 的主要价值：它优化的是决策流，而不只是增加图表数量。

最终输出大概率会是什么样

结合仓库内容来看，这个技能大概率会帮助你产出：

dashboard 分区规划
panel 排序建议
指标类别建议
类 JSON 的 dashboard 示例
基于监控方法论的 panel 选择

但不要默认它会对你环境中的 labels、recording rules、folder 结构、权限设置，或 Grafana provisioning 配置做到开箱即用，除非你明确把这些细节提供给它。

哪些细节会明显影响输出质量

想让 grafana-dashboards 用得更好，建议始终补充这些信息：

真实的 metric 名称（如果你已经有）
是否有 percentile 指标
cardinality 约束
类似 cluster、namespace、service 这样的环境过滤维度
这个 dashboard 是偏总览，还是偏深度排障

这些细节会直接影响代理能否给出有用的顶部面板、合理的变量设计，以及靠谱的查询范围。

grafana-dashboards 技能 FAQ

grafana-dashboards 适合新手吗？

适合，前提是你已经掌握 Grafana 和 metrics 的基础。grafana-dashboards 能帮你理清“什么应该先展示”“面板应该如何分组”。但如果你想把它当作 Prometheus、Grafana provisioning 或查询语言基础的完整入门教程，它就没那么合适了。

grafana-dashboards 会直接生成可用的 Grafana JSON 吗？

它可以指导生成或起草 JSON 形态的输出，但更适合把结果当作起点。你仍然需要在自己的环境里验证 panel 类型、datasource UID、查询语法、变量设置，以及 Grafana 版本兼容性。

它比普通提示词更好吗？

通常是的，尤其在可观测性工作里。grafana-dashboards 的价值在于，它会把代理收束到已经被验证过的 dashboard 设计模式上，例如 RED、USE 和信息层级。普通提示词很容易生成一个“看起来很忙”的 dashboard，但并不利于快速运维阅读。

什么情况下不该使用 grafana-dashboards？

如果你的问题主要是下面这些，就不建议优先用它：

修复损坏的 PromQL
管理 Grafana provisioning pipeline
开发自定义 panel 或插件
逆向分析导出的 dashboard
处理 datasource 特有的细节问题，而不是标准的可观测性布局问题

这些场景通常更适合更专门的技能，或者直接使用针对仓库/实现细节的提示词。

grafana-dashboards 只能用于 Prometheus 吗？

不是，但它和 Prometheus 风格的可观测性概念天然更契合。如果你使用的是其他 datasource，一定要明确说明查询语言、支持的 panel 类型和字段名，避免代理默认套用 PromQL 的约定。

grafana-dashboards 只适合 Observability 团队吗？

不是。它同样适合需要 business KPI 或 service-health dashboard 的产品团队和工程团队，只要目标是建立结构化的运维可见性即可。只是当 dashboard 需要清晰的监控逻辑，而不只是偏管理汇报风格的美观展示时，这个技能会更强。

如何改进 grafana-dashboards 技能的使用效果

先把你的指标清单交给代理

想提升 grafana-dashboards 的结果质量，最快的方法就是在提 dashboard 需求前，先给一份简短的指标清单。哪怕只有 10 到 15 个真实 metrics，也足以显著减少代理“编造指标名”的情况，让 panel 规划更接近可部署状态。

明确这个 dashboard 必须回答的运维问题

更好的 dashboard 往往来自问题，而不是图表清单。比如：

“值班人员能否在 30 秒内判断 API 是否异常？”
“我们能否在延迟升高前发现 CPU 饱和？”
“产品和运维能否在同一个视图里审查影响收入的错误？”

这样可以更清楚地区分哪些内容该放在顶部摘要，哪些应该放到下方诊断区。

把总览面板和排障面板拆开

grafana-dashboards 的一个常见失败模式，是把第一屏塞得过满。你可以明确要求代理把输出拆成：

executive 或 on-call 摘要区
趋势区
下钻或详细诊断区

这样做出来的 dashboard，才是真正能在高压场景下快速扫读的。

明确告诉它该用哪种方法

不要默认代理会自己选对监控模型。最好直接说明：

面向请求驱动型服务时使用 RED
面向计算资源或基础设施时使用 USE
面向客户 API 时，把 SLO panel 和 RED 结合起来

很多时候，这一条指令带来的 panel 相关性提升，比一句“按最佳实践来”更明显。

不只要输出，还要它解释理由

如果第一版看起来合理，但还是偏模板化，可以继续追问：

为什么每个顶部 panel 应该放在那个位置
如果屏幕空间有限，哪个 panel 可以删
哪些指标属于 leading indicators，哪些属于 lagging indicators

这样会迫使 grafana-dashboards 给出更能自圆其说的设计，而不是只追求表面完整。

用具体约束来修正第一版

迭代时，反馈越具体越有效，例如：

“We do not have histogram buckets.”
“Use namespace and pod variables.”
“This dashboard is for mobile backend only.”
“Remove business KPIs; this is strictly incident response.”
“Keep it to one screen for a NOC display.”

这类具体约束，通常能让第二版质量明显提升。

留意常见的低质量输出信号

如果草案出现下面这些情况，就要提高警惕：

使用了你根本没有的通用 metric 名称
在 time series 之前堆了太多 table
service 和 infrastructure 混在一起，没有分层
顶部缺少清晰的摘要区
忽略了目标受众和默认时间范围

这些往往说明：调用技能时上下文给得太少，或者请求范围给得太宽。

用结合仓库实际的方式提升 grafana-dashboards 效果

由于这个技能看起来主要依赖 SKILL.md，所以想让结果更实用，最好的办法是把它和你自己的本地规范搭配使用，例如：

你们自己的 Grafana JSON schema 示例
你们的命名规范
你们常用的 PromQL 片段
你们的 folder 与 templating 规则

实际使用中，grafana-dashboards 最强的角色更像是设计大脑，而你自己的环境负责补齐实现细节。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

configuring-suricata-for-network-monitoring

作者 mukul975

configuring-suricata-for-network-monitoring 技能可帮助部署和调优 Suricata，用于 IDS/IPS 监控、EVE JSON 日志记录、规则管理以及面向 SIEM 的输出。它适合用于 Security Audit 流程中的 configuring-suricata-for-network-monitoring 场景，尤其是在你需要可落地的部署、验证和降低误报时。

安全审计

收藏 0GitHub 0

auditing-tls-certificate-transparency-logs

作者 mukul975

auditing-tls-certificate-transparency-logs 技能可帮助安全团队监控自有域名的 Certificate Transparency 日志，发现未授权证书签发，识别证书暴露的子域名，并通过可重复执行的 Security Audit 工作流跟踪可疑 CA 活动。

安全审计

收藏 0GitHub 0

analyzing-docker-container-forensics

作者 mukul975

analyzing-docker-container-forensics 可通过分析 Docker 容器的镜像、层、卷、日志和运行时工件，协助调查已被入侵的容器，识别恶意活动并保全证据。适用于安全审计、事件复盘或容器加固评估。

安全审计

收藏 0GitHub 0

aws-serverless-eda

作者 zxkane

aws-serverless-eda 是一份面向 AWS 无服务器与事件驱动架构的后端开发指南。可用于设计 Lambda API、异步工作流、微服务、队列、发布/订阅和编排，涵盖 API Gateway、DynamoDB、Step Functions、EventBridge、SQS 和 SNS 等组件。它强调符合 Well-Architected 的决策、可观测性、安全性和部署规范。

后端开发

收藏 0GitHub 0

sentry

作者 openai

sentry skill 是一款只读的 Observability 工具，可用于查看 Sentry 的 issue、event 和 health 信号。你可以用它排查最近的生产错误、汇总影响范围，并通过结构化输出运行可重复的基于 CLI 的查询。它最适合需要一份实用的 sentry 分诊指南，而不是全面可观测性总览的场景。

可观测性

收藏 0GitHub 0

datadog-cli

作者 softaworks

datadog-cli 可帮助 agent 执行 Datadog CLI 工作流，处理 logs、traces、metrics、services 和 dashboards。你可以了解如何配置 DD_API_KEY 与 DD_APP_KEY，使用 `npx @leoflores/datadog-cli` 命令，并掌握 `--site` 的用法及 dashboard 更新的安全注意事项，以便进行 incident triage。

可观测性

收藏 0GitHub 0

building-cloud-siem-with-sentinel

作者 mukul975

building-cloud-siem-with-sentinel 是一份面向实践的指南，用于将 Microsoft Sentinel 作为云端 SIEM 和 SOAR 层来部署。它涵盖多云日志接入、KQL 检测、事件调查，以及面向 Security Audit 和 SOC 运营的 Logic Apps 响应 playbook。當你需要一个有 repo 支撑的起点来做集中式云安全监控时，可以使用这个 building-cloud-siem-with-sentinel skill。

安全审计

收藏 0GitHub 0

aws-cost-operations

作者 zxkane

aws-cost-operations 是一款用于 AWS 成本与运维的技能，可帮助估算费用、查看账单、监控 CloudWatch、检查 CloudTrail，并为运维决策提供建议。它尤其适合需要经过验证的 AWS 事实和可直接用于决策输出的财务、FinOps、平台团队和运维人员。

金融

收藏 0GitHub 0

canary-watch

作者 affaan-m

canary-watch 是一款发布后监控技能，用于在上线、合并或依赖更新后，对线上 URL 进行回归检查，适用于 staging 或 production 场景。

监控

收藏 0GitHub 156.1k

python-observability

作者 wshobson

python-observability 可帮助你为 Python 服务接入结构化日志、指标、链路追踪、correlation ID 以及有界基数模式，用于生产环境排障，并更稳妥地推进可观测性落地。

可观测性

收藏 0GitHub 32.6k

prometheus-configuration

作者 wshobson

prometheus-configuration 帮助你在 Kubernetes、Docker Compose 和服务器环境中安装并使用 Prometheus，完成抓取配置、数据保留、告警以及 recording rules 设置。

可观测性

收藏 0GitHub 32.6k

appinsights-instrumentation

作者 github

appinsights-instrumentation 用于为托管在 Azure 上的 Web 应用接入 Application Insights。它涵盖 App Service 自动插桩，以及 ASP.NET Core 和 Node.js 的手动配置，包括 connection string 与 IaC 更新。

可观测性

收藏 0GitHub 27.8k

analyzing-security-logs-with-splunk

作者 mukul975

analyzing-security-logs-with-splunk 通过将 Windows、防火墙、代理和身份验证日志关联成时间线与证据，帮助在 Splunk 中调查安全事件。这份 analyzing-security-logs-with-splunk skill 是面向安全审计、事件响应和威胁狩猎的实用指南。

安全审计

收藏 0GitHub 6.1k

azure-monitor-opentelemetry-ts

作者 microsoft

azure-monitor-opentelemetry-ts 可帮助你用 Azure Monitor 和 OpenTelemetry 为 Node.js 应用接入分布式追踪、指标和日志。使用这个 azure-monitor-opentelemetry-ts skill 来安装包、设置 `APPLICATIONINSIGHTS_CONNECTION_STRING`，并按正确的启动顺序完成自动埋点配置。

可观测性

收藏 0GitHub 2.3k

conducting-cloud-incident-response

作者 mukul975

conducting-cloud-incident-response 是一款面向 AWS、Azure 和 GCP 的云事件响应技能。它聚焦于基于身份的遏制、日志审查、资源隔离和取证证据采集。适用于可疑 API 活动、访问密钥泄露或云上工作负载被入侵等场景，当你需要一份实用的 conducting-cloud-incident-response 指南时尤其合适。

事件响应

收藏 0GitHub 0

building-threat-intelligence-platform

作者 mukul975

building-threat-intelligence-platform 适用于使用 MISP、OpenCTI、TheHive、Cortex、STIX/TAXII 和 Elasticsearch 设计、部署并评审威胁情报平台的技能。可用于安装指引、使用流程，以及基于仓库参考和脚本的 Security Audit 规划。

安全审计

收藏 0GitHub 0