distributed-tracing

作成者 wshobson

distributed-tracingスキルを使って、JaegerやTempoによるマイクロサービス間のリクエストトレーシングを設計・説明できます。インストールの基本、traceとspanの概念、Kubernetesでの設定パターン、コンテキスト伝播、可観測性の向上やレイテンシ調査に役立つ実践的な使い方までカバーしています。

スター32.6k

お気に入り0

追加日2026年3月30日

カテゴリーObservability

インストールコマンド

npx skills add wshobson/agents --skill distributed-tracing

編集スコア

このスキルの評価は68/100です。distributed tracingについてしっかりした参考情報を求めるディレクトリ利用者には掲載可能な水準ですが、実運用に乗せるには自分で統合作業を考える必要があります。リポジトリにはJaegerやTempoに関する実務的なワークフロー、明確なユースケース、実例が確認できる一方で、エージェントの推測を減らすような、より強い手順構成、補助ファイル、インストールに特化した案内は不足しています。

68/100

強み

利用場面が明確です。説明文と「When to Use」セクションで、マイクロサービスのデバッグ、リクエストフロー分析、ボトルネック特定、エラー追跡への適用先がはっきり示されています。
運用寄りの内容が充実しています。プレースホルダーではなく、具体的な概念説明、コードフェンス、JaegerのKubernetesデプロイ例などの設定例が含まれています。
参照資料としてエージェントが活用しやすい構成です。JaegerやTempo向けのドメイン固有のトレーシング用語やプラットフォーム別ガイダンスがあり、汎用的なobservabilityプロンプトより実務に落とし込みやすくなっています。

注意点

補助ファイル、スクリプト、参考リンク、インストールコマンドがなく、エージェントが一貫した手順で実行しにくいため、導入時の摩擦はやや高めです。
workflowや制約を示す構造的な手がかりが弱く、手順の順序、前提条件、環境ごとの選択肢を利用者側で補う必要があるため、進め方の明確さには限界があります。

Distributed Systems Microservices Sre Service Level Indicators Performance Kubernetes

概要

distributed-tracingスキルの概要

distributed-tracing スキルは、マイクロサービス環境におけるエンドツーエンドのリクエストトレーシングを、エージェントが設計・説明するためのスキルです。特に Jaeger と Tempo を前提にした具体的なセットアップの考え方が含まれており、Observability、レイテンシ調査、リクエスト経路の分析、分散システム全体のサービス依存関係の可視化に取り組むチームに向いています。

このdistributed-tracingスキルでできること

この distributed-tracing スキルは、「とりあえずトレーシングを入れたい」といった曖昧な要望ではなく、もう一段実務寄りの作業が必要なときに役立ちます。主な用途は次のとおりです。

リクエストが複数サービスをまたいでも追跡できるようにサービスを計装する
Kubernetes 上にトレーシングバックエンドをデプロイする
trace、span、context propagation、フィルタリングを前提に設計や分析を行う
マルチサービスの処理フローで、レイテンシのボトルネックや障害伝播を特定する

どんな人・チームに向いているか

この distributed-tracing スキルは、特に次のようなケースに適しています。

クラスタにトレーシングを導入したい platform / SRE チーム
マイクロサービスのレイテンシを調査したいバックエンドエンジニア
Jaeger と Tempo を比較・実装したい observability 担当者
一般的な observability プロンプトではなく、構造化されたガイドが必要なエージェント利用者

逆に、trace や span の基本的な定義だけ知りたい場合は、このスキルはややオーバースペックです。

汎用プロンプトとの違い

通常のプロンプトでも、分散トレーシングの概念説明はできます。ただ、このスキルの強みは、実装ワークフローに沿ってモデルの出力をぶらさずに保てる点です。trace の構造、コア概念、そしてよく使われる observability スタック向けのデプロイ観点の例まで含めて扱えます。

いちばん大きな価値は、モデルの焦点を広い logging / metrics / APM 全般ではなく、Observability のための distributed-tracing にしっかり絞れることです。

導入前に知っておきたいこと

このスキルは焦点が明確で軽量です。リポジトリを見る限り、実体はほぼ単一の SKILL.md で、補助スクリプト、ルール、参照ファイルは含まれていません。そのため導入自体は簡単ですが、得られるのは自動化ではなくガイダンスです。エージェントの思考や回答の質を上げる用途には向いていますが、installer、validator、環境依存のチェック機能が付属しているわけではありません。

distributed-tracingスキルの使い方

distributed-tracingのインストール方法

リポジトリから distributed-tracing スキルをインストールするには、次を実行します。

npx skills add https://github.com/wshobson/agents --skill distributed-tracing

インストール後は、次のファイルを確認してください。

plugins/observability-monitoring/skills/distributed-tracing/SKILL.md

このスキルには追加のサポートファイルがないため、SKILL.md が実質的な一次情報になります。

スキルに必要な入力情報

精度の高い出力を得るには、システムの具体的な前提をエージェントに渡す必要があります。distributed-tracing スキルは、プロンプトに次の情報が含まれていると特に効果を発揮します。

対象サービスの構成とリクエストパス
各サービスの runtime / framework
デプロイ先。特に Kubernetes か local/dev か
利用したいトレーシングバックエンド: Jaeger、Tempo、または未定
解きたい課題: レイテンシ、依存関係の可視化、エラー追跡など
制約条件: コスト、retention、sampling、既存の OpenTelemetry 利用状況

この前提がないと、出力はどうしても汎用的な内容に寄りがちです。

ざっくりした目的を使えるプロンプトに変える

弱いプロンプト:

Help me add distributed tracing.

よりよいプロンプト:

Use the distributed-tracing skill. I run 6 Kubernetes microservices behind an API gateway. We already use Prometheus and Grafana, but no tracing yet. I need to trace a checkout request across gateway, auth, cart, payment, and Postgres access. Recommend whether to use Jaeger or Tempo, show the trace flow we should expect, explain context propagation, and give a rollout plan that starts in staging.

これがよい理由:

環境が明示されている
実際のリクエストパスが入っている
observability の現状が共有されている
定義の説明ではなく、判断が必要な依頼になっている
レビューや実装に回せる出力を引き出しやすい

このスキルによって実際に得やすい出力

実運用では、distributed-tracing スキルに対して次のような成果物を求める使い方が中心になります。

トレーシングアーキテクチャの提案
Jaeger の Kubernetes デプロイ方針
Tempo 前提の observability 設計案
自分たちのリクエストフローに沿った trace / span 構造の説明
既存の trace データに対するボトルネック分析の考え方
サービス間の context propagation に関する助言

単なる概念説明ではなく、実システムの設計にトレーシングの考え方を結び付けたいときに特に有効です。

初回利用でおすすめの進め方

最初は、次の流れで使うと安定しやすいです。

分散システムの構成とリクエストパスを伝える
現在の observability スタックを明示する
重要な 1 つのリクエストについて trace と span をマッピングさせる
バックエンドのセットアップ方針を聞く。通常は Jaeger か Tempo
context propagation が壊れそうな箇所を洗い出す
初稿のあとで sampling、tags、トラブルシュート観点を詰める

最初から observability 全体のアーキテクチャを一気に聞くより、この順番のほうが実用的な回答になりやすいです。

時短になるリポジトリの読み順

SKILL.md は次の順で読むと効率的です。

Purpose
When to Use
Distributed Tracing Concepts
Trace Structure
Jaeger deployment などの backend setup セクション

まず判断材料を押さえ、そのあとで実装の形をつかむ流れです。このスキルには追加ドキュメントがないため、隠れた補助資料を探し回っても得るものはほとんどありません。

Jaeger と Tempo のどちらを聞くべきか

使うバックエンドが決まっているなら、最初から明示するのがベストです。未定なら、自分たちの制約条件に照らして比較させてください。

例:

Use the distributed-tracing skill to compare Jaeger and Tempo for a Kubernetes environment where we already use Grafana, need low operational overhead, and mainly want request debugging rather than long-term trace analytics.

このレベルで条件を入れると、表面的なツール紹介を 2 つ並べるだけでなく、導入判断に使える回答になりやすくなります。

出力品質を上げる実務的なプロンプト情報

モデルが推測できない情報は、最初から入れておくのが有効です。

ingress の経路と非同期 hop の有無
サービスがすでにヘッダー伝播をしているか
tenant、region、endpoint などで欲しい tags
sampling を決めるための想定トラフィック量
開発環境だけで見えればよいのか、本番トレーシングが必要か

distributed-tracing の用途では、こうした入力が span の境界、保存戦略、導入順序の提案に直接影響します。

よくある導入時のつまずき

詰まりやすいのはインストールそのものより、要件の曖昧さです。

最初にどのリクエストフローを追うべきか決められない
本当に必要なのが tracing なのか、logs / metrics なのか判断できない
サービス間の context propagation が欠けている
「observability 全般」を広く聞きすぎて、回答が薄まる

この distributed-tracing ガイドは、対象を 1 つのリクエストジャーニーと 1 つのバックエンド判断に絞ったときに最も力を発揮します。

distributed-tracingスキル FAQ

このdistributed-tracingスキルは初心者向けですか？

はい。ただし、自分たちのサービス構成をある程度把握していることが前提です。trace、span、tags、logs、context propagation といった基本概念の説明は含まれますが、チュートリアル中心というより実装志向です。シンプルな monolith を扱う初心者には、やや重く感じる可能性があります。

普通の observability プロンプトではなく、いつこれを使うべきですか？

サービス間のリクエストフローを可視化したいときは、distributed-tracing スキルを使うのが適しています。一般的な observability プロンプトだと、logs、metrics、alerts、dashboards、tracing が一つの大きな話に混ざりやすく、論点がぼやけます。このスキルなら、トレーシングの意思決定と実装フローに焦点を保ちやすくなります。

このスキルを入れるとクラスタに自動でトレーシングが導入されますか？

いいえ。distributed-tracing のインストールで追加されるのは、エージェント向けのガイダンスです。operator や deployment script が入るわけではありません。セットアップ例は含まれますが、manifest の適用、サービスの計装、結果の検証は自分たちの環境で行う必要があります。

Jaeger 専用のスキルですか？

いいえ。Jaeger は明示的に扱われていますが、Tempo もこのスキルの位置づけに含まれています。実際には、Jaeger や Tempo を実装ターゲットとして扱う Observability 向け distributed-tracing ガイド と捉えるのが自然です。

どんな場合には向いていませんか？

次のようなケースでは、使わないか、補助的に使う程度で十分です。

単一プロセスやシンプルな monolith しか動いていない
必要なのがアプリケーションログだけ
1 つの framework 向けに vendor 固有の計装手順だけ知りたい
スキル単体で環境を自動発見してくれることを期待している

こうした場合は、対象 framework のドキュメントや vendor の integration guide のほうが早いことがあります。

良いdistributed-tracingの使い方とは？

良い distributed-tracing の使い方は、login や checkout のような実際の 1 トランザクションから始めることです。そのうえで、期待する spans、propagation の境界、バックエンド構成を定義します。「フルの tracing 戦略」をシステム詳細なしで聞くチームより、具体的な 1 フローから入るチームのほうが、結果として精度の高い答えを得やすくなります。

distributed-tracingスキルをより効果的に使うには

曖昧な目標ではなく、distributed-tracingで追うリクエストパスを渡す

もっとも効果が大きい改善ポイントは、入力の具体性です。たとえば “help with latency” ではなく、次のように伝えます。

Use the distributed-tracing skill for this path: frontend → gateway → auth-service → order-service → payment-service → database. We see p95 latency spikes during checkout and want to know where to place spans and what tags to capture.

こうすることで、一般論の observability アドバイスではなく、使える trace モデルを引き出しやすくなります。

実装順で出力させる

より実用的な結果を得たいなら、依頼も段階的にすると効果的です。

trace をマップする
span の境界を定義する
backend を選ぶ
デプロイ方針を整理する
トラブルシュート用の確認項目を洗い出す

最初から全部を一度に頼むと、回答は広くなりやすく、実行に移しにくくなります。

制約条件は早めに出す

このスキルは、運用上の制約を最初に入れるだけで出力の質がかなり変わります。たとえば次のような条件です。

既存の Grafana スタック
ストレージ予算
retention の要件
トラフィック量
本番 sampling に関する懸念
Kubernetes のみで完結させたいという要件

こうした条件は、Jaeger に寄せるべきか、Tempo に寄せるべきか、あるいはより軽い導入計画にすべきかに直結します。

よくある失敗パターンを意識する

弱い出力によく見られるのは次のようなパターンです。

context propagation を無視したトレーシング提案
エコシステム適合性を見ない backend 推奨
sampling の議論なしに spans が多すぎる設計
実サービス構成に合っていない抽象図

こうした傾向が出たら、サービス名、想定コール順、現在の telemetry スタックを加えてプロンプトを絞り直してください。

前提の妥当性をモデルに確認させる

強い追加入力の例として、次のような依頼があります。

Using the distributed-tracing skill, list the assumptions in your design and mark which ones I should verify before rollout.

この依頼が有効なのは、元のスキルがガイダンス中心であり、自動チェックやスクリプトを含んでいないためです。

比較とトレードオフも出させる

導入判断をしたいなら、単におすすめツールだけを聞くのでは不十分です。トレードオフも一緒に出させてください。

例:

Use the distributed-tracing skill to recommend Jaeger or Tempo for our platform, then give the top 3 reasons against the recommendation so we can review the tradeoffs.

一方向の推奨だけを求めるより、この聞き方のほうが判断材料として信頼しやすい回答になりやすいです。

初回回答のあとに、実際のトレース目的で再調整する

最初のドラフトが出たら、次のような追加プロンプトで絞り込むと効果的です。

“Now optimize for debugging error propagation.”
“Now optimize for low-overhead production sampling.”
“Now revise for a team already using Grafana.”
“Now focus on the minimum viable rollout for staging.”

この種の反復は、「もっと詳しくして」とだけ頼むより、導入判断の質を上げやすくなります。

distributed-tracingスキル自体がさらに良くなるとしたら

導入判断の観点では、このスキルは次の点が補強されるとさらに使いやすくなります。

Jaeger と Tempo を選ぶための明示的な判断基準
よくある observability シナリオ向けの sample prompt 集
proof of concept から production までの rollout 手順の明確化
context propagation が壊れたときの troubleshooting checks
framework 別の例や OpenTelemetry との対応関係

現状でも distributed-tracing スキルは有用で導入しやすいですが、ガイダンスを実際にデプロイ可能な計画へ落とし込むには、利用者側が十分なシステム文脈を渡すことが前提になります。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

configuring-suricata-for-network-monitoring

作成者 mukul975

configuring-suricata-for-network-monitoring は、Suricata を IDS/IPS 監視、EVE JSON ログ出力、ルール管理、SIEM 向け出力に対応させるための導入・調整を支援するスキルです。実運用に近いセットアップ、検証、誤検知の削減が必要な Security Audit ワークフローで、configuring-suricata-for-network-monitoring を活用したい場合に適しています。

Security Audit

お気に入り 0GitHub 0

auditing-tls-certificate-transparency-logs

作成者 mukul975

auditing-tls-certificate-transparency-logsスキルは、セキュリティチームが自組織保有ドメインのCertificate Transparencyログを監視し、未承認の証明書発行を検出し、証明書が露出しているサブドメインを発見し、疑わしいCAの動きを再現可能なSecurity Auditワークフローで追跡するのに役立ちます。

Security Audit

お気に入り 0GitHub 0

analyzing-docker-container-forensics

作成者 mukul975

analyzing-docker-container-forensics は、イメージ、レイヤー、ボリューム、ログ、実行時アーティファクトを分析して、侵害された Docker コンテナの調査を支援し、悪意ある活動の特定と証拠保全を行います。Security Audit、インシデントレビュー、コンテナ強化の評価にこの analyzing-docker-container-forensics skill を使用してください。

Security Audit

お気に入り 0GitHub 0

aws-serverless-eda

作成者 zxkane

aws-serverless-eda は、AWS のサーバーレスとイベント駆動アーキテクチャにおけるバックエンド開発のためのガイドです。Lambda API、非同期ワークフロー、マイクロサービス、キュー、pub/sub、オーケストレーションを、API Gateway、DynamoDB、Step Functions、EventBridge、SQS、SNS と組み合わせて設計する際に役立ちます。Well-Architected を踏まえた意思決定、可観測性、セキュリティ、デプロイの規律を重視しています。

Backend Development

お気に入り 0GitHub 0

sentry

作成者 openai

sentry skillは、Sentryのissue、イベント、ヘルスシグナルを確認するための読み取り専用Observabilityツールです。直近の本番エラーの調査、影響範囲の要約、構造化出力を伴うCLIベースの再現可能なクエリ実行に使えます。広い観測性の全体像よりも、トリアージ向けの実用的なsentryガイドが欲しいときに最適です。

Observability

お気に入り 0GitHub 0

datadog-cli

作成者 softaworks

datadog-cliは、ログ、トレース、メトリクス、サービス、ダッシュボード向けのDatadog CLIワークフローをエージェントで実行するためのスキルです。DD_API_KEYとDD_APP_KEYを使ったセットアップ、`npx @leoflores/datadog-cli`コマンドの使い方、`--site`の指定方法、インシデントトリアージ時にダッシュボード更新を安全に進めるポイントを確認できます。

Observability

お気に入り 0GitHub 0

building-cloud-siem-with-sentinel

作成者 mukul975

building-cloud-siem-with-sentinel は、Microsoft Sentinel をクラウド SIEM および SOAR レイヤーとして導入するための実践ガイドです。マルチクラウドのログ取り込み、KQL による検知、インシデント調査、Security Audit や SOC 運用向けの Logic Apps レスポンスプレイブックを扱います。集中型のクラウドセキュリティ監視に、リポジトリを基点にした出発点が必要なときに、この building-cloud-siem-with-sentinel スキルを使ってください。

Security Audit

お気に入り 0GitHub 0

aws-cost-operations

作成者 zxkane

aws-cost-operations は、AWS のコスト見積もり、請求書の確認、CloudWatch の監視、CloudTrail のチェック、運用判断の支援に使える AWS コスト・運用スキルです。Finance、FinOps、プラットフォームチーム、そして検証済みの AWS 情報と意思決定に使える出力を必要とする運用担当者に適しています。

Finance

お気に入り 0GitHub 0

canary-watch

作成者 affaan-m

canary-watch は、リリース、マージ、依存関係更新のあとに、本番またはステージングのライブ URL をチェックして回帰を検出するためのデプロイ後監視スキルです。

Monitoring

お気に入り 0GitHub 156.1k

python-observability

作成者 wshobson

python-observability は、構造化ログ、メトリクス、トレース、Correlation ID、bounded-cardinality の実践パターンを使って、Python サービスを本番運用向けに計測し、デバッグしやすさと安全なオブザーバビリティ導入を支援します。

Observability

お気に入り 0GitHub 32.6k

prometheus-configuration

作成者 wshobson

prometheus-configuration は、Kubernetes、Docker Compose、各種サーバー環境で Prometheus を導入・運用するためのガイドです。スクレイピング設定、保存期間、アラート、recording rules までを幅広く扱えます。

Observability

お気に入り 0GitHub 32.6k

appinsights-instrumentation

作成者 github

appinsights-instrumentation は、Azure でホストされる Web アプリに Application Insights を組み込むためのスキルです。App Service の自動インストルメンテーションに加え、ASP.NET Core や Node.js での手動セットアップにも対応し、connection string の設定や IaC の更新ポイントまで案内します。

Observability

お気に入り 0GitHub 27.8k

analyzing-security-logs-with-splunk

作成者 mukul975

analyzing-security-logs-with-splunk は、Windows、ファイアウォール、プロキシ、認証ログを時系列と証拠に結び付けながら、Splunk でセキュリティイベントを調査するのに役立ちます。Security Audit、インシデント対応、脅威ハンティングに実用的な analyzing-security-logs-with-splunk のスキルガイドです。

Security Audit

お気に入り 0GitHub 6.1k

azure-monitor-opentelemetry-ts

作成者 microsoft

azure-monitor-opentelemetry-ts は、Azure Monitor と OpenTelemetry を使って Node.js アプリに分散トレース、メトリクス、ログを組み込むのに役立ちます。この azure-monitor-opentelemetry-ts スキルを使えば、パッケージのインストール、APPLICATIONINSIGHTS_CONNECTION_STRING の設定、自動計測を正しく動かすための起動順序まで、必要な手順をまとめて確認できます。

Observability

お気に入り 0GitHub 2.3k

conducting-cloud-incident-response

作成者 mukul975

conducting-cloud-incident-response は、AWS、Azure、GCP 向けのクラウドインシデント対応スキルです。ID ベースの封じ込め、ログレビュー、リソース分離、フォレンジック証拠の保全に重点を置いています。API の不審な操作、アクセスキーの侵害、クラウド上のワークロード侵害など、実践的な conducting-cloud-incident-response ガイドが必要な場面で使えます。

Incident Response

お気に入り 0GitHub 0

building-threat-intelligence-platform

作成者 mukul975

MISP、OpenCTI、TheHive、Cortex、STIX/TAXII、Elasticsearch を使って、脅威インテリジェンス・プラットフォームを設計、導入、レビューするための building-threat-intelligence-platform スキルです。インストールの指針、運用フロー、リポジトリ参照やスクリプトに基づく Security Audit の計画に活用できます。

Security Audit

お気に入り 0GitHub 0