datadog-cli

por softaworks

datadog-cli ayuda a los agentes a ejecutar flujos de Datadog CLI para logs, traces, métricas, servicios y dashboards. Aprende a configurarlo con DD_API_KEY y DD_APP_KEY, a usar comandos `npx @leoflores/datadog-cli` y a gestionar `--site` junto con las precauciones al actualizar dashboards durante el triage de incidentes.

Estrellas0

Favoritos0

Comentarios0

Agregado1 abr 2026

CategoríaObservability

Comando de instalación

npx skills add softaworks/agent-toolkit --skill datadog-cli

Puntuación editorial

Esta skill obtiene 82/100, lo que la convierte en una opción sólida en el directorio para quienes buscan flujos de depuración en Datadog que un agente pueda ejecutar con menos tanteo que con un prompt genérico. El repositorio ofrece una cobertura amplia de comandos, ejemplos concretos y documentación de referencia, aunque la guía de instalación y configuración está algo repartida entre la skill y el README.

82/100

Puntos fuertes

Las referencias operativas cubren bien logs, métricas, sintaxis de consultas, dashboards y flujos habituales, lo que reduce la incertidumbre de los agentes al ejecutar comandos.
Buena capacidad de activación: la descripción y los ejemplos se corresponden claramente con tareas reales de depuración, como triage de incidentes, seguimiento de traces, tail de logs y trabajo con dashboards.
Las indicaciones de seguridad generan confianza, especialmente la advertencia en la documentación de dashboards de que las actualizaciones son destructivas y deben hacerse partiendo de una copia de seguridad.

Puntos a tener en cuenta

La ruta de instalación/configuración se reparte entre el uso directo de `npx @leoflores/datadog-cli` en SKILL.md y el flujo de instalación del plugin en el README, lo que puede generar dudas al adoptarlo.
La skill depende de que el usuario ya disponga de claves válidas de Datadog API/app y conozca las consultas de Datadog; no incluye automatización ni scripts auxiliares.

Cli Monitoring Metrics Dashboard

Resumen

Visión general de la skill datadog-cli

La skill datadog-cli ayuda a un agente a usar Datadog desde la línea de comandos para trabajo práctico de observabilidad: buscar logs, seguir trazas de solicitudes, consultar métricas, listar servicios y gestionar dashboards. Encaja especialmente bien para ingenieros, equipos de SRE y plataforma, y personas que responden a incidentes con ayuda de IA que ya tienen acceso a Datadog y quieren hacer triage más rápido sin depender de navegar manualmente por la UI.

Para qué sirve datadog-cli

Usa datadog-cli cuando el trabajo real no es “resumir Datadog”, sino “investigar un síntoma en producción con comandos repetibles”. La skill rinde mejor cuando necesitas:

acotar un incidente por servicio, tipo de error o ventana temporal
pasar de logs al contexto de una traza
comprobar si un pico es nuevo o forma parte del comportamiento normal
extraer métricas rápidamente para un servicio o entorno
inspeccionar o actualizar dashboards con flujos guiados por CLI

Usuarios para los que mejor encaja

Esta datadog-cli skill encaja con usuarios que:

ya usan Datadog para logs, métricas, trazas o dashboards
quieren que un agente genere comandos correctos en vez de sugerencias vagas de búsqueda
necesitan flujos de triage de incidentes, no consejos genéricos de observabilidad
se sienten cómodos aportando nombres de servicio, rangos de tiempo, trace IDs o dashboard IDs

Si no tienes claves de Datadog o no conoces las convenciones de servicios y tags de tu entorno, la configuración y la calidad del prompt van a influir más que la skill en sí.

Por qué esta skill es más útil que un prompt genérico

Un prompt normal podría decir “mira los logs en Datadog”. Esta skill le da al agente una ruta a nivel de comando: logs search, logs tail, logs trace, logs context, logs patterns, logs compare, metrics query, errors, services y operaciones sobre dashboards. Además, remite a la documentación de referencia que realmente importa para ejecutar bien, sobre todo la sintaxis de consultas y las advertencias al actualizar dashboards.

Principales bloqueos de adopción que conviene conocer primero

Los principales bloqueos son operativos, no conceptuales:

DD_API_KEY y DD_APP_KEY son obligatorios
las cuentas de Datadog fuera de EE. UU. pueden necesitar --site, por ejemplo datadoghq.eu
los resultados dependen mucho de usar correctamente la sintaxis de consultas de Datadog
las actualizaciones de dashboards son destructivas si se omiten campos

Esas son las primeras comprobaciones que deberías hacer antes de juzgar la calidad de datadog-cli usage.

Cómo usar la skill datadog-cli

Instalación y contexto de ejecución de datadog-cli

La skill en sí vive en softaworks/agent-toolkit, pero el CLI real que enseña al agente a ejecutar es:

npx @leoflores/datadog-cli <command>

Configura primero las credenciales:

export DD_API_KEY="your-api-key"
export DD_APP_KEY="your-app-key"

Para sitios de Datadog fuera de EE. UU., pasa --site:

npx @leoflores/datadog-cli logs search --query "*" --site datadoghq.eu

Si estás valorando una datadog-cli install práctica, la dependencia que debes validar es el CLI externo junto con un acceso funcional a la API de Datadog.

Lee estos archivos antes del primer uso real

Esta skill depende de referencias más de lo habitual. Léelos en este orden:

SKILL.md
references/query-syntax.md
references/logs-commands.md
references/metrics.md
references/workflows.md
references/dashboards.md

Seguir este recorrido evita la mayoría de los errores del primer uso: filtros malos, ventanas temporales débiles y ediciones inseguras de dashboards.

Qué datos necesita la skill para funcionar bien

La datadog-cli skill funciona mejor cuando tu solicitud incluye al menos parte de esto:

nombre del servicio, del equipo o del entorno
ventana temporal como 15m, 1h o 24h
tipo de síntoma: errores, latencia, solicitudes fallidas, regresión tras despliegue
trace ID, request ID o timestamp si ya lo tienes
si quieres logs, métricas, dashboards o un flujo de triage
sitio de Datadog si no es el predeterminado de EE. UU.

Entrada débil: “Revisa Datadog.”
Entrada sólida: “Investiga los errores 5xx de payment-api en prod durante la última hora, compáralos con la hora anterior y luego saca cualquier traza relacionada y las métricas de CPU.”

Convierte un objetivo difuso en un prompt útil para datadog-cli

Un buen prompt de datadog-cli guide debería indicarle al agente tanto el objetivo como las dimensiones con las que acotar.

Prueba este patrón:

Use datadog-cli for Observability triage.
Goal: identify why checkout failures increased after the last deploy.
Scope: service:payment-api env:prod
Time: last 1h, compare with previous 1h
Need: error summary, common log patterns, likely trace IDs, and key metrics
Site: datadoghq.eu

Por qué funciona:

le da al agente un flujo de trabajo, no un único comando
incluye tags de consulta que el CLI realmente puede usar
evita que el agente busque con un alcance demasiado amplio

Mejores primeros comandos para tareas habituales

Para triage de incidentes, empieza en amplio y luego ve cerrando el foco:

npx @leoflores/datadog-cli errors --from 1h --pretty
npx @leoflores/datadog-cli logs compare --query "status:error" --period 1h --pretty
npx @leoflores/datadog-cli logs patterns --query "status:error" --from 1h --pretty

Después, acótalo a un servicio:

npx @leoflores/datadog-cli logs search --query "service:payment-api status:error env:prod" --from 1h --pretty

Si ya tienes una traza:

npx @leoflores/datadog-cli logs trace --id "TRACE_ID" --from 24h --pretty

Para revisar la salud del servicio:

npx @leoflores/datadog-cli metrics query --query "avg:system.cpu.user{env:prod,service:payment-api}" --from 1h --pretty

La sintaxis de consulta importa más de lo que suele pensar quien usa datadog-cli

Muchos resultados flojos en datadog-cli usage en realidad son problemas de calidad de la consulta. La skill depende de la sintaxis de búsqueda de Datadog, por ejemplo:

service:api status:error
@http.status_code:>=500
service:api OR service:payment
@duration:[1000 TO 5000]
-status:info

Si conoces tus campos, inclúyelos explícitamente. Si no, pídele al agente que empiece con consultas de descubrimiento más amplias y que luego las ajuste según los atributos devueltos.

Flujo práctico de datadog-cli para respuesta a incidentes

Un bucle sólido de investigación con datadog-cli es:

obtener una visión general de errores con errors
comparar el periodo actual con el anterior usando logs compare
agrupar fallos repetidos con logs patterns
acotar por servicio y entorno con logs search
inspeccionar la actividad alrededor con logs context
pasar al flujo distribuido con logs trace
confirmar señales de recursos o throughput con metrics query

Esto es mucho mejor que pedir una y otra vez “más logs”, porque cada comando responde a una pregunta diagnóstica distinta.

Los dashboards requieren una precaución extra

La nota de seguridad más importante de este repo es que dashboards update reemplaza el dashboard completo, no solo los campos modificados. Si se omiten campos como variables de plantilla, descripción o lista de notificaciones, pueden desaparecer.

Antes de cualquier actualización, el flujo seguro es:

exportar el dashboard a un archivo temporal con --output
conservar los campos existentes
actualizar usando la estructura completa retenida

Eso hace que la datadog-cli skill sea adecuada para trabajar con dashboards solo si mantienes una disciplina estricta de copias de respaldo y actualizaciones con el estado completo.

Consejos de calidad de salida que sí cambian el resultado

Para obtener mejores respuestas del agente:

especifica si quieres descubrimiento, explicación o comandos exactos
incluye juntos los tags de servicio y entorno siempre que puedas
empieza con una ventana temporal acotada; amplíala solo si hace falta
pide comparación con un periodo anterior cuando evalúes regresiones
usa un trace ID o timestamp si ya lo tienes
pide --pretty cuando importe la revisión humana

La mayor mejora de calidad suele venir de dar un objetivo de consulta preciso, no de pedir un análisis más largo.

Cuándo usar logs frente a métricas o dashboards

Usa logs cuando necesites eventos concretos, errores o detalles de solicitudes.
Usa métricas cuando necesites tendencias, uso de recursos o señales de tasa/latencia.
Usa dashboards cuando necesites contexto operativo ya existente o quieras empaquetar una vista para un equipo.

Si le pides al agente las tres cosas a la vez, indícale cuál es el objetivo de decisión: causa raíz, alcance del impacto, comprobación de regresión o creación de dashboard.

Preguntas frecuentes sobre la skill datadog-cli

¿datadog-cli es buena opción para principiantes?

Sí, si ya tienes acceso a Datadog y manejas conceptos básicos como servicios, tags y ventanas temporales. No, si todavía estás aprendiendo qué representan logs, trazas y métricas. La skill reduce la parte de adivinar comandos, pero no elimina la necesidad de conocer los nombres de tus entornos ni las convenciones de observabilidad de tu organización.

¿Qué la diferencia de usar directamente la UI de Datadog?

datadog-cli es mejor cuando quieres pasos de investigación repetibles, scriptables y generados por un agente. Es especialmente útil para triage rápido, depuración guiada por prompts y compartir comandos exactos. La UI sigue siendo mejor para exploración visual profunda y navegación ad hoc.

¿Cuándo no encaja bien datadog-cli?

No uses esta skill si:

tu organización bloquea el uso de claves API de Datadog
necesitas funciones exclusivas de la UI que no estén expuestas por el flujo del CLI
buscas teoría general de observabilidad en lugar de ejecución específica en Datadog
no puedes dar suficiente contexto para que el agente construya consultas válidas

¿Necesito instalar algo además de la skill?

Sí. La dependencia crítica en tiempo de ejecución es el Datadog CLI invocado así:

npx @leoflores/datadog-cli <command>

También necesitas DD_API_KEY y DD_APP_KEY. En algunas cuentas, además debes pasar --site.

¿datadog-cli es solo para Observability o también puede cambiar cosas?

Principalmente ayuda a inspeccionar e investigar, pero los comandos de dashboards pueden modificar estado. Ahí es donde más importa la cautela. Lee references/dashboards.md antes de permitir cualquier flujo de actualización.

¿Es mejor que pedirle a un agente “revisa los logs”?

Sí, porque la skill le da al agente familias de comandos concretas y documentación de referencia. Eso suele traducirse en un acotado más rápido, menos consultas mal formadas y flujos de incidentes más útiles que un prompting libre y genérico.

Cómo mejorar la skill datadog-cli

Empieza los prompts con restricciones operativas

La forma más rápida de mejorar la salida de datadog-cli es incluir las restricciones que el CLI realmente necesita:

sitio de Datadog
entorno
nombres de servicio
rango temporal
identificadores como trace ID o dashboard ID
si la tarea es solo de lectura o si puede modificar dashboards

Sin eso, el agente suele caer en comandos demasiado amplios y con poca señal.

Pide un flujo de trabajo, no solo un comando

Un fallo habitual es pedir una única consulta cuando el problema necesita una secuencia. Mejor prompt:

Use datadog-cli to triage a spike in 5xx responses for service:checkout in env:prod over the last hour.
First compare against the prior hour, then identify top error patterns, then pull relevant traces, then check CPU and memory metrics.

Esto produce mejores investigaciones porque encaja con las referencias de flujos del repo.

Aporta ingredientes de consulta más sólidos

Las buenas entradas incluyen campos reales de Datadog:

service:payment-api
env:prod
@http.status_code:>=500
@error.kind:TimeoutError
@duration:>=1000

Si solo das lenguaje natural como “la API va lenta”, el agente tiene que adivinar nombres de campos y filtros. Las entradas a nivel de campo llevan a un mejor datadog-cli usage.

Gestiona las ediciones de dashboards con un prompt orientado a seguridad

Si tu tarea toca dashboards, exige explícitamente un flujo de backup primero:

Use datadog-cli to update dashboard abc-def-ghi, but first export the current dashboard to a temp file, preserve template variables and description, and show the exact safe update command.
Do not produce a partial update.

Esto reduce de forma notable el mayor riesgo destructivo de la skill.

Itera después de la primera salida en vez de ampliar a ciegas

Después del primer conjunto de comandos, mejora el resultado acotando:

de todos los errores a un solo servicio
de 24h a la ventana exacta del fallo
de logs genéricos a agrupación por patrones
del síntoma a evidencia a nivel de traza
de logs a métricas de confirmación

Esto funciona mejor que pedirle al agente “más detalle”, que a menudo solo amplía el ruido.

Errores habituales que conviene evitar

Los problemas más frecuentes de adopción y calidad de salida son:

falta de DD_API_KEY o DD_APP_KEY
olvidar --site en Datadog fuera de EE. UU.
usar una sintaxis de consulta débil o inválida
buscar primero en un rango temporal demasiado amplio
tratar la actualización de dashboards como si fuera un parche y no un reemplazo completo
pedir ayuda de observabilidad sin nombrar el servicio o entorno afectado

Qué revisar en el repo cuando datadog-cli da resultados flojos

Si el agente suena genérico, vuelve a:

references/query-syntax.md para ganar precisión en filtros
references/logs-commands.md para elegir mejor el comando
references/workflows.md para el orden de investigación
references/dashboards.md para patrones seguros de modificación

Ese recorrido suele corregir prompts pobres más rápido que reescribir la solicitud completa desde cero.

La mejor forma de evaluar datadog-cli después de la instalación

Una prueba de aceptación práctica para datadog-cli install es:

ejecutar un logs search conocido
ejecutar un metrics query acotado
probar un comando de flujo como errors o logs patterns
confirmar el comportamiento de --site si estás fuera de EE. UU.
evitar escrituras en dashboards hasta verificar el flujo de backup

Si todo eso funciona, la datadog-cli skill probablemente ya esté lista para trabajo real de incidentes y observabilidad.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

configuring-suricata-for-network-monitoring

por mukul975

La skill configuring-suricata-for-network-monitoring ayuda a desplegar y ajustar Suricata para monitoreo IDS/IPS, registro EVE JSON, gestión de reglas y salida lista para SIEM. Encaja bien con el flujo de Security Audit cuando necesitas una configuración práctica, validación y reducción de falsos positivos.

Security Audit

Favoritos 0GitHub 0

auditing-tls-certificate-transparency-logs

por mukul975

La skill de auditoría de logs de transparencia de certificados TLS ayuda a los equipos de seguridad a monitorear logs de Certificate Transparency para dominios propios, detectar emisiones de certificados no autorizadas, descubrir subdominios expuestos por certificados y seguir la actividad sospechosa de las CA con un flujo de trabajo repetible de auditoría de seguridad.

Security Audit

Favoritos 0GitHub 0

analyzing-docker-container-forensics

por mukul975

analyzing-docker-container-forensics ayuda a investigar contenedores Docker comprometidos mediante el análisis de imágenes, capas, volúmenes, registros y artefactos en tiempo de ejecución para identificar actividad maliciosa y preservar pruebas. Usa esta skill de analyzing-docker-container-forensics para una auditoría de seguridad, la revisión de un incidente o una evaluación de endurecimiento de contenedores.

Security Audit

Favoritos 0GitHub 0

aws-serverless-eda

por zxkane

aws-serverless-eda es una guía para desarrollo backend en AWS con arquitectura serverless y orientada a eventos. Úsala para diseñar APIs con Lambda, flujos asíncronos, microservicios, colas, pub/sub y orquestación con API Gateway, DynamoDB, Step Functions, EventBridge, SQS y SNS. Enfatiza decisiones alineadas con Well-Architected, observabilidad, seguridad y disciplina de despliegue.

Backend Development

Favoritos 0GitHub 0

sentry

por openai

La skill sentry es una herramienta de Observability de solo lectura para inspeccionar issues, eventos y señales de salud de Sentry. Úsala para investigar errores recientes en producción, resumir el impacto y ejecutar consultas repetibles desde la CLI con salida estructurada. Es la mejor opción cuando necesitas una guía práctica de sentry para triage, no una visión general amplia de observabilidad.

Observability

Favoritos 0GitHub 0

building-cloud-siem-with-sentinel

por mukul975

building-cloud-siem-with-sentinel es una guía práctica para implementar Microsoft Sentinel como capa de SIEM y SOAR en la nube. Cubre la ingesta de registros multicloud, detecciones con KQL, investigación de incidentes y playbooks de respuesta con Logic Apps para Security Audit y operaciones de SOC. Usa esta skill building-cloud-siem-with-sentinel cuando necesites un punto de partida respaldado por un repositorio para la monitorización centralizada de la seguridad en la nube.

Security Audit

Favoritos 0GitHub 0

aws-cost-operations

por zxkane

aws-cost-operations es una skill de costos y operaciones en AWS para estimar gastos, revisar facturas, monitorear CloudWatch, consultar CloudTrail y orientar decisiones operativas. Encaja bien para equipos de Finanzas, FinOps, plataformas y operaciones que necesitan datos verificados de AWS y resultados listos para tomar decisiones.

Finance

Favoritos 0GitHub 0

canary-watch

por affaan-m

canary-watch es una skill de monitorización postdeploy para comprobar una URL en producción y detectar regresiones después de releases, merges o actualizaciones de dependencias, tanto en staging como en producción.

Monitoring

Favoritos 0GitHub 156.1k

python-observability

por wshobson

python-observability te ayuda a instrumentar servicios Python con logging estructurado, métricas, trazas, IDs de correlación y patrones de cardinalidad acotada para depuración en producción y despliegues de observabilidad más seguros.

Observability

Favoritos 0GitHub 32.6k

prometheus-configuration

por wshobson

prometheus-configuration te ayuda a instalar y usar Prometheus para scraping, retención, alertas y recording rules en entornos con Kubernetes, Docker Compose y servidores.

Observability

Favoritos 0GitHub 32.6k

appinsights-instrumentation

por github

appinsights-instrumentation ayuda a instrumentar aplicaciones web alojadas en Azure con Application Insights. Orienta tanto la instrumentación automática en App Service como la configuración manual en ASP.NET Core y Node.js, incluida la cadena de conexión y las actualizaciones de IaC.

Observability

Favoritos 0GitHub 27.8k

analyzing-security-logs-with-splunk

por mukul975

analyzing-security-logs-with-splunk ayuda a investigar eventos de seguridad en Splunk correlacionando registros de Windows, firewall, proxy y autenticación en líneas de tiempo y evidencia. Este skill de analyzing-security-logs-with-splunk es una guía práctica para auditoría de seguridad, respuesta a incidentes y threat hunting.

Security Audit

Favoritos 0GitHub 6.1k

azure-monitor-opentelemetry-ts

por microsoft

azure-monitor-opentelemetry-ts ayuda a instrumentar aplicaciones Node.js con Azure Monitor y OpenTelemetry para trazas distribuidas, métricas y registros. Usa esta skill de azure-monitor-opentelemetry-ts para instalar el paquete, configurar APPLICATIONINSIGHTS_CONNECTION_STRING y seguir el orden de inicio correcto para la autoinstrumentación.

Observability

Favoritos 0GitHub 2.3k

conducting-cloud-incident-response

por mukul975

conducting-cloud-incident-response es un skill de respuesta a incidentes en la nube para AWS, Azure y GCP. Se centra en la contención basada en identidades, la revisión de registros, el aislamiento de recursos y la captura de evidencias forenses. Úsalo ante actividad sospechosa de API, claves de acceso comprometidas o brechas en cargas de trabajo alojadas en la nube cuando necesites una guía práctica de conducting-cloud-incident-response.

Incident Response

Favoritos 0GitHub 0

building-threat-intelligence-platform

por mukul975

Skill building-threat-intelligence-platform para diseñar, desplegar y revisar una plataforma de inteligencia de amenazas con MISP, OpenCTI, TheHive, Cortex, STIX/TAXII y Elasticsearch. Úsala para guías de instalación, flujos de uso y planificación de Security Audit respaldada por referencias del repositorio y scripts.

Security Audit

Favoritos 0GitHub 0

building-soc-metrics-and-kpi-tracking

por mukul975

La skill building-soc-metrics-and-kpi-tracking transforma los datos de actividad del SOC en KPI como MTTD, MTTR, calidad de alertas, productividad de analistas y cobertura de detección. Encaja con equipos de liderazgo SOC, operaciones de seguridad y observabilidad que necesitan informes repetibles, seguimiento de tendencias y métricas pensadas para la dirección, respaldadas por flujos de trabajo basados en Splunk.

Observability

Favoritos 0GitHub 0