Reducir el ruido de Prometheus Alertmanager con IA

Añade centinelAI como webhook receiver en tu Alertmanager o Grafana en 5 minutos. La IA evalúa cada alerta con contexto histórico y solo escala las que realmente importan.

El problema de Prometheus: alertas por defecto demasiado ruidosas

Prometheus y Alertmanager son herramientas excelentes para la monitorización de métricas. El problema es que sus configuraciones por defecto (y las de la mayoría de helm charts de reglas de alertas) están calibradas para no perder nada, con umbrales muy conservadores.

El resultado típico: un equipo que usa Alertmanager con las reglas por defecto de kube-prometheus-stack recibe entre 50 y 200 alertas diarias, de las cuales el 95% se autoresuelven sin intervención.

centinelAI no reemplaza tu Alertmanager. Actúa como una capa de inteligencia entre Alertmanager y tu equipo, evaluando cada alerta antes de decidir si vale la pena interrumpir a alguien.

Configuración de Alertmanager (5 minutos)

Añade centinelAI como receiver en tu alertmanager.yml:

receivers:
  - name: centinelai
    webhook_configs:
      - url: https://centinelai.io/api/webhooks/prometheus
        http_config:
          authorization:
            credentials: TU_API_TOKEN
        send_resolved: true

route:
  receiver: centinelai
  # O añádelo como receiver adicional manteniendo el existente:
  routes:
    - receiver: centinelai
      continue: true  # Envía a centinelAI Y al receiver original

Recarga Alertmanager para aplicar los cambios:

curl -X POST http://localhost:9093/-/reload

Configuración de Grafana Alerting

Si usas Grafana Alerting en lugar de (o además de) Prometheus Alertmanager:

Ve a Alerting → Contact points
Añade un nuevo contact point de tipo Webhook
URL: https://centinelai.io/api/webhooks/grafana
Añade el header: Authorization: Bearer TU_API_TOKEN
Asigna el contact point a tus notification policies

centinelAI detecta automáticamente si la alerta viene en formato Grafana o formato Prometheus y la normaliza.

Cómo evalúa la IA las alertas de Prometheus

Para cada alerta que llega de Alertmanager, la IA evalúa:

Historial de resolución: ¿Las últimas 10 veces que se disparó esta alerta se resolvió sola? Si es así, baja el score significativamente
Duración: ¿Cuánto lleva activa la alerta? Una alerta de CPU alta que lleva 2 horas tiene mayor score que una que lleva 30 segundos
Labels de severidad: Los labels severity=critical y severity=warning de Prometheus se usan como señal de entrada
Correlación temporal: ¿Coincide con un deploy reciente? ¿Hay otras alertas relacionadas del mismo servicio o namespace?
Tipo de alerta: Alertas de KubeDeploymentReplicasMismatch tienen mayor peso que CPUThrottlingHigh en la mayoría de contextos

Compatibilidad con el stack existente

centinelAI está diseñado para coexistir con tu stack actual, no para reemplazarlo:

Compatible con Prometheus 2.x y Thanos
Compatible con Grafana 9+, 10+ y 11+
Compatible con VictoriaMetrics Alertmanager
Puedes mantener tus alertas existentes en PagerDuty u OpsGenie y añadir centinelAI como capa de enriquecimiento
El uso de continue: true en las rutas de Alertmanager permite que las alertas sigan fluyendo a tus otros receivers

Métricas de impacto típicas

Después de 30 días con centinelAI como capa de filtrado de Alertmanager, los equipos reportan: