PROM

Integración

Reducir el ruido de Prometheus Alertmanager con IA

Añade centinelAI como webhook receiver en tu Alertmanager o Grafana en 5 minutos. La IA evalúa cada alerta con contexto histórico y solo escala las que realmente importan.

5 min
Configuración
~95%
Ruido eliminado
0
Cambios en tu stack

El problema de Prometheus: alertas por defecto demasiado ruidosas

Prometheus y Alertmanager son herramientas excelentes para la monitorización de métricas. El problema es que sus configuraciones por defecto (y las de la mayoría de helm charts de reglas de alertas) están calibradas para no perder nada, con umbrales muy conservadores.

El resultado típico: un equipo que usa Alertmanager con las reglas por defecto de kube-prometheus-stack recibe entre 50 y 200 alertas diarias, de las cuales el 95% se autoresuelven sin intervención.

centinelAI no reemplaza tu Alertmanager. Actúa como una capa de inteligencia entre Alertmanager y tu equipo, evaluando cada alerta antes de decidir si vale la pena interrumpir a alguien.

Configuración de Alertmanager (5 minutos)

Añade centinelAI como receiver en tu alertmanager.yml:

receivers:
  - name: centinelai
    webhook_configs:
      - url: https://centinelai.io/api/webhooks/prometheus
        http_config:
          authorization:
            credentials: TU_API_TOKEN
        send_resolved: true

route:
  receiver: centinelai
  # O añádelo como receiver adicional manteniendo el existente:
  routes:
    - receiver: centinelai
      continue: true  # Envía a centinelAI Y al receiver original

Recarga Alertmanager para aplicar los cambios:

curl -X POST http://localhost:9093/-/reload

Configuración de Grafana Alerting

Si usas Grafana Alerting en lugar de (o además de) Prometheus Alertmanager:

  1. Ve a Alerting → Contact points
  2. Añade un nuevo contact point de tipo Webhook
  3. URL: https://centinelai.io/api/webhooks/grafana
  4. Añade el header: Authorization: Bearer TU_API_TOKEN
  5. Asigna el contact point a tus notification policies

centinelAI detecta automáticamente si la alerta viene en formato Grafana o formato Prometheus y la normaliza.

Cómo evalúa la IA las alertas de Prometheus

Para cada alerta que llega de Alertmanager, la IA evalúa:

  • Historial de resolución: ¿Las últimas 10 veces que se disparó esta alerta se resolvió sola? Si es así, baja el score significativamente
  • Duración: ¿Cuánto lleva activa la alerta? Una alerta de CPU alta que lleva 2 horas tiene mayor score que una que lleva 30 segundos
  • Labels de severidad: Los labels severity=critical y severity=warning de Prometheus se usan como señal de entrada
  • Correlación temporal: ¿Coincide con un deploy reciente? ¿Hay otras alertas relacionadas del mismo servicio o namespace?
  • Tipo de alerta: Alertas de KubeDeploymentReplicasMismatch tienen mayor peso que CPUThrottlingHigh en la mayoría de contextos

Compatibilidad con el stack existente

centinelAI está diseñado para coexistir con tu stack actual, no para reemplazarlo:

  • Compatible con Prometheus 2.x y Thanos
  • Compatible con Grafana 9+, 10+ y 11+
  • Compatible con VictoriaMetrics Alertmanager
  • Puedes mantener tus alertas existentes en PagerDuty u OpsGenie y añadir centinelAI como capa de enriquecimiento
  • El uso de continue: true en las rutas de Alertmanager permite que las alertas sigan fluyendo a tus otros receivers

Métricas de impacto típicas

Después de 30 días con centinelAI como capa de filtrado de Alertmanager, los equipos reportan:

  • Reducción del 93-97% de notificaciones recibidas en Slack
  • Sin incidentes críticos perdidos (el sistema tiene un sesgo conservador hacia los falsos positivos)
  • MTTA reducido de 45 min a menos de 10 min (señal más clara → respuesta más rápida)
  • Mejora en la calidad del on-call: menos interrupciones nocturnas innecesarias

Conecta tu Alertmanager en 5 minutos

Plan Starter gratuito. Sin cambios en tu stack existente.