Integración
Reducir el ruido de Prometheus Alertmanager con IA
Añade centinelAI como webhook receiver en tu Alertmanager o Grafana en 5 minutos. La IA evalúa cada alerta con contexto histórico y solo escala las que realmente importan.
El problema de Prometheus: alertas por defecto demasiado ruidosas
Prometheus y Alertmanager son herramientas excelentes para la monitorización de métricas. El problema es que sus configuraciones por defecto (y las de la mayoría de helm charts de reglas de alertas) están calibradas para no perder nada, con umbrales muy conservadores.
El resultado típico: un equipo que usa Alertmanager con las reglas por defecto de kube-prometheus-stack recibe entre 50 y 200 alertas diarias, de las cuales el 95% se autoresuelven sin intervención.
centinelAI no reemplaza tu Alertmanager. Actúa como una capa de inteligencia entre Alertmanager y tu equipo, evaluando cada alerta antes de decidir si vale la pena interrumpir a alguien.
Configuración de Alertmanager (5 minutos)
Añade centinelAI como receiver en tu alertmanager.yml:
receivers:
- name: centinelai
webhook_configs:
- url: https://centinelai.io/api/webhooks/prometheus
http_config:
authorization:
credentials: TU_API_TOKEN
send_resolved: true
route:
receiver: centinelai
# O añádelo como receiver adicional manteniendo el existente:
routes:
- receiver: centinelai
continue: true # Envía a centinelAI Y al receiver originalRecarga Alertmanager para aplicar los cambios:
curl -X POST http://localhost:9093/-/reload
Configuración de Grafana Alerting
Si usas Grafana Alerting en lugar de (o además de) Prometheus Alertmanager:
- Ve a Alerting → Contact points
- Añade un nuevo contact point de tipo Webhook
- URL:
https://centinelai.io/api/webhooks/grafana - Añade el header:
Authorization: Bearer TU_API_TOKEN - Asigna el contact point a tus notification policies
centinelAI detecta automáticamente si la alerta viene en formato Grafana o formato Prometheus y la normaliza.
Cómo evalúa la IA las alertas de Prometheus
Para cada alerta que llega de Alertmanager, la IA evalúa:
- Historial de resolución: ¿Las últimas 10 veces que se disparó esta alerta se resolvió sola? Si es así, baja el score significativamente
- Duración: ¿Cuánto lleva activa la alerta? Una alerta de CPU alta que lleva 2 horas tiene mayor score que una que lleva 30 segundos
- Labels de severidad: Los labels
severity=criticalyseverity=warningde Prometheus se usan como señal de entrada - Correlación temporal: ¿Coincide con un deploy reciente? ¿Hay otras alertas relacionadas del mismo servicio o namespace?
- Tipo de alerta: Alertas de
KubeDeploymentReplicasMismatchtienen mayor peso queCPUThrottlingHighen la mayoría de contextos
Compatibilidad con el stack existente
centinelAI está diseñado para coexistir con tu stack actual, no para reemplazarlo:
- Compatible con Prometheus 2.x y Thanos
- Compatible con Grafana 9+, 10+ y 11+
- Compatible con VictoriaMetrics Alertmanager
- Puedes mantener tus alertas existentes en PagerDuty u OpsGenie y añadir centinelAI como capa de enriquecimiento
- El uso de
continue: trueen las rutas de Alertmanager permite que las alertas sigan fluyendo a tus otros receivers
Métricas de impacto típicas
Después de 30 días con centinelAI como capa de filtrado de Alertmanager, los equipos reportan:
- Reducción del 93-97% de notificaciones recibidas en Slack
- Sin incidentes críticos perdidos (el sistema tiene un sesgo conservador hacia los falsos positivos)
- MTTA reducido de 45 min a menos de 10 min (señal más clara → respuesta más rápida)
- Mejora en la calidad del on-call: menos interrupciones nocturnas innecesarias
Conecta tu Alertmanager en 5 minutos
Plan Starter gratuito. Sin cambios en tu stack existente.