====== Monitoring & Alerting ======
**Priorität 2** – Kritisch für Produktionsbetrieb \\
**Zielgruppe:** DevOps, SRE, IT-Operations
Überwachung der PKI-Infrastruktur mit Fokus auf Zertifikatsablauf, Verfügbarkeit und Compliance.
----
===== Übersicht =====
flowchart TB
subgraph COLLECT["📊 DATENERFASSUNG"]
C1[Prometheus Exporter]
C2[cert-checker]
C3[API Polling]
end
subgraph STORE["💾 SPEICHERUNG"]
S1[Prometheus]
S2[InfluxDB]
S3[Elasticsearch]
end
subgraph VISUALIZE["📈 VISUALISIERUNG"]
V1[Grafana]
V2[Kibana]
end
subgraph ALERT["🚨 ALERTING"]
A1[Alertmanager]
A2[PagerDuty]
A3[MS Teams]
A4[E-Mail]
end
C1 --> S1 --> V1
C2 --> S1 --> A1
C3 --> S3 --> V2
A1 --> A2 & A3 & A4
style A1 fill:#ffebee
style V1 fill:#e8f5e9
----
===== Szenarien =====
^ Szenario ^ Beschreibung ^ Tools ^
| [[.:ablauf-monitoring|Ablauf-Monitoring]] | Zertifikatsablauf überwachen | Prometheus, Grafana |
| [[.:revocation-check|Revocation-Check]] | CRL/OCSP Verfügbarkeit prüfen | curl, OpenSSL |
| [[.:audit-logging|Audit-Logging]] | Compliance-konforme Protokollierung | Syslog, ELK |
| [[.:alerting-setup|Alerting Setup]] | Benachrichtigungen einrichten | Alertmanager, PagerDuty |
----
===== Metriken-Übersicht =====
| Metrik | Beschreibung | Schwellwerte |
|--------|--------------|--------------|
| ''cert_expiry_days'' | Tage bis Ablauf | Warn: 30, Crit: 7 |
| ''crl_next_update_days'' | Tage bis CRL-Update | Warn: 3, Crit: 1 |
| ''ocsp_response_time_ms'' | OCSP Response-Zeit | Warn: 500, Crit: 2000 |
| ''ca_availability'' | CA erreichbar (0/1) | Crit: 0 |
| ''signing_ops_per_hour'' | Signatur-Operationen | Info |
----
===== Quick Start =====
**Minimales Setup (5 Minuten):**
# 1. cert-exporter installieren
wget https://github.com/enix/cert-exporter/releases/download/v2.0.0/cert-exporter_2.0.0_linux_amd64.tar.gz
tar xzf cert-exporter_*.tar.gz
./cert-exporter --kubeconfig="" --files /etc/ssl/certs/*.pem &
# 2. Ablaufende Zertifikate prüfen
curl -s localhost:9793/metrics | grep cert_expires_in_seconds
----
===== Stack-Empfehlungen =====
| Umgebung | Stack | Beschreibung |
|----------|-------|--------------|
| Klein (<100 Certs) | Script + E-Mail | Cron-Job mit E-Mail-Alerts |
| Mittel (100-1000) | Prometheus + Grafana | Standard-Monitoring |
| Groß (>1000) | ELK + Grafana + PagerDuty | Enterprise-Stack |
| Kubernetes | cert-manager + Prometheus | Native Integration |
----
===== Verwandte Dokumentation =====
* [[..:tagesgeschaeft:health-check|Health Check]] – Tägliche Prüfung
* [[..:automatisierung:start|Automatisierung]] – Auto-Renewal
* [[de:int:pqcrypt:administrator:betrieb|Betrieb]] – Systemwartung
----
<< [[..:start|← Operator-Szenarien]] | [[.:ablauf-monitoring|→ Ablauf-Monitoring]] >>
----
//Wolfgang van der Stille @ EMSR DATA d.o.o. - Post-Quantum Cryptography Professional//
{{tag>operator monitoring alerting prometheus grafana}}