====== Monitoring & Alerting ====== **Priorität 2** – Kritisch für Produktionsbetrieb \\ **Zielgruppe:** DevOps, SRE, IT-Operations Überwachung der PKI-Infrastruktur mit Fokus auf Zertifikatsablauf, Verfügbarkeit und Compliance. ---- ===== Übersicht ===== flowchart TB subgraph COLLECT["📊 DATENERFASSUNG"] C1[Prometheus Exporter] C2[cert-checker] C3[API Polling] end subgraph STORE["💾 SPEICHERUNG"] S1[Prometheus] S2[InfluxDB] S3[Elasticsearch] end subgraph VISUALIZE["📈 VISUALISIERUNG"] V1[Grafana] V2[Kibana] end subgraph ALERT["🚨 ALERTING"] A1[Alertmanager] A2[PagerDuty] A3[MS Teams] A4[E-Mail] end C1 --> S1 --> V1 C2 --> S1 --> A1 C3 --> S3 --> V2 A1 --> A2 & A3 & A4 style A1 fill:#ffebee style V1 fill:#e8f5e9 ---- ===== Szenarien ===== ^ Szenario ^ Beschreibung ^ Tools ^ | [[.:ablauf-monitoring|Ablauf-Monitoring]] | Zertifikatsablauf überwachen | Prometheus, Grafana | | [[.:revocation-check|Revocation-Check]] | CRL/OCSP Verfügbarkeit prüfen | curl, OpenSSL | | [[.:audit-logging|Audit-Logging]] | Compliance-konforme Protokollierung | Syslog, ELK | | [[.:alerting-setup|Alerting Setup]] | Benachrichtigungen einrichten | Alertmanager, PagerDuty | ---- ===== Metriken-Übersicht ===== | Metrik | Beschreibung | Schwellwerte | |--------|--------------|--------------| | ''cert_expiry_days'' | Tage bis Ablauf | Warn: 30, Crit: 7 | | ''crl_next_update_days'' | Tage bis CRL-Update | Warn: 3, Crit: 1 | | ''ocsp_response_time_ms'' | OCSP Response-Zeit | Warn: 500, Crit: 2000 | | ''ca_availability'' | CA erreichbar (0/1) | Crit: 0 | | ''signing_ops_per_hour'' | Signatur-Operationen | Info | ---- ===== Quick Start ===== **Minimales Setup (5 Minuten):** # 1. cert-exporter installieren wget https://github.com/enix/cert-exporter/releases/download/v2.0.0/cert-exporter_2.0.0_linux_amd64.tar.gz tar xzf cert-exporter_*.tar.gz ./cert-exporter --kubeconfig="" --files /etc/ssl/certs/*.pem & # 2. Ablaufende Zertifikate prüfen curl -s localhost:9793/metrics | grep cert_expires_in_seconds ---- ===== Stack-Empfehlungen ===== | Umgebung | Stack | Beschreibung | |----------|-------|--------------| | Klein (<100 Certs) | Script + E-Mail | Cron-Job mit E-Mail-Alerts | | Mittel (100-1000) | Prometheus + Grafana | Standard-Monitoring | | Groß (>1000) | ELK + Grafana + PagerDuty | Enterprise-Stack | | Kubernetes | cert-manager + Prometheus | Native Integration | ---- ===== Verwandte Dokumentation ===== * [[..:tagesgeschaeft:health-check|Health Check]] – Tägliche Prüfung * [[..:automatisierung:start|Automatisierung]] – Auto-Renewal * [[de:int:pqcrypt:administrator:betrieb|Betrieb]] – Systemwartung ---- << [[..:start|← Operator-Szenarien]] | [[.:ablauf-monitoring|→ Ablauf-Monitoring]] >> ---- //Wolfgang van der Stille @ EMSR DATA d.o.o. - Post-Quantum Cryptography Professional// {{tag>operator monitoring alerting prometheus grafana}}