====== Monitoring ====== **Zielgruppe:** DevOps, SRE \\ **Inhalt:** Metriken, Dashboards, Alerting \\ **Tools:** Prometheus, Grafana, Alertmanager Überwachung des Data Gateway für proaktive Fehlererkennung. ---- ===== Workflow ===== flowchart LR subgraph GATEWAY["🌐 DATA GATEWAY"] G1[/metrics Endpoint] G2[/health Endpoint] end subgraph COLLECT["📊 SAMMLUNG"] P[Prometheus] end subgraph VISUAL["📈 VISUALISIERUNG"] GR[Grafana] end subgraph ALERT["🚨 ALERTING"] AM[Alertmanager] E[E-Mail/Slack] end G1 --> P G2 --> P P --> GR P --> AM AM --> E style G1 fill:#e3f2fd style P fill:#fff3e0 style GR fill:#e8f5e9 style AM fill:#ffebee ---- ===== Runbooks ===== ^ Runbook ^ Beschreibung ^ Dauer ^ | [[.:prometheus|Prometheus]] | Metriken sammeln, Scrape-Config | ~15 Min | | [[.:grafana-dashboard|Grafana Dashboard]] | Visualisierung, vorgefertigte Dashboards | ~20 Min | | [[.:alerting|Alerting]] | Schwellwerte, Benachrichtigungen | ~15 Min | ---- ===== Wichtige Metriken ===== | Metrik | Beschreibung | Schwellwert | |--------|--------------|-------------| | ''http_requests_total'' | Anzahl HTTP-Anfragen | - | | ''http_request_duration_seconds'' | Response-Zeit | < 1s | | ''http_requests_in_progress'' | Aktive Anfragen | < 100 | | ''dotnet_gc_memory_total_available_bytes'' | Verfügbarer Speicher | > 100MB | | ''process_cpu_seconds_total'' | CPU-Nutzung | < 80% | ---- ===== Schnelltest ===== # Health Check curl http://localhost:5000/health # Metrics (wenn aktiviert) curl http://localhost:5000/metrics ---- ===== Verwandte Runbooks ===== * [[..:tagesgeschaeft:health-check|Health Check]] – Manuelle Prüfung * [[..:tagesgeschaeft:logs-pruefen|Logs prüfen]] – Fehleranalyse * [[..:sicherheit:start|Sicherheit]] – TLS für Metrics ---- << [[..:start|← Operator-Handbuch]] | [[.:prometheus|→ Prometheus]] >> ---- //Wolfgang van der Stille @ EMSR DATA d.o.o. - Data Gateway Professional// {{tag>operator monitoring prometheus grafana}}