====== Nadzor ====== **Ciljna skupina:** DevOps, SRE \\ **Vsebina:** Metrike, nadzorne plošče, opozarjanje \\ **Orodja:** Prometheus, Grafana, Alertmanager Spremljanje Data Gateway za proaktivno odkrivanje napak. ---- ===== Potek dela ===== flowchart LR subgraph GATEWAY["DATA GATEWAY"] G1[/metrics končna točka] G2[/health končna točka] end subgraph COLLECT["ZBIRANJE"] P[Prometheus] end subgraph VISUAL["VIZUALIZACIJA"] GR[Grafana] end subgraph ALERT["OPOZARJANJE"] AM[Alertmanager] E[E-pošta/Slack] end G1 --> P G2 --> P P --> GR P --> AM AM --> E style G1 fill:#e3f2fd style P fill:#fff3e0 style GR fill:#e8f5e9 style AM fill:#ffebee ---- ===== Runbooks ===== ^ Runbook ^ Opis ^ Trajanje ^ | [[.:prometheus|Prometheus]] | Zbiranje metrik, Scrape konfiguracija | ~15 min | | [[.:grafana-dashboard|Grafana nadzorna plošča]] | Vizualizacija, vnaprej pripravljene nadzorne plošče | ~20 min | | [[.:alerting|Opozarjanje]] | Pragovi, obvestila | ~15 min | ---- ===== Pomembne metrike ===== | Metrika | Opis | Prag | |--------|--------------|-------------| | ''http_requests_total'' | Število HTTP zahtev | - | | ''http_request_duration_seconds'' | Odzivni čas | < 1s | | ''http_requests_in_progress'' | Aktivne zahteve | < 100 | | ''dotnet_gc_memory_total_available_bytes'' | Razpoložljiv pomnilnik | > 100MB | | ''process_cpu_seconds_total'' | Poraba procesorja | < 80% | ---- ===== Hitri test ===== # Health Check curl http://localhost:5000/health # Metrike (če aktivirano) curl http://localhost:5000/metrics ---- ===== Povezani Runbooks ===== * [[..:tagesgeschaeft:health-check|Health Check]] - Ročno preverjanje * [[..:tagesgeschaeft:logs-pruefen|Pregled dnevnikov]] - Analiza napak * [[..:sicherheit:start|Varnost]] - TLS za metrike ---- << [[..:start|<- Operaterski priročnik]] | [[.:prometheus|-> Prometheus]] >> ---- //Wolfgang van der Stille @ EMSR DATA d.o.o. - Data Gateway Professional// {{tag>operator monitoring prometheus grafana}}