Auswertung: wie oft hat ein check in den letzten 24h auf x Systemen gefeuert

Hi,
ich habe eine Anforderung eines Kunden bekommen, dieser möchte folgendes…

Wir überwachen auf seinen Systemen den CPU Load, wir eskalieren die Meldungen aber nicht. D.h. man sieht sie nur im Gui und die Alarme kommen und gehen sporadisch. Jetzt möchte der Kunde gerne eine View/Dashboard, in dem er sehen kann, wie oft der CPU Load-Schwellwert eines Systems in den letzten 24h gerissen wurde.
Also sowas:

Hostname CPU Load Count letzten 24h
hostname1 …………… 10
hostname2 …………… 2
hostname3 …………… 5

Was ich bisher hinbekommen habe, eine View auf Basis der View Host & service history. An dieser Stelle fehlt dann eigentlich nur noch ein Count auf den Service. Mit dem was ich bisher gebaut habe, könnten wir aber auch leben.

Ein Alerting ist ja leider nicht möglich, soweit ich weiß. Dazu müsste man auch geschlossene Alarme bei den check attempts berücksichtigen können.

Wie würdet ihr das realisieren? Gibts da noch (bessere) Möglichkeiten, in checkmk?

VG
Christian

Hallo Christian,

wir haben bei uns so etwas ähnliches im Einsatz.
Eigentlich ist es ganz einfach (wenn man weiß wo es steht :D). Du erstellst eine neue View mit “Alert Statistics” als Datenquelle.
Für die Spalten kannst du dann verschiedene Sachen auswählen wie z.B.: “Log Entries: Alert Statistics: Number of problem alerts”. Dies zeigt dir dann für jeden Service die Anzahl der Überschreitungen an.
Ich hoffe, ich konnte dir damit helfen.

Mit freundlichen Grüßen
Alex

In den “Alert Statistics” sieht man leider nur wie viele Events es in dieser Zeitperiode gegeben hat aber nicht wann diese aufgetreten sind. In diesem Kontext vermisse ich oft eine Zeitleiste wie man sie von Splunk, Elastic und Co. her kennt:

Damit könnte man dann auch sehen wann Events/Alerts in welcher häufigkeit aufgetreten sind und zeitliche Auffälligkeiten erkennen, wie z.B. die Events treten gehäuft zwischen 02:00 und 04:00 Uhr auf.

@CFriedrich
Du könntest auch einfach die Checkmk Logs in ein Splunk, Elastic oder vergleichbares Tool laden und die Auswertung dann da machen. Möglicherweise ginge das auch irgendwie direkt via Checkmk Grafana Plugin.

Mit der Ansicht “Availability” kann das auch Checkmk, auch wenn es ein wenig anders aussieht. Aber um zu erkennen, wann ein Problem häufiger auftritt, reicht das eigentlich aus.

1 Like

@alex23
Ich kenne diese Ansicht aber ich persönlich finde sie ist in dieser Form nicht geeignet für solche Auswertungen.

Hier ein Beispiel:

Auch kann die Timeline nicht für mehrere Messpunkte kombiniert werden.

Gerade wieder was Neues gelernt:

In der Availability View ist die Timeline auch zu sehen, womit man die Services miteinander vergleichen kann: