Verzögerte Benachrichtigung

TimoSch · July 11, 2025, 6:01am

Guten Morgen zusammen,

die Anfrage ist wahrscheinlich nur eine Kleinigkeit;
wir haben Windows-Systeme, die in unregelmäßigen Zeiten neu starten.
Aufgrund das Windows-Dienste überwachte werden, werden diese in unserem Dashboard natürlich sofort angezeigt, dass diese nicht verfübar sind und werden als “CRIT” oder “WARN” angezeigt.

Das Ziel ist, wenn diese Systeme neu starten, dass die Benachrichtigungen für alle Services, also Windows-Dienste, Ping, usw. erst nach 15 Minuten auf “CRIT” gehen, wenn in dieser Zeit die Services nicht wieder in dieser Zeit gestartet wurden. Ich habe das schon in “Normal check interval for service checks” eingestellt, dass scheint aber nicht zu funktionieren.

Es sollen aber keine Benachrichtigungen als Mail o.ä. versendet werden, es geht lediglich die Anzeige im Service-Dashboard.

Vielen Dank vorab für eure Hilfe!
Timo

r.sander · July 11, 2025, 9:39am

Das lässt sich nicht ändern. Wenn Checkmk feststellt, dass ein Service CRIT ist, ist natürlich auch die Anzeige CRIT.

Das einzige, was sich verzögern lässt, ist die Erzeugung von Notifications (mit “Maximum number of check attempts” z.B.). Dann ließe sich in der Anzeige auch nach Soft und Hard State filtern.

uwoehler · July 15, 2025, 7:43am

Ich verwende zum Verzögern die Regeln “Delay service notifications” und “Delay host notifications”. Das ist aus meiner Sicht deutlich übersichtlicher.

TimoSch · July 15, 2025, 7:57am

Hallo Udo,

die Richtlinien habe ich auch bereits verwendet, bin aber nicht zum eigentlichen Ergebnis gekommen. Betrifft das nicht eher die “Benachrichtigung” wenn Alerts verwendet werden, also, wenn ein Service nicht mehr “Ok” ist, wird erst später z.B. eine Mail an den Kontakt versendet?

uwoehler · July 15, 2025, 8:50am

Ja. Wie Robert schon sagte, kommst Du um das Crit in der GUI nicht rum. Das einzige was noch ginge, wäre eine View zu erstellen, die Problem Services darstellt und auf “service state type” = hard gefiltert ist. Den Hard State kann man mit “Maximum number of check attempts” verzögern.

TimoSch · July 15, 2025, 9:06am

Tja, Schade, dann komme ich wohl leider nicht so zum Ziel.

Dennoch, danke euch beiden für eure Hilfe!!

gstolz · July 15, 2025, 1:11pm

Falls der “unregelmäßige Restart” der Windows Systeme nicht total ungeplant ist, könntest du das System selbst (oder von einem dritten System, dass auch den Reboot triggert) natürlich für jeden Reboot noch eine 15 Minuten Downtime auf den jeweiligen Host setzen. Dann werden die Probleme aus der GUI ausgeblendet. (Also zumindest von allen typischen Dashboards/Problem views)
Wurde hier erst vor kurzem besprochen: Downtime per API

TimoSch · July 16, 2025, 4:04am

Der Neustart ist ungeplant. Es handelt sich um Citrix VDI-Systeme, 24x7, die nach einer Abmeldung des Anwender grundsätzlich neu starten, damit diese Systeme für die nächsten Anwender in einem bereinigten Zustand wieder zur Verfügung gestellt werden. Und da die Dienste hier ein paar Minuten länger brauchen, und ggf. auch mehrere Maschinen neu starten, z.B. wenn eine neue vDisk zur Verfügung gestellt wird, sieht das Service-Dashboard entsprechend aus. Und das wollte ich somit vermeiden.

gstolz · July 16, 2025, 8:43am

Hi Timo,

ok dann wirds schwierig falls der Mechanismus der nach dem Logout des Users den Reboot ausführt nicht durch Scripte erweitert werden kann. Ginge das?

Alternative: du baust für die Hosts recurring downtimes, z.B. alle 2 Stunden für 2 Stunden (oder auch 24x1h in 24 Regeln) in der du die Flexible Downtime von 15 Minuten einträgst, dann ist der Host ab dem Moment wo er DOWN geht für 15 Minuten in Downtime. Und das darf dann 1x pro Stunde passieren. (Hinweis: recurring downtimes sind ein CEE feature, der Nagios Core kann das leider nicht.)

Gerd

TimoSch · July 16, 2025, 9:45am

Hallo Gerd,

die Alternative kommt etwa in die Richtung, was das eigentliche Ziel war,
ich werde das mal für einen Zeitraum versuchen auf Basis “Host”.

Ist meine Vermutung richtig, wenn die Richtlinie aktiviert wird, die Verfügbarkeit der betroffenen Systeme, etwas verfälscht wird, wenn diese in dem Zeitplan nicht gebootet werden? Immerhin stehen diese ja dann als “Down” obwohl diese ja eigentlich “Ok” wären.

Danke für die Tipps.
Timo

gstolz · July 16, 2025, 10:59am

Hi Timo,

nein die Verfügbarkeit ist davon nicht betroffen, denn die flexible Downtime ist quasi nur eine Downtime in Bereitschaft, diese wird erst aktiviert wenn der Host auf DOWN wechselt. Solang dein Host UP ist, wird also jeder Service alert regulär erfasst.
Ab dem Down Moment greift dann die flexible Downtime für die definierte Länge auf den Host + implizit somit seine Services.

Gerd

TimoSch · July 16, 2025, 11:55am

Ich habe das so eingestellt:

Wäre das so ok?

gstolz · July 16, 2025, 12:20pm

das würde gehen - wenn du sie jede Stunde wiederholst, würde als Duration auch 1 hour reichen

TimoSch · July 16, 2025, 12:44pm

Passt.

Allerdings habe ich die Anpassungen in Recurring downtimes for services gemacht. Repeat und duration auf eine Stunde, Flex auf 15 Minuten. Die Services sind zwar im ersten Moment auf CRIT, gehen aber dann nach einem kurzen Moment auf Downtime. Aber kommt der eigentlichen Anforderung sehr nahe!!

Vielen Dank