Es sind Dinge grün/OK die aber eigentlich kaputt sind (stale checks)

Als Ergänzung zu @andreas-doehler :

Wenn das Euer Spezialagent ist, dann schreibt ihn so, dass er im Fehlerfall auch Fehler liefert.

Wenn er da eine dynamische Liste von Service Checks “beliefert”, geht das halt prinzipbedingt nicht. Und CheckMK selber sieht nur, dass über mehr als anderthalb Checkintervalle keine frischen Daten reingekommen sind. Genaugenommen ist das auch nur eine Anzeige in der GUI, der Monitoringkern hat dami nichts zu tun, soweit ich weiß. Deshalb ist “stale” auch kein Service-Zustand, der alarmieren könnte.

Ich wüsste nicht, wie sich das technisch anders lösen lassen sollte, außer im Monitoring-Kern die Logik zu ändern. Und dann sind wir nicht mehr Nagios-kompatibel.

1 Like