Stale Hosts und Services nach Update auf 1.6

Hallo,

ich habe gestern unsere checkmk-Umgebung (10 Sites im Distributed Monitoring mit Distributed WATO auf Virtual Appliances) von Version 1.5.0p24 auf 1.6.0p10 aktualisiert. Vorher habe ich auch ein Firmware-Update von 1.4.6 auf 1.4.7 durchgeführt. Ich habe das Update nicht in einem Schritt durchgeführt, sondern wie folgt:
1.5.0p24 -> 1.6.0 -> 1.6.0p2 -> 1.6.0p5 -> 1.6.0p10

Direkt nach dem Update schwankte die Anzahl der stale Services zwischen 4.000 und 8.000 (bei insgesamt 27.000 Services). Das lag daran, dass 2 Sites scheinbar nicht ganz sauber liefen und war nach Neustart der entsprechenden Sites behoben.
Trotzdem bleiben jetzt noch etwa 1.000 stale Services, die meisten davon sind Discovery checks.
Stale Hosts hatten wir nach dem Update etwa 1.000, jetzt schwanken diese zwischen 50 und 150.

Hat jemand eine Idee, woran das ganze liegen kann?

Gruß Dominic

Hallo,

kannst du mal in die Performance-Werte deiner Site shauen? Eventuell sind deine Check-Helper ausgelastet und schaffen es nicht, alle Checks innerhalb der Check-Periode durchzuführen.

grafik

Du kannst diese Werte auch im Check der Perfromance zu deinem Monitoring-Server selbst sehen, sofern du ihn selbst überwachen lässt.

Ein Blick auf die Performance hat gezeigt, dass die Site nicht läuft. Auf der Site selber kann ich mich einloggen, habe aber folgende Meldung:


In der Site-Übersicht steht die Site auf Online.
image
Ich habe die Site neugestartet, der Performance-Check zeigt folgendes:

Sieht für mich eigentlich alles gut aus soweit.

Kannst du bitte prüfen, ob alle Services sauber laufen? omd status <sitename>

Es sieht danach aus, als gäbe es Probleme mit deinem Livestatus.

Du kannst Dir auch mal diesen Post Several checks always going stale angucken: Demzufolge kann es in der 1.6.0p10 “stale”-Probleme geben, die es in der p9 noch nicht gab.

In Ergänzung zu @tosch’s Beitrag: In seinem Screenshot steht in der ersten Zeile

Service checks: 465/s

Das kann auch als Indikator für eine Überlastung benutzt werden: Wenn Du z.B. 30.000 Services hast, bedeutet das, dass 30.000 Services/60 Sekunden = 500 Checks pro Sekunde ausgeführt werden müssen, damit alles läuft. Wenn der Wert deutlich darunter liegt, entstehen ebenfalls “stale”-Probleme.

Zu Deinem Screenshot: Die rote Meldung kommt gerne auch mal, wenn der cmk-Server “unter Wasser” ist. Sie verschwindet aber auch wieder. War bei mir zumindest so.

1 Like

@Dirk, danke für die Ergänzung zu den stale-Problemen in der p10, jetzt wo du es erwähnst erinnere ich mich an die Diskussion.

Die Services laufen auf Master- und Slave-Site alle. Die Site hat jetzt allerdings wieder dasselbe Problem wie in meiner ersten Antwort. Wird als online angezeigt, aber alle Hosts und Services sind stale und auf der Slave-Site selber wird der Livestatus-Error angezeigt.

@Dirk Ich habe die Site nochmal neugestartet, um mir die Statistik anzuschauen. Die Service checks fingen bei 300/s an und schwanken jetzt zwischen 20/s und 150/s. Bei etwa 4200 Services müsste das passen.

Ja, 20/s bis 150/s müsste passen. Bei 4.200 Services und 150/s sind die Checks (theoretisch) ja nach 28 Sekunden durch und danach geht die Check-Rate natürlich runter (z.B. auf 20/s), weil schlichtweg nichts mehr zu tun ist.

Ich habe die Site mal auf 1.6.0p9 umgestellt. Leider hat auch das keine Abhilfe geschaffen. Die Site stürzt weiterhin ab.

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.