Performanceprobleme Checkmk Enterprise Edition 2.3.0p2

Hallo hallo,

seit dem Update haben wir von 3 Sites eine die Komplett in die 100% CPU last fällt, auf der sind 4 Kubernetes Cluster.
Vor dem Update war die last bei 20-30%.
Das ganze sieht im htop so aus:


Kann mir jemand zur Fehleranalyse helfen? Ich stehe jetzt bisschen auf den Schlauch :smiley:

Die Prozesse im Screenshot sind eigentlich alles Discovery Services. Ich würde mal auf der command line schauen warum die so lange laufen.
Mehr lässt sich aus dem beiden Sachen nicht raus lesen.

Wie lange war der Core bei dem Software Update denn inaktiv?
Sobald er wieder laeuft triggert er ja die ueberfaelligen Checks was dann kurzzeitig zu einer hohen Last fuehren kann.
Wenn das aber laenger (>12h) auf Volllast laufen sollte und sich nicht erholt muesste man wirklich schauen was mit den Prozessen da los ist.

Einmal warum sie so lange laufen. Die command line aus dem htop kann man denke ich direkt kopieren und als Site user ausfuehren.

Und dann pickt man sich noch speziell einen Hostnamen heraus und prueft das Check/Retry Interval vom HW/SW service.
Manchmal gibts Installationen bei denen das Check Interval auf >1h konfiguriert ist - das passt soweit.
Beim Retry Interval dann aber 60 Sekunden konfiguriert sind. Und das fuehrt dann natuerlich dazu, dass der Service wesentlich oefters aufgerufen wird wenn er mal ungleich OK sein sollte.

1 Like


Das Problem hat sich mit dem Ausschluss von Kubernetes erledigt.

Ich frage mich warum ich das überhaupt mit reingenommen hatte, steht ja nicht in der Anleitung?