Activate changes dauert sehr lange

JoJo · August 9, 2021, 1:36pm

Hallo

bei mir dauert das aktivieren von Änderungen extrem lange (aktuelle Version ist CEE 2.0.0p8). Von Ursprünglich 4 - 10 Sekunden sind wir jetzt zwischen 70 und 90 Sekunden (in CEE 2.0.0.p6).

Hier ein “schnelles” reload

–

Time needed [cmc_all_hosts]: 72.86 sec

Time needed [cmc_groups]: 0.00 sec

Time needed [cmc_stringlist]: 0.00 sec

Time needed [cmc_contactlists]: 0.00 sec

–

Der Server hat aktuell 24 vCPUs und 56GB RAM. Die Auslastung ist nicht außergewöhnlich hoch (CPU/RAM). Bei einem cmk –R sieht man, dass ab und zu ein Kern für kurze Zeit auf 100% geht. Woran kann das liegen? Wo kann ich nachsehen?

Danke, lg

rprengel · August 9, 2021, 1:41pm

Hallo,
bitte Details zum Betriebssystem und zur Hardware bitte.
Was wurde in letzter Zeit geändert.
Wieviele Sites laufen auf dem System oder läuft alles in einer Site?
Gruß

JoJo · August 9, 2021, 2:06pm

OS: CentOS Linux release 7.9.2009
VM auf ESX:
CPU: 24vCPUs (Intel(R) Xeon(R) Gold 6248R CPU @ 3.00GHz)
RAM: 56GB

Änderungen gibt es natürlich laufend im Wato. Die größte Änderung war das Update auf 2p7 bzw. kurz danach auf p8.

Wir haben alles in einer site.

r.sander · August 9, 2021, 2:13pm

Mal cmk --debug -vvv -R starten und schauen, wo es hängt.

rprengel · August 9, 2021, 2:24pm

Hallo,
den Debug-Tip hast du ja schon bekommen.
Schau auf dem ESX Host mittels Vsphere mal an ob sie Überwachung Probleme mit der CPU Last oder den Platten meldet.
Wurden neue VMs in Betrieb genommen?
Gruß

JoJo · August 9, 2021, 2:28pm

Habe ich schon. Der Output bleibt immer bei unterschiedlichen host configs stehen. Bei jedem reload sind es unterschiedliche.

r.sander · August 9, 2021, 2:46pm

Das sehe ich bei einem Kunden auch (und auch schon mit checkmk 1.6 und cmc).
Die Entwickler haben da noch keinen guten Ansatz. Evtl hat es etwas mit der Parallelisierung der Konfigurationserstellung zu tun. Diese lässt sich in den global Settings einstellen (“Parallelize core config creation”).

rprengel · August 9, 2021, 2:58pm

Hallo,
dann solltest du feedback anschreiben.
Ggf. hat München ja Interesse sich wenn möglich mal aufzuschalten.
Deine DNS Auflösung ist schnell und stabil?
Gruß
Ralf

JoJo · August 10, 2021, 8:49am

Hallo,

ja DNS funktioniert ohne Probleme. “Parallelize core config creation” ist aktiviert.

thorian93 · August 10, 2021, 10:41am

Ich habe nicht so breite Erfahrung mit Checkmk, aber ich kenne mein Linux und vSphere. Kann es also sein, dass einfach die Festplatten nicht hinterher kommen? Treten ähnliche Probleme vielleicht auf anderen Systemen im gleichen Datastore auf? Oder kannst du das ausschließen?

JoJo · August 10, 2021, 10:56am

Engpässe bei Disk, CPU, RAM ,… kann ich im Moment ausschließen.

sru · August 11, 2021, 5:42pm

Haben wir auch, 5x multisite.
Sehen zusätzlich dass checkmk-agents auf virtuellen maschinen aller Typen sporadisch hängen bleiben, darauf schieb ich das (pidof ‘tr’) ist ein Indiz dafür.
Werden aktuell nach 45 Minuten mittels local check abgeschossen.
Via feedback berichtet, jedoch “kein feedback :-)”

andreas-doehler · August 12, 2021, 5:28am

Mal zum testen deaktivieren. Ich denke das hat @r.sander gemeint das dies das Problem verursachen kann.

JoJo · August 12, 2021, 6:21am

Habe ich auch probiert. Die Aktivierung dauert dann 134 Sekunden.

andreas-doehler · August 12, 2021, 6:58am

Dann scheints ja offensichtlich was anderes zu sein. Die Hosts bei dehnen er “hängt” haben auch nix gemein oder? Also solche Sachen wie “keine IP” DNS Lookup notwendig oder ähnliches?

Yenky · August 12, 2021, 6:59am

Hallo Jojo

Hast du eventuell Satelliten im Einsatz? Wenn ja, kann die lange dauernde Aktivierung auch durch die Synchronisation einer grossen Datei im local Verzeichnis verursacht werden.

LG Jens

andreas-doehler · August 12, 2021, 7:04am

Das sollte keine Auswirkung haben bei einem “cmk -R” auf der Command Line. Im Web mit mehreren Instanzen ok dann siehst das ja bei den einzelnen Instanzen.

JoJo · August 12, 2021, 7:46am

Nein, haben wir noch nicht.

JoJo · August 12, 2021, 7:52am

Wir haben seit einiger Zeit 6 Rules in der Konfig welche Services auf SQL Servern deaktivieren. Diese Rules haben mehrere 100 Einträge. Kann es daran liegen? Ein “do not apply” bei einer Regel habe ich schon bei einem Server probiert und hat keine Änderung gebracht. Wird eventuell trotzdem die Regel ausgewertet?
(Ich kann nicht sagen ob wir diese Rules nicht bereits vor dem Problem mit der langen Laufzeit hatten)

JoJo · August 12, 2021, 7:53am

Dann scheints ja offensichtlich was anderes zu sein. Die Hosts bei dehnen er “hängt” haben auch nix gemein oder? Also solche Sachen wie “keine IP” DNS Lookup notwendig oder ähnliches?

Nein leider nicht. Es sind immer unterschiedliche hosts.