Verteilte Umgebung: Packages auf dem Slave verschwinden manchmal trotz aktiviertem "Replicate extensions"

Hallo,

wir haben 2.0.0p25 (CEE) auf paar Slaves und einem Master laufen. Die Replikation von MKPs ist in der Konfiguration eingeschaltet und funktioniert an sich.

Es ist mir aufgefallen, dass das Verschieben von Hosts von einer Seite auf eine andere zum folgenden Problem führt:

Währen der Aktivierung der Änderung (drei Hosts von der einen auf eine andere Seite Verschieben) kommt es zu nicht Replizieren von MKPs auf die Ziel-Seite. Das führt direkt zu einer Warnung an der Ziel-Seite im Aktivieren-Screen, weil angeblich nicht genutzte Konfiguration gefunden wurde (zu der jetzt die entsprechenden MKPs fehlen). Das Verzeichnis “local/share/check_mk/checks/” in der Ziel-Seite ist tatsächlich leer. Das Fehlen der replizierten Plugins führt dann noch zu den anderen Unannehmlichkeiten wie Alerts und das Verschwinden von eingetragenen Acknowledgements/Downtimes für die Services, die auf den verschwundenen Plugins basieren.

Eine schnelle Abhilfe: eine Kleinigkeit wie einen Timeout-Wert in der Konfiguration der betroffenen Seite (Edit site connection) ändern und die Änderung aktivieren. Die Packages werden wieder repliziert und die Warnung im Aktivierungs-Screen verschwindet. Jetzt muss ich noch die verschwundenen Acknowledgements/Downtimes nachziehen.

Ich habe auf die schnelle nichts passendes in Logfiles gefunden. In Werks habe das gefunden:
Werk #14051: Fix crash in activate changes
Das Problem könnte doch damit zusammenhängen, weil es erst jetzt auftaucht und die Version 2.0.0.p21 nicht betroffen war.

Kennst das jemand? Eine Idee, wo ich nach der Ursache suchen kann?

Viele Grüße
Hermann M.

Das Problem tritt auch dann auf, wenn man Hosts einfach umbenennt.

MfG
Hermann M.

Zu dem Problem hab ich schon recht lange ein Ticket mit ausführlichem Troubleshooting laufen.
Zur Zeit sind wir an dem Punkt, dass das System glaubt alle Dateien auf dem Slave System müssen gelöscht werden → keine Ahnung warum :slight_smile:

Das Problem hier ist einfach es tritt nur bei einem von meinen vielen betreuten Systemen auf.

Danke für die Info, Andreas!
Ja, ich kann bestätigen, dass bei Weitem nicht alle Slaves betroffen sind, sondern nur welche (in unserem Fall, 2 von 8). Wobei es doch noch auf die Änderung selbst ankommt, welche betroffen sind. Ich konnte jedenfalls kein Muster erkennen: jemand benennt einen Host um und eine bestehende Regel, in der auf den Host referenziert wird, wird auch mit geändert, und das führt zum Löschen der Plugins auf einem anderen Slave, als auf dem der zu umbenennende Host eigentlich läuft.
Bleibt der Support an dem Thema dran, läuft die Fehlersuche weiter?

Viele Grüße
Hermann M.

Ich habe eine E-Mail mit dem Problembericht an CMK vor paar Wochen geschickt.
sollte es etwas neues geben, werde ich hier berichten.

Viele Grüße
Hermann M.

Hallo Hermann, hallo Andreas,

die Änderungen in “Fix crash in activate changes” scheint auch in der RAW Edition zum Tragen zu kommen. In der 2.0.0p25 habe ich nur sporadisch den Session_info Fehler. Vor der Version p25 sind diese mir nicht aufgefallen.

Viele Grüße

Ich kann auch mal ein kurzes Update zu meinem eigentlichen Problem geben.

Wir konnten zusammen (mit Andreas Bösl) den Fehler erfolgreich eingrenzen.
Kurze Zusammenfassung

  • die Löschung der unter ~/local befindlichen Daten geschieht nur in Umgebungen wo es Salves mit mkp Sync und welche ohne gibt.
  • es wird die ~/local Struktur auf dem Slave dann gelöscht wenn in der Liste der zu aktivierenden Site eine Site ohne mkp Sync am Anfang der abzuarbeitenden Sites steht.
  • werden nur Sites aktiviert welche mkp Sync aktiv haben so ist alles ok
1 Like