“Activate changes” failed (2.1.0p18.cre)

Liebe Experten,

Ich habe ein

omd version: OMD - Open Monitoring Distribution Version 2.1.0p18.cre

auf

cat /etc/os-release: NAME=“openSUSE Leap”, VERSION=“15.2”

Das CheckMK wurde mit Updates auf diese Version gebracht, wobei bei jedem Schritt, wie empfohlen, die unkompatiblen Werks gesichtet und bestätigt wurden.

Prinzipiell läuft alles wie gewünscht, nur dass seit gestern Konfigurationen nicht mehr aktiviert werden können.

Der letzte Schritt war, dass

der Server “japsand” auf “do not monitor” gesetzt wurde. Diese Änderung wurde erfolgreich aktiviert, obwohl der Server für den Service ‘TEF-Web’ ein Elternteil ist.

Der Server wurde physisch vom Switch getrennt, dessen SFP wechselte den Platz und dort wurde ein anderer Server angeschlossen.

Die daraufhin bemerkten vanished und unmonitored services beim Switch wurden in einem Schritt mit “Remove vanished services” und “Monitor undecided services” bedient.

Das anschliessende “Activate on selected sites” endet mit der roten Meldung:

Progress failed:

Started at: 14:51:08. Finished at: 14:51:22.

Error running automation call restart (exit code 1), error:

Nagios Core 3.5.1

Copyright (c) 2009-2011 Nagios Core Development Team and Community Contributors

Copyright (c) 1999-2009 Ethan Galstad

Last Modified: 08-30-2013

License: GPL

Website: http://www.nagios.org

Reading configuration data...

Read main config file okay...

Processing object config directory '/omd/sites/cmk_buero/etc/nagios/conf.d'...

Processing object config file '/omd/sites/cmk_buero/etc/nagios/conf.d/templates.cfg'...

Processing object config file '/omd/sites/cmk_buero/etc/nagios/conf.d/check_mk_objects.cfg'...

Processing object config file '/omd/sites/cmk_buero/etc/nagios/conf.d/check_mk_templates.cfg'...

Read object config files okay...

Running pre-flight check on configuration data...

Checking services...

Checked 1971 services.

Checking hosts...

<div class=err>Error: 'japsand' is not a valid parent for host 'TEF-Web'!</div>

Checked 70 hosts.

Checking host groups...

Checked 1 host groups.

Checking service groups...

Checked 0 service groups.

Checking contacts...

Checked 5 contacts.

Checking contact groups...

Checked 5 contact groups.

Checking service escalations...

Checked 0 service escalations.

Checking service dependencies...

Checked 52 service dependencies.

Checking host escalations...

Checked 0 host escalations.

Checking host dependencies...

Checked 0 host dependencies.

Checking commands...

Checked 77 commands.

Checking time periods...

Checked 1 time periods.

Checking for circular paths between hosts...

Checking for circular host and service dependencies...

Checking global event handlers...

Checking obsessive compulsive processor commands...

Checking misc settings...

Total Warnings: 0

Total Errors: 1

***> One or more problems was encountered while running the pre-flight check...

Check your configuration file(s) to ensure that they contain valid

directives and data defintions. If you are upgrading from a previous

version of Nagios, you should be aware that some variables/definitions

may have been removed or modified in this version. Make sure to read

the HTML documentation regarding the config files, as well as the

'Whats New' section to find out what has changed.

An error occurred: Error creating configuration: Configuration for monitoring core is invalid. Rolling back. The broken file has been copied to "/omd/sites/cmk_buero/tmp/check_mk/check_mk_objects.cfg.broken" for analysis.

Egal was im weiteren konfiguriert wird – es kann nicht aktiviert werden.

Ein “Discard all pending changes” liefert die gleiche (rote) Antwort wie der Aktivierungsversuch.

In dem file “/omd/sites/cmk_buero/tmp/check_mk/check_mk_objects.cfg.broken” sehe ich die gewünschte Konfiguration mit dem Fehler “japsand” als parent für “TEF-Web”, da es “japsand” als host nicht mehr gibt.

In dem aktiven file /omd/sites/cmk_buero/etc/nagios/conf.d/check_mk_objects.cfg residiert offenbar noch die Konfiguration vor den Änderungen.

Ein Neustart der Instanz hat nicht geholfen.

Was muss ich nun tun, damit die pending changes verschwinden oder aktiviert werden können?

TEF-Web darf nicht mehr japsand als Parent haben.

Ja, das habe ich geahnt. Wenn ich das über die GUI versuche, ist es der 8. pending change und der beschriebene Fehler erscheint wieder.
Ich weiß leider nicht, wie das auf anderem Weg gemacht werden kann.
Muss ich das file /omd/sites/cmk_buero/etc/nagios/conf.d/check_mk_objects.cfg editieren? Und wenn ja, ist das nur die eine Stelle im Host TEF-Web? Und wahrscheinlich bei gestoppter Instanz(?).

Nein, denn das ist ja die durch die Aktivierung erzeugte Datei.

Das “Original” liegt unterhalb von $OMD_ROOT/etc/check_mk/conf.d/wato in dem Ordner, in dem der Host TEF-Web liegt. Da sollte in der Datei hosts.mk auch die Parent-Konfiguration zu finden sein.

In der Datei OMD[cmk_buero]:~/etc/check_mk/conf.d/wato/colt/server/hosts.mk
sehe ich den Eintrag:
explicit_host_conf['parents'].update({. . . , 'TEF-Web': 'borkum',. . . })
Vorher müssten beide Server (“borkum” und “japsand”) als Parents eingetragen gewesen sein. Die Austragung von japsand hatte ich direkt nach dem Auftreten des Fehlers gemacht und sie ist offensichtlich auch ausgeführt worden. Nur aktivieren lassen sich die pending changes nicht.

Ich habe die Instanz gedowngraded (… from version 2.1.0p18.cre to version 2.1.0p17.cre). Ist ohne Fehler gelaufen, aber das Problem mit dem Aktivieren der Changes besteht immer noch.
Die Instanz gestoppt, weil ich grad nicht viel Zeit investieren kann.
Nach einer Woche ist sie wieder da und schickt Mails, obwohl der Server nicht rebootet wurde!(?)

Viel interessanter ist, dass das Aktivieren der Changes nun funktioniert.

Lag’s am Downgrade (irgendeine abgelegte oder gecachte Info, die überschrieben wurde), am Warten, am Restart oder an einer anderen Magic?

Egal – es funktioniert wieder :blush:.

Sicherheitshalber noch AUTOSTART von on auf off gestellt.

Vielen Dank für die Tipps, so dass ich tiefer reinschauen konnte!

This topic was automatically closed 365 days after the last reply. New replies are no longer allowed. Contact an admin if you think this should be re-opened.