CheckMK 2.0.0p5 - Host down - Services absolut ok nicht stalled

Hallo @ll,

Ich benutze CheckMK 2.0.0p5. Ich habe nun das Problem, dass ich einen meiner Switche überwache, der keinen DNS-Namen besitzt aber per IP ansprechbar ist.
Ich habe als Name beispielsweise “switch1-keller” eingetragen aber natürlich auch die IP angegeben “192.168.25.200” beispielsweise.
Nun habe cih das Problem wie im Betreff beschrieben, dass mir der Host als down angezeigt wird, aber die services per SNMP ohne Probleme gehen.
Ich suche nun eine Möglichkeit in Checmk2 das Verhalten so zu ändern, dass wenn der Hostname nicht auflösbar ist, die eingetragene IP genutzt wird. Ich finde dazu leider nichts.
Helft mir mal bitte weiter.

Viele Grüße
Sewulba

Es wird immer die IP benutzt sobald das Feld ausgefüllt ist. Nur wenn dort nix drin steht versucht CMK den Namen aufzulösen.
Bitte mal “cmk -D hostname” auf der Command Line eingeben und schauen was dort am Anfang als Konfiguration steht.

Erstmal vielen Dank für Deine extrem schnelle Antwort.

Die Ausgabe zu diesem Befehl ist folgende bei mir:

switch1-keller
Addresses:              192.168.25.200
.
.
.

Folgendes kann ich auch noch aufzeigen:

xxxx:~$ nslookup 192.168.25.200
** server can't find 200.25.168.192.in-addr.arpa: NXDOMAIN

xxxx:~$ ping 192.168.25.200
PING 192.168.25.200 (192.168.25.200) 56(84) bytes of data.
64 bytes from 192.168.25.200: icmp_seq=1 ttl=62 time=0.821 ms
64 bytes from 192.168.25.200: icmp_seq=2 ttl=62 time=0.849 ms
64 bytes from 192.168.25.200: icmp_seq=3 ttl=62 time=0.851 ms
^C
--- 192.168.25.200 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2041ms
rtt min/avg/max/mdev = 0.821/0.840/0.851/0.027 ms
xxxx~$ nslookup switch1-keller
Server:         127.0.0.53
Address:        127.0.0.53#53

** server can't find switch1-keller: NXDOMAIN

Trotzdem wird mein Host als down angezeigt, aber die services funktionieren einwandfrei…

Viele Grüße
Sewulba

Dann scheint bei diesem Host ja der Hostcheck nicht per Ping zu erfolgen.
Auf der Detailseite des Hosts sieht man ja im Feld “Summary” die Ausgabe des Hostchecks.
Im Feld “Host check command” steht was er überhaupt versucht hat als Hostcheck.

Summary:

	No IP packet received for 15.635026 s (deadline is 15.000000 s)

Host check command:

check-mk-host-smart

Ich schätze er versuche den Host per Hostname anzupingen, was ja nicht geht, weil kein DNS-Eintrag.

Den rest macht er aber ohne Probs per IP.

Wenn der Host einen IP Eintrag hat wie in deiner Konfiguration zu sehen, dann nutzt der Ping auch die IP. Nur wenn dort ein Hostname steht wird auch der Name verwendet.
Ist dies der einzige Host mit dem Problem?
Du kannst auch probieren den Host Check von SmartPing auf alten normalen Ping zu ändern per “Host Check Command” Regel.

Als Hostname gebe ich bei meinen Switchen immer einen Namen an unter dem ich weiss, wo er ist im Haus.
Die IP gebe ich aber auch immer an, da meine Switche nicht im DNS namenstechnisch gepflegt werden.
Ja, ich habe das gleich Problem bei allen 3 Switchen.

Ich habe Host Check Command ausprobiert und auf “PING (active check with ICMP echo request)” gestellt. Immer noch Host down.
Er wird nur grün, wenn ich diese Rule auf “always assume Host to be up”. Aber so habe ich natürich nicht mehr den Check per Ping aufs Gerät.

VG
Sewulba

Dann ist hier was anderes kaputt. Der Ping Test oben war auch als Site User von dem Monitoring Host aus oder?

Das ist korrekt. War als Siteuser der pingtest.
Ich habe allgemein ein Problem mit Host Down. Kommt bei allen Systemen. Obwohl zu jedem System Ping geht. :frowning:
Die Version 2.0.0p5 ist gestern frisch installiert worden von mir auf einem frischen Ubuntu.

Ich habe wohl ein größeres Problem hier.
Bei meinem überwachten windows-System ist es genauso. Host wird als Down angezeigt, aber alles andere funktioniert wie erwartet.
Gibt es einen Befehl, wo ich sehen kann, was für ein Problem er am Host nun wirklich hat. Er zeigt mir nur das hier an.

No IP packet received for 15.655564 s (deadline is 15.000000 s)

Aber pingen kann ich das System unter seiner IP ohne Probleme vom Monitoring Host aus. Ich verstehe einfach nicht wo das Problem liegt.

Grüße,
Sewulba

Auf deinem System müssen zwei Prozesse laufen.
icmpsender und icmpreceiver diese beiden sind für den SmartPing verantwortlich.
Du hast aber gesagt eine Umstellung auf Classic Ping bringt auch nix. Hier würde mich mal die Ausgabe des Hostchecks interessieren.

Ich hab e folgendes herausbekommen, was mich aber nicht wirklich weiter bringt. Vielleicht hilft es ja doch bei der Klärung.

ps aux

prod      3628  0.0  0.0      0     0 ?        Z    10:36   0:00 [icmpsender] <defunct>
test      4186  0.0  0.0      0     0 ?        Z    10:36   0:00 [icmpsender] <defunct>
demo      5123  0.0  0.0  13904  1520 ?        S    11:42   0:00 /omd/sites/demo/lib/cmc/icmpreceiver
prod      5125  0.0  0.0  13904  1504 ?        S    11:42   0:00 /omd/sites/prod/lib/cmc/icmpreceiver
demo      5126  0.0  0.0      0     0 ?        Z    11:42   0:00 [icmpsender] <defunct>
test      5127  0.0  0.0  13904  1556 ?        S    11:42   0:00 /omd/sites/test/lib/cmc/icmpreceiver

Und ich habe noch folgendes:

OMD[demo]:~$ ./lib/cmc/icmpsender 8 0 1000
Cannot create raw socket (missing SUID root?): Operation not permitted

Ich hoffe ich habe es richtig verstanden mit dem Classic Ping. Hier die Ausgabe dazu:

OMD[demo]:~/lib/nagios/plugins$ ./check_ping -H xxxxxx04 -w 80,1% -c 90,2%
PING OK - Packet loss = 0%, RTA = 0.33 ms|rta=0.333000ms;80.000000;90.000000;0.000000 pl=0%;1;2;0

bzw.

OMD[demo]:~/lib/nagios/plugins$ ./check_icmp -H zisvfs04
check_icmp: Failed to obtain ICMP socket: Operation not permitted

Ausgabe in der GUI:
SMART PING

Summary	No IP packet received for 15.698437 s (deadline is 15.000000 s)

Classic PING

Summary	check_icmp: Failed to obtain ICMP socket: Operation not permitted

Viele Grüße und vielen herzlichen Dank.

Sewulba

oder

das sind die eigentlichen Fehler.
Bei dir dürfen die Prozesse nicht den ICMP Socket benutzen. Deshalb sind alle Sender Prozesse tot und der check_icmp scheitert ebenfalls.
Hier stimmt etwas mit den Rechten nicht.
Interessant ist, dass der check_ping scheinbar passt von den Rechten aber check_icmp nicht. Schau mal bitte bei beiden nach.

Hinweis aus anderem Thread:

Hi everybody,

in modern versions of Checkmk these permissions are not handled by the setuid-root anymore but by capabilities.

Check for the capabilities of check_icmp by running:
getcap check_icmp
it should have:
check_icmp = cap_net_raw+ep

if not, set it with setcap:
setcap cap_net_raw+ep check_icmp

Gilt analog für den icmpsender/receiver

2 Likes

Immer wieder mal was neues an Informationen ist doch schön so :+1:

Ich habe nun die Lösung gefunden und auch Schande über mein Haupt.

Ich habe mir nachträglich, als CheckMK schon installiert war eine extra virtuelle Platte eingehängt unf per LVM /opt gemounted.
Natürlich habe ich CheckMK vorher gestoppt und mit tar -cvjpf alles von /opt in die eigene Partition (LVM) /opt kopiert. Dann das alte /opt gelöscht. Soweit, so gut. Allerdings habe ich den Link /omd nicht beachtet. Also nicht frisch neu angelegt, nachdem ich /opt aus der ersten vHDD getrennt habe. Meine Schule, mea culpa.
Die eigentliche Lösung:
Alle 3 schon angelegt sites gelöscht. CheckMK-Package purged. Neu installiert dann und jetzt funzt es wunderbar like expected.
Ich hatte den link für /omd zu /opt/omd übersehen. Das war MEIN Fehler.
Vielen Dank für die Hilfestellung.

Viele Grüße,
Sewulba

PS.: Naturlich hat CheckMK durch das Linkvergessen auf /opt die sites wieder angelegt bis /tmp. Nicht auf der extra LVM-Partition. ARGHL Allerdings ohne Daten. Das habe ich jetzt auch aufgeräumt. Alles gut und supervielen Dank für die Hilfe. :slight_smile: Wünsche schönes WE.