SNMP Error: Timeout: No Response (Exit-Code: 1)

Hallo.
Hier taucht regelmäßig ein Problem mit einem zu überwachenden “Host” auf. Genauergesagt ist es das IMM eines IBM x3650 M4 Servers, das ich bisher per SNMP v1 abrufe.

Im Webinterface erscheint dazu in regelmäßigen Abständen:

CRIT - [snmp] SNMP Error on 192.168.1.5: Timeout: No Response from 192.168.1.5 (Exit-Code: 1)**CRIT**, Got no information from host, execution time 8.7 sec

Das IMM hat meines Wissens nur eine NIC mit 100 MBit/s (oder sind’s nur 10 MBit/s? :thinking: ) und reagiert auch auf dem eigenen Webinterface etwas träge … daher wundere ich mich nicht über Verzögerungen.

Nun habe ich etwas gestöbert und folgendes gesehen:

time cmk -Iv IBM_M4_IMM
Discovering services on: IBM_M4_IMM
IBM_M4_IMM:
+ FETCHING DATA
 [snmp] Execute data source
ERROR: SNMP error
Error in packet
Reason: (noSuchName) There is no such variable name in this MIB.
Failed object: .1.3.6.1.4.1.232.2.2.4.2.0


ERROR: SNMP error
Error in packet
Reason: (noSuchName) There is no such variable name in this MIB.
Failed object: .1.3.6.1.2.1.43.11.1.1.6.1.1

... 
das geht munter so weiter ... und ganz am Ende:
 [piggyback] Execute data source
No piggyback files for 'IBM_M4_IMM'. Skip processing.
No piggyback files for '192.168.1.5'. Skip processing.
+ EXECUTING DISCOVERY PLUGINS (27)
SUCCESS - Found no new services, no new host labels

real    0m11.596s
user    0m1.188s
sys     0m1.031s

Daher steckt vielleicht etwas ganz anderes dahinter als nur ein Zeitproblem? Hat jemand eine Idee, wonach ich da schauen kann?
Danke.

Moin,

was willst du denn genau überwachen

Die Verfügbarkeit des IMM würde ich mit einen HTTP Check oder Port Check überwachen

image

da SNMP öfter mal träge reagiert

Gruß Bernd

Hallo. Ich hatte eigentlich bisher immer alle Services erfasst, die das IMM von sich aus geboten hat … das waren 25. Mittlerweile habe ich gesehen, dass ein Problem bei der Abfrage der Lüfter besteht. Eigentlich ganz sinnvoll, wenn man das mit überwacht.

Anscheinend muss man irgendwo einen Parameter von int auf float umstellen?! … Konkrekt sieht das dann so aus:

**Ungültiger Check-Parameter**: Untere Grenzen für Lüfterdrehzahl: Der Wert 28 ist vom Typ int, muss aber float sein
Variable: checkgroup_parameters:hw_fans_perc
Parameter:

{'levels_lower': (28, 25)}

Ähnliches gilt für einen Check des Speichers. Da steht dann:

**Ungültiger Check-Parameter**: Eingabe Schwellwerte für Speichernutzung fehlt
Variable: checkgroup_parameters:memory_simple
Parameter:
{}

Bin leider nicht weit genug drin, um beurteilen zu können, wie/wo ich das einstellen kann.
Davon abgesehen, ist die Abfrage des IMM aber auch generell offenbar zu langsam, so dass im Dashboard von checkMK auch weiterhin im 20-Minuten-Takt immer wieder erscheint:

CRIT - [snmp] SNMP Error on 192.168.1.5: Timeout: No Response from 192.168.1.5 (Exit-Code: 1)**CRIT**, Got no information from host, execution time 8.4 sec

Der Durchlauf dauert also offenbar zu lange. Vielleicht sollte ich es tatsächlich nur auf die Abfrage “up?” beschränken und fertig?

okay dann wollen wir uns das mal genauer anschauen

Mit welchen checks fragst du die IBMs ab .... hab leider keine IBMs hier zum testen nur HP,FSC & DELL

aber teste mal als Site user

cmk -Ivv --checks=hp_proliant_fans IBM_M4_IMM

Gruß Bernd

Das könnte auch eine Lösung sein:
“Ein möglicher Fehler ist, wenn SNMP-Agenten nicht auf die Anfrage nach den Standardinformationen wie z.B. der sysDescr antworten. Diese Geräte sind in der Diagnose wie tot. Und auch in der Serviceerkennung werden sie keine Resultate liefern, wenn Sie nicht durch eine spezielle Konfiguration nachhelfen. Legen Sie dazu für die betroffenen Hosts eine Regel unter Access to agents > Hosts without system description OID mit einem Positive outcome an. Checkmk geht dann einfach davon aus, dass alles in Ordnung ist und überspringt den Test mit der sysDescr . Zwar werden dann auch keine Check-Plugins erkannt, die bestimmte Teile in diesem Text erwarten, aber das spielt in der Praxis keine Rolle, da die betroffenen Plugins so entwickelt wurden, dass sie diesen Fall berücksichtigen.”

Hallo

Das habe ich gerade laufen lassen – Ergebnis hier:

cmk -Ivv --checks=hp_proliant_fans IBM_M4_IMM
Discovering services on: IBM_M4_IMM
IBM_M4_IMM:
+ FETCHING DATA
 [snmp] No persisted sections loaded
 [snmp] Not using cache (Don't try it)
 [snmp] Execute data source
 [snmp] hp_proliant_fans: Fetching data
Running 'snmpwalk -v1 -c public -m "" -M "" -Cc -OQ -OU -On -Ot 192.168.1.5 .1.3.6.1.4.1.232.6.2.6.7.1.2'
Running 'snmpwalk -v1 -c public -m "" -M "" -Cc -OQ -OU -On -Ot 192.168.1.5 .1.3.6.1.4.1.232.6.2.6.7.1.3'
Running 'snmpwalk -v1 -c public -m "" -M "" -Cc -OQ -OU -On -Ot 192.168.1.5 .1.3.6.1.4.1.232.6.2.6.7.1.4'
Running 'snmpwalk -v1 -c public -m "" -M "" -Cc -OQ -OU -On -Ot 192.168.1.5 .1.3.6.1.4.1.232.6.2.6.7.1.6'
Running 'snmpwalk -v1 -c public -m "" -M "" -Cc -OQ -OU -On -Ot 192.168.1.5 .1.3.6.1.4.1.232.6.2.6.7.1.9'
Running 'snmpwalk -v1 -c public -m "" -M "" -Cc -OQ -OU -On -Ot 192.168.1.5 .1.3.6.1.4.1.232.6.2.6.7.1.12'
 [snmp] Write data to cache file /omd/sites/default/tmp/check_mk/data_source_cache/snmp/IBM_M4_IMM
Try aquire lock on /omd/sites/default/tmp/check_mk/data_source_cache/snmp/IBM_M4_IMM
Got lock on /omd/sites/default/tmp/check_mk/data_source_cache/snmp/IBM_M4_IMM
Releasing lock on /omd/sites/default/tmp/check_mk/data_source_cache/snmp/IBM_M4_IMM
Released lock on /omd/sites/default/tmp/check_mk/data_source_cache/snmp/IBM_M4_IMM
 [piggyback] No persisted sections loaded
 [piggyback] Execute data source
No piggyback files for 'IBM_M4_IMM'. Skip processing.
No piggyback files for '192.168.1.5'. Skip processing.
Loading autochecks from /omd/sites/default/var/check_mk/autochecks/IBM_M4_IMM.mk
+ EXECUTING DISCOVERY PLUGINS (1)
  Trying discovery with: hp_proliant_fans
Try aquire lock on /omd/sites/default/var/check_mk/autochecks/IBM_M4_IMM.mk
Got lock on /omd/sites/default/var/check_mk/autochecks/IBM_M4_IMM.mk
Releasing lock on /omd/sites/default/var/check_mk/autochecks/IBM_M4_IMM.mk
Released lock on /omd/sites/default/var/check_mk/autochecks/IBM_M4_IMM.mk
SUCCESS - Found no new services, no new host labels

Deinen anderen Vorschlag muss ich mir gleich noch ansehen …

kannst du die Server nicht mit SNMP v2 abfragen ???

hab’s umgestellt … aber es bleibt dabei:

Ich bin aber nach wie vor nicht sicher, ob das Problem überhaupt an diesen Services liegt. Schließlich bleiben die Meldungen bestehen – auch, wenn ich die Überwachung der Lüfterdrehzahlen deaktiviere.

Moin … ah jetzt sehe ich wo der Hase begraben ist …

welches Check Plugin ist das denn ??? Ein altes ???
Dann müssen im Script einige Änderungen gemacht werden da ja in der V2 auf Python 3 umgestellt wurde.

Gruß Bernd

Das weiß ich nicht – ich habe einfach SNMP auf dem IMM des Servers aktiviert und es mit checkMK abgefragt … das Ergebnis siehst du oben. checkMK ist hier noch Versoin 1.6p22

hmm komisch … kommst du auf das Web Interface von der Management IP ???

Hab es bei mir eben mal mit einem Cisco Blade, Dell R-Serie und FSC gemacht da erkennt er es sofort unter CMK2 mit SNMP1 & 2.

Hast du es auch mal mit einem anderen Server ausprobiert ???

Läuft bei dir die 1.6 & 2.0 auf dem selben Server ???

Gruß

Klar … das IMM hat ein eigenes Webinterface. Ist nicht das schnellste – aber läuft.

Ich hatte es ja bereits auf SNMPv2 ungestellt – läuft. Daher weiß ich nicht mehr, warum das ursprünglich auf v1 stand?!?

2.0 habe ich hier noch gar nicht laufen – sehe gerade erst: habe ich das falsch Unterforum erwischt?
Andere checkMK-Server habe ich nicht … nur den einen :slight_smile:

ah okay dann haben wir eine andere Problematik … leider komme ich heute nicht dazu … evtl hat aber noch jemand eine Idee

Hi. Ich grabe diesen Thread jetzt nochmal aus, denn das Problem besteht auch weiterhin. Das IMM vom Server meldet sich hier auch weiterhin häufig mit den Timeouts. Gibt es evtl weitere oder neue Ideen, was ich da ändern kann?
Ich weiß z.B. nicht, ob es etwas ändern würde, wenn ich einfach auf die Prüfung gewisser Dienste verzichten würde. Es scheint ja eher ein “generelles Erreichbarkeitsproblem” zu sein??

Danke nochmal.

Falls noch nicht bekannt, vielleicht helfen die Hinweise in folgendem Blog-Artikel weiter: