SNMP time out HP ProLiant Server

Hallo zusammen,

wir haben zwei identische neue Server von HP gekauft und lassen beide über SNMP mit checkmk 2.0.0p3 (CFE) überwachen. Bei dem einen Host ist alles in Ordnung aber bei dem anderen Host zeigt Checkmk für den Service Check_MK die Meldung …

" [snmp] Fetcher for host “hier steht die IP” timed out after 60 secondsCRIT , Got no information from host, execution time 60.0 sec "

und für den Service Check_MK Discovery die Meldung …

"no unmonitored services found, 117 vanished services (hp_proliant_cpu:2, hp_proliant_da_cntlr:1, hp_proliant_da_phydrv:6, hp_proliant_fans:6, hp_proliant_mem:12, hp_proliant_psu:3, hp_proliant_raid:2, hp_proliant_temp:36, interfaces:47, snmp_info:1, uptime:1), no new host labels, [snmp] Fetcher for host “hier steht die IP” timed out after 60 seconds "

Einige Beiträge bzgl. SNMP HP ILO habe ich gefunden und gelesen dass HP Hardware manchmal Probleme macht. Zusätzlich habe ich einige Vorschläge ausprobiert, bis jetzt leider ohne Erfolg.

Hat jemand eine Idee wie ich auch den zweiten Serverstatus bei checkmk auf " OK " bekomme?

Get mit den bekannten SNMP Credentials ein snmpwalk auf der Shell?
Das wäre immer der erste Test wenn hier nix geht dann erstmal das iLO neu starten und schauen.
Kann ja auch abgestürzter SNMP Dienst im iLO sein.

Ich habe bei den ILO Interfaces die Erfahrung gemacht, dass die SNMP Anfragen teilweise sehr lange dauern. In der Regel ist es der Interface Abfrage geschuldet. Du kannst das nachprüfen, wenn du:

  1. Login via SSH auf Monitoring Server
  2. omd su sitename
  3. cmk -vv --debug hostname

Du siehst dann den Verbindungsaufbau und welche Checks er abfragt. Vermutlich wird er dort bei Interface sehr langsam sein, wodurch die Abfrage für CheckMK in einen Timeout läuft. Liegt es am Interface Check, dann diese Abfrage via “Disabled or enabled sections (SNMP)” deaktivieren.

Interfaces sollte man eh immer bei einer iLO Abfrage abschalten. Dies gibt meist nur sinnlose Interfaces welche richtig über das laufende Betriebssystem besser abzufragen sind :slight_smile:
Die Anmerkung von @Overlord kann ich da nur bestätigen, dass diese über iLO oft der Grund sind für Timeouts.

1 Like

Moin zusammen,

alles richtig was @Overlord und @andreas-doehler sagen. Dazu noch ergänzend mein Blog Artikel mit Techniken rund um Diagnose/Analyse/Optimierung bei SNMP Problemen.

Hallo zusammen,

heute bin ich erst dazu gekommen die Tipps auszuprobieren. Nachdem ich die Interfaces in Checkmk deaktiviert habe, ist der Service Check_MK nun OK.

Check_MK Discovery ist weiterhin auf CRIT mit obiger Meldung.

Da ist ein separater active check, der üblicherweise nur alle paar Stunden ausgeführt wird (je nach Config). Abwarten oder einmal manuell anstoßen sollte helfen.

Um das Discovery auch “grün” zu bekommen sollten Interface Checks generell “verboten” werden auf den iLO Schnittstellen.
Also alle SNMP Sektions deaktivieren welche mit “if” zu tun haben für die iLO Sachen, um auch beim Discovery gar nicht erst in die Problematik der langsamen Antwort zu laufen.

Ich finde weder in Checkmk noch auf dem ILO SNMP Sektions zum deaktivieren :frowning:

Die Regel lautet “Disabled or enabled sections (SNMP)” dort kannst direkt die SNMP Sections aktivieren oder deaktivieren für einzelne Hosts.

Es lohnt sich immer wieder laufende Threads mitzulesen denn aus diesem konnte ich auch nützliche Ansätze für Einstellungen gewinnen. Habe auch bei den SNMP Abfragen über Managementboards if jetzt deaktiviert und die Abfragezeiten sind besser geworden. Bei unserem SQL Cluster sind sogar die Instanzen nun vollständig auf Grün.

Kann man irgendwie einen Filter nutzen damit Systeme mit aktivierten Management Boards zur Anwendung der Einstellungen genommen werden können ? Ich habe es jetzt erstmal auf das Hostlabel “cmk/os_family:windows” gesetzt.

MfG Paul

Nach meinen zwei Wochen Urlaub habe ich endlich wieder einen klaren Kopf und konnte dank euren Anweisungen den Check “grün” bekommen. Für alle die wie ich sich gerade fragen wo man die genannten Einstellungen vornimmt, nachfolgend eine kurze Erklärung.

Bei checkmk Version 2.0.0p3 (CFE) unter Setup/Agenten/SNMP Regeln/ [Deaktivierte oder aktivierte Sektionen (SNMP)] einen neuen Eintrag erstellen und bei “Deaktivierte Sektionen” nachfolgendes auswählen:
if
if64
if64_tplink
if64adm
if_brocade
if_fortigate
if_lancom
ifoperstatus

Danach ein paar Minuten warten und bei mir war alles OK.

Ich kann hier an der Stelle nur das Redfish/REST basierte ILO DataSource Plugin von @andreas-doehler empfehlen ( wenn er das selber nicht macht :slight_smile: ), damit kann man sich das komplette SNMP Thema sparen.
Ich nutze das Plugin nur noch, da ich bei vielen Servern (Gen10, neuester Patchstand) permanent in SNMP Timeouts gelaufen bin, die sich nicht beheben ließen.
Das Plugin verkürzt die Laufzeit von 70-90 Sekunden mit SNMP auf ein paar Sekunden.

1 Like

Wo bekommt man das Plugin her und wie kann man dieses einbinden denn ich habe auch ein paar große Server (SQL) die öfters in ein Timeout laufen auch wenn ich bestimmte SNMP Sektionen deaktiviere? Das wirkt sich dann auch auf den Status der in CheckMK angelegten SQL-Instanzen aus.

MfG Paul