Dell Server Hardware Checks running ESXi

Hallo zusammen.

Dies ist mein erster Post, ich arbeite erst seit kurzem mit Checkmk, so please be gentle. :wink:

Ich habe mehrere Dell Server (PowerEdge 1950, R530, R610, R710, R720, R730, R740), auf welchen ESXi 6.5.0 Update 2 (Build 8294253) installiert ist. Darauf wiederum laufen dann mehrere VMs.

Das Ziel ist es jetzt Hardware Checks zu erstellen welche mich unter anderem auf defekte Platten etc hinweisen würden.

Bei anderen Dell Servern auf denen Linux/Windows läuft klappt das über OMSA in Verbindung mit einem Plugin: check_dell_openmanage - Nagios Exchange
Dieses ist noch ein Überbleibsel von unserem alten Nagios Monitoring.

Leider klappt es mit diesem Plugin nicht bei den ESXi Servern.
Auf denen ist zwar auch OMSA installiert, aber man kann auf diese nicht direkt durch https://hostname:1311 drauf. Das geht nur indem man zuerst auf https://linuxserverhostname:1311 geht und dort dann über “Manage Remote Node” auf den Esxi.

Um aber mal auf den Punkt zu kommen.

Was wäre denn der optimale Weg diese System zu überwachen?

Ich habe gesehen es gibt: Dell OpenManage: Physical Memory bereits integriert in checkmk. Allerdings funktioniert das bei mir auch nicht. SNMP ist am Server aktiviert, und in Checkmk in der Hostconfig ebenfalls. Ggf liegt das auch daran dass man sich nicht direkt auf diese ESXi Server aufschalten kann mit OMSA.

Dann gibt es noch die Option per idrac: Dell iDRAC: Status of Raid Controller (checkmk.com)
Falls das eine Option wäre, wäre ich dankbar wenn mir jemand erklären könnte wie das funktionieren soll.
Auch hier wieder per SNMP. In der Idrac Config hab ich SNMP aktiviert, allerdings hat die IDRAC eine andere IP als der Netzwerkkarte des Servers selbst. Wo/wie sagt man checkmk dass per SNMP diese andere IP gecheckt werden soll? Gibts dafür eine extra Regel?

Ich hoffe man konnte halbwegs verstehen was mein Anliegen ist. :wink:

Vielen Dank im Voraus.

Grüße,
Samuel

Die iDRAC IP lässt sich als “Management Board” in den Host Properties hinzufügen, inklusive eigener SNMP-Credentials. Das ist aber nach Praxiserfahrungen nicht zu empfehlen.

Der übliche und alte Weg ist einfach, für das iDRAC einen eigenen Host anzulegen und über eine Namenskonvention (z.B. HOSTNAME-idrac) dafür zu sorgen, dass klar ist, von welchem Server der Alarm kommt.

1 Like

Hallo,

Ich kann hier nur wieder IPMI anbringen, da es ein Standard ist und damit Hersteller unabhängig.
Einfach einen user mir Login Rechten anlegen und IPMI over LAN aktivieren.
Mit der Regel “Check IPMI Sensors via Freeipmi” das ganze in checkmk anlegen.
Setzt natürlich voraus, dass freeipmi installiert ist.

Irgendwann soll wohl Redfish IPMI ersetzen, ich hab es aber in der freien Wildbahn noch nirgends gesehen und ich glaube es wird auch nicht out of the box von checkmk unterstützt.

Gruß

Michael

Bei mir gibts nur noch Redfish nix IPMI und SNMP mehr. Fertige Special Agents existieren bisher für HPE und Lenovo. Als PoC nur gibt’s bei mir bisher Fujitsu, Huawei und Dell. Hier fehlen noch ausgearbeitete Checks nur das es geht hab ich mir angeschaut. Supermicro sollte laut Docu auch problemlos funktionieren.

HPE läuft bei mir per Redfish seit Jahren zuverlässig und Lenovo seit nun auch nem guten Jahr ohne Probleme.

Das bedeuted wir benötigen wieder extra Agents pro Hersteller und vermutich pro Baureihe?
Der große Vorteil von IPMI ist dass es Hersteller neutral ist und ich mich nicht mal um die Threholds kümmern muss, da die der Hersteller bereits auf seine Werte eingestellt hat. Da gibts dann später auch keine Diskussionen mit dem Support. Darüber hinaus kann ich wenn ein Bauteil ausfällt die FRU Daten bereits im check output darstellen. Damit hat der Admin alle Informationen die er benötigt in seiner Alert Mail damit er einen support call eröffnen kann. Geht das mit Redfish auch?
Redfish werden wir uns sicherrlich ansehen, aber so lange es keine Vorteile gegen über IPMI bietet und IPMI noch supported ist, sehe ich da keinen Handlungszwang.

Ich möchte aber mit dem Thema nicht dem TO seinen Faden klauen.
Das Thema ist aber interessant und ich kann gerne ein neues Thema dazu aufmachen.

Gruß

Michael

Jein, ich hab die Agents bisher so gebaut, dass diese bei HPE für alle Geräte welche Redfish unterstützen auch funktionieren. Bei Lenovo hat das bisher auch auf allen Geräten funktioniert. Die Library welche benutzt wird ist auch die gleiche für alle Hersteller.

Ebenfalls ein Jein hier :slight_smile: Die Schwellwerte sind nur teilweise vorhanden.
Im Redfish werden die Schwellwerte ausführlicher ausgegeben wie im IPMI. Aber es gibt genauso die Einschränkung wenn das System keine Schwellwerte definiert hat dann wird nix ausgegeben.

Ja - hier bekomme ich alles was ich brauche halt auch Seriennummern usw.
Redfish ist ja mittlerweile das default Protokoll wenn es um Systemmanagement bei Servern geht.

Naja die Vorteile liegen eigentlich auf der Hand - einheitliches Protokoll für das komplette Systemmanagement und Deployment. Also auch komplettes konfigurieren des Systems geht darüber. Über IPMI sind zum Beispiel nicht alle Elemente eines Systems sichtbar bei Redfish hab ich das noch nicht gehabt das da was gefehlt hat. Das kommt aber bestimmt auf den Hersteller an.

Hallo zusammen,

vielen lieben Dank für eure Antworten!

Als erstes hatte ich die Lösung von r.sander ausprobiert.
Das funktioniert einwandfrei, sowohl als extra Host als auch über das Management Board.

Als nächstes wollte ich das ganze mal mit IPMI testen.
Ich hab IPMI over Lan aktiviert, einen Benutzer erstellt und die Drac auch nochmal neu gestartet.
Über das Management Board kann man das ganze auch hinzufügen.
ipmi MB
Hier erscheinen dann auch ein paar Services, aber leider nicht so viele wie über Snmp. Beispielsweise die Festplatten werden hier nicht angezeigt.

Jetzt hab ich das ganze nochmal mit einem extra Host + Regel probiert:


Ich scheine hier aber was falsch zu machen, hier bekomme ich überhaupt keine Services.

Mit Redfish habe ich mich noch nicht auseinander gesetzt.

Ich denke für meine Zwecke sollte Snmp ausreichen, trotzdem wäre es nice2know was ich hier bei Ipmi falsch gemacht habe. Wäre super wenn mir da noch jemand auf die Sprünge helfen könnte. :slight_smile:

Vielen Dank.

Viele Grüße,
Samuel

Hallo Samuel,

Privilege level muss gleich sein wie im Benutzer eingestellt: user
Evtl könnte es auch am Driver Type legen. Versuch da mal LAN_2_0 einzutragen.
Folgendes funktioniert bei uns mit den neueren Servern:

Gruß

Micheal

Hallo Mike,

danke für deinen Vorschlag.

Leider funktioniert es nach wie vor nicht.

Das komische ist aber dass ich ja übers Management Board durchaus ein paar Checks erhalte, nur eben nicht so viele wie über Snmp. Demnach sollte die Kommunikation zumindest funktionieren. Keine Ahnung wieso der über die Regel gar nichts anzeigt.

Leider hab ich bei manchen Hosts auch über Snmp Probleme…
Bei 3 von 13 VMs wird mir gar nichts angezeigt, snmp ist aber aktiviert aber ich bekomme bei einem Full Service scan immer einen Timeout.

Und bei weiteren 3 VMs ist das einzige was mir angezeigt wird Chassis Health und Uptime.
Leider nicht so eine super Quote.
Erkenne auch kein Muster warum es bei machen geht und bei manchen nicht.

Erkennt nichts:
PowerEdge R610, DracVersion: 6
PowerEdge R710, DracVersion: 6
PowerEdge R530, DracVersion: 8

Nur wenige Chassis Health:
PowerEdge R710, DracVersion: 6
PowerEdge R710, DracVersion: 6
PowerEdge 1950, DracVersion: 5

Hat da irgendjemand vielleicht eine Ahnung woran das liegen kann?

Vielen Dank.

VG, Samuel

Hallo Samuel,

Du kannst die IPMI Verbindungen auch auf der CLI debuggen.

Gib dazu cmk -D <hostname> als site user ein und du siehst das verwendete Program und dessen Optionen.

Mit cmk -Ivvv <hostname> kannst Du den Discovery process debuggen.

Wie bei SNMP kannst Du die OS IPMI Kommandos auch direkt aufrufen:

ipmi-sensors --output-sensor-state -h <host IP> -u <user> -p <password> --entity-sensor-names -l USER -D LAN_2_0

oder über das alte Protokoll

ipmi-sensors --output-sensor-state -h <host IP> -u <user> -p <password> --entity-sensor-names -l 
USER -D LAN

Ich hoffe das hilft Dir weiter.

Gruß

Michael

Hallo Mike,

frohes neues Jahr erstmal.

Deine Antwort hat mir schonmal wesentlich weiter geholfen.

Ich bekomme jetzt auch über IMPI ein Ausgabe.

Leider funktionieren hier viele nicht, was auch immer das alles überhaupt ist.

Wichtig wären mir unter anderem die einzelnen Disks.
Die werden mir über SNMP immer angezeigt.
Hier habe ich nur Drive und 15?
Hast Du eine Idee woran das liegen könnte?

Mit SNMP siehts so aus:
image

Danke und Viele Grüße,
Samuel

Hallo Simon,

Wie sieht denn die Ausgabe von ipmi-sensors aus? Feheln da die Drives auch? Dann würde ich vermuten dass Dein Base Management Controller, also das Dell DRAC in dem Fall ein Problem hat. Evtl. mal versuchen diesen neu zu Starten. Das sollte unabhänging vom laufenden OS gehen und es hilft nicht den Server selbst neu zu Starten. Evtl. auhc mal prpfen ob es bei Dell eine aktuellere Version für den BMC gibt.

Prinzipiell geht das aber:

Gruß

Michael

Hallo Mike,

Danke für deinen Tipp.
Die Drives fehlen auch bei der ipmi-sensors abfrage.
Die Drac habe ich auch mal neu gestartet.
Es scheint tatsächlich bei keiner Drac 6 oder kleiner zu funktionieren…
Die sind zwar alle auf dem aktuellen Stand, aber an der Version lässt sich ja nichts ändern.
Hast Du sonst noch eine Idee wie man das anderweitig checken könnte?
Ansonsten muss ich die halt so lassen wie es jetzt ist :zipper_mouth_face: Ist eben so wenn man 10 Jahre alte Hardware benutzt… Tatsächlich werden in idrac 6 die Festplatten gar nicht angezeigt, also kein Wunder dass er die auch nicht weiter gibt. In Omsa sieht man sie…

VG, Samuel

Das ist normal, gleiches Problem wie bei HP iLO mit Version 2 und ersten 3er.
Man muss aber sagen iDRAC 6 sollte langsam ausgestorben sein genau so wie die alten iLO’s.

Ja Omsa nutzt ja nicht die Daten des iDRAC sondern nimmt hier die im Betriebssystem installierten Agents. Diese sehen natürlich die Raid Controller usw.

Tut mir leid, aber da musst Du wohl mal Geld in die Hand nehmen und neue Server kaufen. Mit unseren Lenovo Servern funktioniert IPMI problemlos.

Viel Glück

Michael

1 Like

Leichter gesagt als getan. :smiley:

Aber trotzdem nochmal vielen Dank euch beiden für die Antwort.

Damit ist das Thema zumindest erstmal durch. :+1:

This topic was automatically closed 365 days after the last reply. New replies are no longer allowed. Contact an admin if you think this should be re-opened.