Dell Server Hardware Checks running ESXi

Hallo zusammen.

Dies ist mein erster Post, ich arbeite erst seit kurzem mit Checkmk, so please be gentle. :wink:

Ich habe mehrere Dell Server (PowerEdge 1950, R530, R610, R710, R720, R730, R740), auf welchen ESXi 6.5.0 Update 2 (Build 8294253) installiert ist. Darauf wiederum laufen dann mehrere VMs.

Das Ziel ist es jetzt Hardware Checks zu erstellen welche mich unter anderem auf defekte Platten etc hinweisen w├╝rden.

Bei anderen Dell Servern auf denen Linux/Windows l├Ąuft klappt das ├╝ber OMSA in Verbindung mit einem Plugin: check_dell_openmanage - Nagios Exchange
Dieses ist noch ein ├ťberbleibsel von unserem alten Nagios Monitoring.

Leider klappt es mit diesem Plugin nicht bei den ESXi Servern.
Auf denen ist zwar auch OMSA installiert, aber man kann auf diese nicht direkt durch https://hostname:1311 drauf. Das geht nur indem man zuerst auf https://linuxserverhostname:1311 geht und dort dann ├╝ber ÔÇťManage Remote NodeÔÇŁ auf den Esxi.

Um aber mal auf den Punkt zu kommen.

Was w├Ąre denn der optimale Weg diese System zu ├╝berwachen?

Ich habe gesehen es gibt: Dell OpenManage: Physical Memory bereits integriert in checkmk. Allerdings funktioniert das bei mir auch nicht. SNMP ist am Server aktiviert, und in Checkmk in der Hostconfig ebenfalls. Ggf liegt das auch daran dass man sich nicht direkt auf diese ESXi Server aufschalten kann mit OMSA.

Dann gibt es noch die Option per idrac: Dell iDRAC: Status of Raid Controller (checkmk.com)
Falls das eine Option w├Ąre, w├Ąre ich dankbar wenn mir jemand erkl├Ąren k├Ânnte wie das funktionieren soll.
Auch hier wieder per SNMP. In der Idrac Config hab ich SNMP aktiviert, allerdings hat die IDRAC eine andere IP als der Netzwerkkarte des Servers selbst. Wo/wie sagt man checkmk dass per SNMP diese andere IP gecheckt werden soll? Gibts daf├╝r eine extra Regel?

Ich hoffe man konnte halbwegs verstehen was mein Anliegen ist. :wink:

Vielen Dank im Voraus.

Gr├╝├če,
Samuel

Die iDRAC IP l├Ąsst sich als ÔÇťManagement BoardÔÇŁ in den Host Properties hinzuf├╝gen, inklusive eigener SNMP-Credentials. Das ist aber nach Praxiserfahrungen nicht zu empfehlen.

Der ├╝bliche und alte Weg ist einfach, f├╝r das iDRAC einen eigenen Host anzulegen und ├╝ber eine Namenskonvention (z.B. HOSTNAME-idrac) daf├╝r zu sorgen, dass klar ist, von welchem Server der Alarm kommt.

1 Like

Hallo,

Ich kann hier nur wieder IPMI anbringen, da es ein Standard ist und damit Hersteller unabh├Ąngig.
Einfach einen user mir Login Rechten anlegen und IPMI over LAN aktivieren.
Mit der Regel ÔÇťCheck IPMI Sensors via FreeipmiÔÇŁ das ganze in checkmk anlegen.
Setzt nat├╝rlich voraus, dass freeipmi installiert ist.

Irgendwann soll wohl Redfish IPMI ersetzen, ich hab es aber in der freien Wildbahn noch nirgends gesehen und ich glaube es wird auch nicht out of the box von checkmk unterst├╝tzt.

Gru├č

Michael

Bei mir gibts nur noch Redfish nix IPMI und SNMP mehr. Fertige Special Agents existieren bisher f├╝r HPE und Lenovo. Als PoC nur gibtÔÇÖs bei mir bisher Fujitsu, Huawei und Dell. Hier fehlen noch ausgearbeitete Checks nur das es geht hab ich mir angeschaut. Supermicro sollte laut Docu auch problemlos funktionieren.

HPE l├Ąuft bei mir per Redfish seit Jahren zuverl├Ąssig und Lenovo seit nun auch nem guten Jahr ohne Probleme.

Das bedeuted wir ben├Âtigen wieder extra Agents pro Hersteller und vermutich pro Baureihe?
Der gro├če Vorteil von IPMI ist dass es Hersteller neutral ist und ich mich nicht mal um die Threholds k├╝mmern muss, da die der Hersteller bereits auf seine Werte eingestellt hat. Da gibts dann sp├Ąter auch keine Diskussionen mit dem Support. Dar├╝ber hinaus kann ich wenn ein Bauteil ausf├Ąllt die FRU Daten bereits im check output darstellen. Damit hat der Admin alle Informationen die er ben├Âtigt in seiner Alert Mail damit er einen support call er├Âffnen kann. Geht das mit Redfish auch?
Redfish werden wir uns sicherrlich ansehen, aber so lange es keine Vorteile gegen ├╝ber IPMI bietet und IPMI noch supported ist, sehe ich da keinen Handlungszwang.

Ich m├Âchte aber mit dem Thema nicht dem TO seinen Faden klauen.
Das Thema ist aber interessant und ich kann gerne ein neues Thema dazu aufmachen.

Gru├č

Michael

Jein, ich hab die Agents bisher so gebaut, dass diese bei HPE f├╝r alle Ger├Ąte welche Redfish unterst├╝tzen auch funktionieren. Bei Lenovo hat das bisher auch auf allen Ger├Ąten funktioniert. Die Library welche benutzt wird ist auch die gleiche f├╝r alle Hersteller.

Ebenfalls ein Jein hier :slight_smile: Die Schwellwerte sind nur teilweise vorhanden.
Im Redfish werden die Schwellwerte ausf├╝hrlicher ausgegeben wie im IPMI. Aber es gibt genauso die Einschr├Ąnkung wenn das System keine Schwellwerte definiert hat dann wird nix ausgegeben.

Ja - hier bekomme ich alles was ich brauche halt auch Seriennummern usw.
Redfish ist ja mittlerweile das default Protokoll wenn es um Systemmanagement bei Servern geht.

Naja die Vorteile liegen eigentlich auf der Hand - einheitliches Protokoll f├╝r das komplette Systemmanagement und Deployment. Also auch komplettes konfigurieren des Systems geht dar├╝ber. ├ťber IPMI sind zum Beispiel nicht alle Elemente eines Systems sichtbar bei Redfish hab ich das noch nicht gehabt das da was gefehlt hat. Das kommt aber bestimmt auf den Hersteller an.

Hallo zusammen,

vielen lieben Dank f├╝r eure Antworten!

Als erstes hatte ich die L├Âsung von r.sander ausprobiert.
Das funktioniert einwandfrei, sowohl als extra Host als auch ├╝ber das Management Board.

Als n├Ąchstes wollte ich das ganze mal mit IPMI testen.
Ich hab IPMI over Lan aktiviert, einen Benutzer erstellt und die Drac auch nochmal neu gestartet.
├ťber das Management Board kann man das ganze auch hinzuf├╝gen.
ipmi MB
Hier erscheinen dann auch ein paar Services, aber leider nicht so viele wie ├╝ber Snmp. Beispielsweise die Festplatten werden hier nicht angezeigt.

Jetzt hab ich das ganze nochmal mit einem extra Host + Regel probiert:


Ich scheine hier aber was falsch zu machen, hier bekomme ich ├╝berhaupt keine Services.

Mit Redfish habe ich mich noch nicht auseinander gesetzt.

Ich denke f├╝r meine Zwecke sollte Snmp ausreichen, trotzdem w├Ąre es nice2know was ich hier bei Ipmi falsch gemacht habe. W├Ąre super wenn mir da noch jemand auf die Spr├╝nge helfen k├Ânnte. :slight_smile:

Vielen Dank.

Viele Gr├╝├če,
Samuel

Hallo Samuel,

Privilege level muss gleich sein wie im Benutzer eingestellt: user
Evtl k├Ânnte es auch am Driver Type legen. Versuch da mal LAN_2_0 einzutragen.
Folgendes funktioniert bei uns mit den neueren Servern:

Gru├č

Micheal

Hallo Mike,

danke f├╝r deinen Vorschlag.

Leider funktioniert es nach wie vor nicht.

Das komische ist aber dass ich ja ├╝bers Management Board durchaus ein paar Checks erhalte, nur eben nicht so viele wie ├╝ber Snmp. Demnach sollte die Kommunikation zumindest funktionieren. Keine Ahnung wieso der ├╝ber die Regel gar nichts anzeigt.

Leider hab ich bei manchen Hosts auch ├╝ber Snmp ProblemeÔÇŽ
Bei 3 von 13 VMs wird mir gar nichts angezeigt, snmp ist aber aktiviert aber ich bekomme bei einem Full Service scan immer einen Timeout.

Und bei weiteren 3 VMs ist das einzige was mir angezeigt wird Chassis Health und Uptime.
Leider nicht so eine super Quote.
Erkenne auch kein Muster warum es bei machen geht und bei manchen nicht.

Erkennt nichts:
PowerEdge R610, DracVersion: 6
PowerEdge R710, DracVersion: 6
PowerEdge R530, DracVersion: 8

Nur wenige Chassis Health:
PowerEdge R710, DracVersion: 6
PowerEdge R710, DracVersion: 6
PowerEdge 1950, DracVersion: 5

Hat da irgendjemand vielleicht eine Ahnung woran das liegen kann?

Vielen Dank.

VG, Samuel

Hallo Samuel,

Du kannst die IPMI Verbindungen auch auf der CLI debuggen.

Gib dazu cmk -D <hostname> als site user ein und du siehst das verwendete Program und dessen Optionen.

Mit cmk -Ivvv <hostname> kannst Du den Discovery process debuggen.

Wie bei SNMP kannst Du die OS IPMI Kommandos auch direkt aufrufen:

ipmi-sensors --output-sensor-state -h <host IP> -u <user> -p <password> --entity-sensor-names -l USER -D LAN_2_0

oder ├╝ber das alte Protokoll

ipmi-sensors --output-sensor-state -h <host IP> -u <user> -p <password> --entity-sensor-names -l 
USER -D LAN

Ich hoffe das hilft Dir weiter.

Gru├č

Michael

Hallo Mike,

frohes neues Jahr erstmal.

Deine Antwort hat mir schonmal wesentlich weiter geholfen.

Ich bekomme jetzt auch ├╝ber IMPI ein Ausgabe.

Leider funktionieren hier viele nicht, was auch immer das alles ├╝berhaupt ist.

Wichtig w├Ąren mir unter anderem die einzelnen Disks.
Die werden mir ├╝ber SNMP immer angezeigt.
Hier habe ich nur Drive und 15?
Hast Du eine Idee woran das liegen k├Ânnte?

Mit SNMP siehts so aus:
image

Danke und Viele Gr├╝├če,
Samuel

Hallo Simon,

Wie sieht denn die Ausgabe von ipmi-sensors aus? Feheln da die Drives auch? Dann w├╝rde ich vermuten dass Dein Base Management Controller, also das Dell DRAC in dem Fall ein Problem hat. Evtl. mal versuchen diesen neu zu Starten. Das sollte unabh├Ąnging vom laufenden OS gehen und es hilft nicht den Server selbst neu zu Starten. Evtl. auhc mal prpfen ob es bei Dell eine aktuellere Version f├╝r den BMC gibt.

Prinzipiell geht das aber:

Gru├č

Michael