Dell 10G switch Alert ueber Fans

Hallo zusammen,

Ich habe zwei gestackte Dell 10G switches die ich mit einer Checkmk RAW 2.0.0p34 Instanz via SNMP ueberwache. Bei der Discovery bekomme ich direkt Alerts ueber nicht funktionierende Fans:

Fuer beide switches, werden dieselben Fans “moniert”.

Meine Netzwerkadmins koennen das allerdings ueber das CLI der switches, nicht bestaetigen, und
schickten mir folgenden Output:

-- Unit 1 --
Unit Type : Management Unit
Status : online
Next Boot : online
Required Type : S4048-ON - 54-port TE/FG (SK-ON)
Current Type : S4048-ON - 54-port TE/FG (SK-ON)
Master priority : 14
Hardware Rev : 2.0
Num Ports : 72
Up Time : 2 yr, 41 wk, 1 day, 3 hr, 50 min
Dell EMC Networking OS Version : 9.13(0.1)
Jumbo Capable : yes
POE Capable : no
FIPS Mode : disabled
Boot Flash : 3.21.2.9
Boot Selector : 3.21.0.0-5
Memory Size : 3201302528 bytes
Temperature : 33C
Voltage : ok
Serial Number : NA
Part Number : 0FRV58 Rev A03
Vendor Id : DL
Date Code : 22092018
Country Code : CN
Piece Part ID : CN-0FRV58-28298-89M-0651
PPID Revision : A03
Service Tag : - REDACTED -
Expr Svc Code : - REDACTED -
Auto Reboot : enabled
Burned In MAC : 4c:d9:8f:e7:e3:88
No Of MACs : 3

-- Power Supplies --
Unit Bay Status Type FanStatus FanSpeed Power AvgPower AvgPowerStartTime
-------------------------------------------------------------------------------------
0 1 up AC up 6864 49 50 06/14/2020-09:59
1 2 up AC up 6960 41 42 06/14/2020-09:59

-- Fan Status --
Unit Bay TrayStatus Fan1 Speed Fan2 Speed
------------------------------------------------------------------------------------
1 1 up up 7021 up 7021
1 2 up up 6971 up 7072
1 3 up up 7021 up 7021

Der obere Output wird auch beim zweiten “Unit” des Stacks angezeigt.
Das Wort “REDACTED” habe ich da reingeschrieben, das kommt natuerlich
nicht so zurueck :slight_smile:

Wenn ich obigen Output richtig deute, haben die Dinger drei Fans, und alle sind OK.
Fuer Checkmk ist aber - wie gesagt - einer der drei Fans, nicht OK.

Im HW/SW inventory zu den beiden switches, wird - soweit ich das beurteilen kann - auch kein dritter Fan erkannt:

Fuer den Moment, musste ich die Services die zu dem dritten Fan gehoeren, deaktivieren
um den Alert zu vermeiden.

Mache ich irgendwas falsch, oder liegt das am Check selbst?

Gruesse,
Thomas

Für mich siehts so aus wie wenn er einen vierten nicht existierenden Tray erkennt.
Tray 0 bis 2 scheinen ja da zu sein nur kein vierter. Bestimmt gibt es bei den Modellen die technische Möglichkeit für einen vierten Tray. SNMP gibt hier einfach “sinnlose” Werte zurück anstatt einfach zu sagen “nicht installiert”.
Mehr wie dein ignore bleibt hier nicht übrig.

Hi @andreas-doehler

Wenn ich mir dieses PDF hier anschaue (https://www.delltechnologies.com/asset/en-us/products/networking/technical-support/dell-networking-s4048-on-spec-sheet.pdf), dann verstehe ich dass es wohl drei verschiedene Modelle gibt:

  • zwei mit jeweils einem Netzteil und zwei Lueftern
  • eins mit zwei Netzteilen mit drei Lueftern

Bei uns scheint das letztere Modell im Einsatz zu sein. Dem CLI Output zu urteilen nach, vermute ich
ebenfalls dass jedes “Fantray” jeweils zwei Luefter hat, also insgesamt 12. Das wuerde sich mit der Information vom HW/SW Inventory decken, so wie ich das sehe.

Bei den Checks, scheine ich allerdings insgesamt 11 die OK sind und 2 die nicht OK sind
zu haben. Das waeren ja dann 13. Der letzte Service der auf “SLOT 0” noch nen Luefter
erkennt - den 14ten also - soll auch nicht OK sein.

Kann das sein, dass der Check da was “fehlinterpretiert”?

Gruesse,
Thomas

Das kann sein - liese sich nur über den Originalen SNMP Output bei diesem Switch mit Gewissheit sagen.

Hi @andreas-doehler

Ich stelle hier mal einen - weitestgehend bereinigten - SNMPwalk (agent output) zur
Verfuegung falls Du oder jemand anderes was damit anfangen kann.

Vielen Dank schon mal im Voraus!

Gruesse,
Thomas

dell10gsw-walk-redacted.txt (3.1 MB)

@openmindz das ist was dein Switch zurück gibt

.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.1 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.10 10
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.11 11
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.12 12
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.13 13
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.14 14
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.15 15
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.16 16
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.17 17
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.18 18
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.19 19
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.20 20
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.21 21
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.22 22
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.23 23
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.24 24
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.1 SLOT 0 FANTRAY 0 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.10 S4048-ON SLOT 1 FANTRAY 0 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.11 S4048-ON SLOT 1 FANTRAY 1 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.12 S4048-ON SLOT 1 FANTRAY 1 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.13 S4048-ON SLOT 1 FANTRAY 2 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.14 S4048-ON SLOT 1 FANTRAY 2 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.15 S4048-ON SLOT 1 FANTRAY 3 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.16 S4048-ON SLOT 1 FANTRAY 3 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.17 S4048-ON SLOT 2 FANTRAY 0 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.18 S4048-ON SLOT 2 FANTRAY 0 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.19 S4048-ON SLOT 2 FANTRAY 1 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.20 S4048-ON SLOT 2 FANTRAY 1 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.21 S4048-ON SLOT 2 FANTRAY 2 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.22 S4048-ON SLOT 2 FANTRAY 2 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.23 S4048-ON SLOT 2 FANTRAY 3 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.24 S4048-ON SLOT 2 FANTRAY 3 FAN 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.1 6
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.10 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.11 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.12 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.13 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.14 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.15 6
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.16 5
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.17 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.18 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.19 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.20 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.21 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.22 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.23 6
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.24 5
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.1 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.10 7021
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.11 6971
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.12 7072
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.13 7021
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.14 7021
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.15 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.16 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.17 6971
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.18 7021
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.19 7021
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.20 7021
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.21 7021
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.22 6971
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.23 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.24 0

.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1 → index
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2 → description/name
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3 → status
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4 → rpm (wird vom check nicht abgefragt)

Status: meint: normal(1), warning(2), critical(3), shutdown(4), notPresent(5), notFunctioning(6)

der Check liest alle Sensoren ausser notPresent ein. D.h. Index 16 und 24 werden ignoriert. Bleibt Index 1, 15, 23 übrig die nicht OK sind

.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.1 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.15 15
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.1.23 23
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.1 SLOT 0 FANTRAY 0 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.15 S4048-ON SLOT 1 FANTRAY 3 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.2.23 S4048-ON SLOT 2 FANTRAY 3 FAN 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.1 6
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.15 6
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.3.23 6
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.1 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.15 0
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.1.1.4.23 0

heisst Check ist OK (zumindest entsprechend den gelieferten Daten)

Bleibt die Frage liefert der Switch falsche Daten (OS Update/Hersteller Case) oder gibt es mehr Fans als die CLI anzeigt (eher nicht)?

Danke Dir vielmals @thl-cmk!

Danke auch an @andreas-doehler, der wohl von vornherein Recht hatte, dass man “sinnlose” Werte
ueber SNMP geliefert bekommt.

Ich versuche das mal ueber den Hersteller herauszufinden und/oder unsere Netzwerkadmins
zu einem Update - falls vorhanden - zu ueberreden.

Vielen Dank nochmal und viele Gruesse,
Thomas

@openmindz war noch ein dreher beim Index, siehe change oben.

BTW. wie viele Netzteile findet der PSU Check (4 oder 2)?

Hi @thl-cmk

Danke Dir vielmals dass Du Dich damit auseinandersetzt!
Der Check findet zwei Netzteile:

Wie gesagt, das ist ein “gestackter” switch. Der CLI output den ich im initialen Post
gepastet habe existiert eigentlich zwei mal. Der “zweite Teil” beginnt dann mit -- Unit 2 -- und
Unit Type: Standby Unit. Hier ist der output des “zweiten Teils” des stacks:

-- Unit 2 --
Unit Type : Standby Unit
Status : online
Next Boot : online
Required Type : S4048-ON - 54-port TE/FG (SK-ON)
Current Type : S4048-ON - 54-port TE/FG (SK-ON)
Master priority : 1
Hardware Rev : 2.0
Num Ports : 72
Up Time : 2 yr, 41 wk, 1 day, 3 hr, 54 min
Dell EMC Networking OS Version : 9.13(0.1)
Jumbo Capable : yes
POE Capable : no
FIPS Mode : disabled
Boot Flash : 3.21.2.9
Boot Selector : 3.21.0.0-5
Memory Size : 3201302528 bytes
Temperature : 32C
Voltage : ok
Serial Number : NA
Part Number : 0FRV58 Rev A03
Vendor Id : DL
Date Code : 22092018
Country Code : CN
Piece Part ID : CN-0FRV58-28298-89M-0640
PPID Revision : A03
Service Tag : - REDACTED -
Expr Svc Code : - REDACTED -
Auto Reboot : enabled
Burned In MAC : 4c:d9:8f:e7:e2:88
No Of MACs : 3

-- Power Supplies --
Unit Bay Status Type FanStatus FanSpeed Power AvgPower AvgPowerStartTime
-------------------------------------------------------------------------------------
0 1 up AC up 6928 50 51 06/14/2020-09:59
1 2 up AC up 6928 39 39 06/14/2020-09:59

-- Fan Status --
Unit Bay TrayStatus Fan1 Speed Fan2 Speed
------------------------------------------------------------------------------------
2 1 up up 6971 up 7021
2 2 up up 7021 up 7021
2 3 up up 7021 up 6971

Wenn ich darueber nachdenke waehrend ich das schreibe, und in Anbetracht der Tatsache dass eben nur zwei und nicht vier Netzteile gefunden werden, sollte der check dann nicht nur sechs Luefter in Erwaegung ziehen und diese checken?

Das schliesst natuerlich nicht aus, dass man das eigentlich ueber den SNMPwalk nicht wirklich erkennen kann und dieser “Fehler” genau deswegen entsteht.

Ich finde zwar im walk ein-zwei Referenzen zu Stack und Unit 1 oder Unit 2 aber nichts wirklich womit man unterscheiden kann, welches “Unit” gerade aktiv ist…

Thomas

das sind zwei verschiedene Checks. Bei den FANs ist der Name eindeutig, bei den PSUs nicht. Der PSU Check berücksictigt nicht den PSU Index. Hier ist die Herausforderung bei CMK…

.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.1.11 11
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.1.12 12
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.1.21 21
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.1.22 22
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.2.11 S4048-ON PSU 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.2.12 S4048-ON PSU 2
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.2.21 S4048-ON PSU 1
.1.3.6.1.4.1.674.10895.3000.1.2.110.7.2.1.2.22 S4048-ON PSU 2

Bei den FANs sind das je Tray 2 FANs

Unit Bay TrayStatus _Fan1_ Speed _Fan2_ Speed

macht bei 3 FAN Trays und 2 Switches 322=12 Fans, soweit OK.

Zu den PSUs hast du eine Info in welcher Einheit die Power angabe ist (W)?

-- Power Supplies --
Unit Bay Status Type FanStatus FanSpeed _Power_ AvgPower AvgPowerStartTime
-------------------------------------------------------------------------------------
0 1 up AC up 6928 _50_ 51 06/14/2020-09:59
1 2 up AC up 6928 _39_ 39 06/14/2020-09:59

Nee, kann ich leider nicht sagen. Die CLI reference die ich finde, schweigt sich darueber aus.
Hier ist ein PDF davon, allerdings fuer OS 9.14 wo dieser Befehl erklaert wird:

Dell Command Line Reference Guide for the S4048–ON System → show system

Es gibt aber keinerlei Angabe ueber die Einheit die fuer die “Power” bzw. “AvgPower” Ausgabe der Netzteile zurueckgeliefert wird.

@openmindz habe den PSU Check mal angepasst (für CMK 2.1) sollte jetzt alle 4 PSUs finden (+ Power usage als Metric)

Hi @thl-cmk

Das ist grossartig, vielen lieben Dank! Die Instanz mit der ich diese Dell switches
ueberwache hat allerdings die Version 2.0.0p34 und ich kann die momentan
leider nicht aktualisieren. :frowning:

Thomas

@openmindz kein Problem, habe das noch kurz for 2.0 angepasst.

Vielen Dank @thl-cmk, weiss ich sehr zu schaetzen! :wink:
Funktioniert einwandfrei:

Gruesse,
Thomas

This topic was automatically closed 365 days after the last reply. New replies are no longer allowed. Contact an admin if you think this should be re-opened.