Plugin SMART: Service-State flappt aufgrund Pending / Reallocated Sectors bei SSD

Checkmk Raw Edition 2.1.0p16
Plugin “smart” 2.1.0p16

Hallo liebe Checkmk Community,

wir haben das Monitoring unserer Debian-Server kürzlich um das Checkmk Plugin “SMART” erweitert, um den Status der SSDs überwachen zu können. Dies funktioniert grundsätzlich sehr gut und es werden uns die SMART-Daten der SSDs angezeigt.

Wir haben jedoch den Effekt, dass der Service-State ständig von OK-CRIT flappt, weil manchmal “Pending Sectors” bzw. “Reallocated Sectors” vorhanden sind. Dadurch wird z.B. “Pending Sectors: 1” zurückgemeldet, was jedoch größer als “Pending Sectors: 0” während des Discovery ist und damit als CRIT angezeigt wird.
In seltenen Fällen sind auch mehr als 1 Sektoren ausstehend, wobei keine defekte SSD vorliegt und im nächsten Zyklus die Anzahl wieder 0 und damit der Status wieder OK ist.

Was haben wir bereits (erfolglos) versucht:

  • Die Werte, ab welcher Anzahl die Sektoren CRIT werden, können leider nicht per Regeln gesteuert werden. Es müsste wohl das Plugin angepasst werden.
  • Den Service-State in einen Soft-CRIT Status zu bringen funktioniert zwar für die Benachrichtigungen, nicht jedoch für die Anzeige in der Event-History.

Fragen:

  • Haben war insgesamt ein falsches Verständnis von der Verwendung dieses Plugins?
  • Was können wir noch tun, um die flappenden Services zu beruhigen?
  • Wie könnten die SMART-Parameter anderweitig abgefragt werden? (Polling via SNMP ist design-technisch leider keine Option für unseren Anwendungsfall)
  • Wie setzt ihr das Plugin “SMART” ein?

Vielen Dank für die Hilfe!

Habe diesen Post nochmals im englischen CMK Forum gepostet: https://forum.checkmk.com/t/plugin-smart-service-state-flapping-for-ssds-due-to-pending-reallocated-sectors

Ergänzung: OS version: Debian 11 “Bullseye” 5.10.0-23-amd64 SMP Debian 5.10.179-1 (2023-05-12) x86_64

Wenn ich mir den Code anschaue für die von dir gefundenen Probleme mit “Reallocated Sectors” würde ich einfach mal sagen Check ist kaputt und wird dort eh nie was richtiges anzeigen.
Wobei man ehrlicherweise sagen muss Output vom Smartctl ist auch aus der Hölle.
Bei einer SSD macht dieser Punkt auch nicht wirklich Sinn.

Hallo Andreas, vielen Dank für Deine Antwort. Ich teile Deine Einschätzung voll und ganz :slight_smile:

Hast Du eine Idee, wie wir alternativ die SSD-Parameter überwachen könnten? Uns geht es eigentlich nur darum, “Verschleiß” der SSDs (bewusst recht allgemein) rechtzeitig zu erkennen.