Plugin SMART: Service-State flappt aufgrund Pending / Reallocated Sectors bei SSD

Checkmk Raw Edition 2.1.0p16
Plugin “smart” 2.1.0p16

Hallo liebe Checkmk Community,

wir haben das Monitoring unserer Debian-Server kürzlich um das Checkmk Plugin “SMART” erweitert, um den Status der SSDs überwachen zu können. Dies funktioniert grundsätzlich sehr gut und es werden uns die SMART-Daten der SSDs angezeigt.

Wir haben jedoch den Effekt, dass der Service-State ständig von OK-CRIT flappt, weil manchmal “Pending Sectors” bzw. “Reallocated Sectors” vorhanden sind. Dadurch wird z.B. “Pending Sectors: 1” zurückgemeldet, was jedoch größer als “Pending Sectors: 0” während des Discovery ist und damit als CRIT angezeigt wird.
In seltenen Fällen sind auch mehr als 1 Sektoren ausstehend, wobei keine defekte SSD vorliegt und im nächsten Zyklus die Anzahl wieder 0 und damit der Status wieder OK ist.

Was haben wir bereits (erfolglos) versucht:

  • Die Werte, ab welcher Anzahl die Sektoren CRIT werden, können leider nicht per Regeln gesteuert werden. Es müsste wohl das Plugin angepasst werden.
  • Den Service-State in einen Soft-CRIT Status zu bringen funktioniert zwar für die Benachrichtigungen, nicht jedoch für die Anzeige in der Event-History.

Fragen:

  • Haben war insgesamt ein falsches Verständnis von der Verwendung dieses Plugins?
  • Was können wir noch tun, um die flappenden Services zu beruhigen?
  • Wie könnten die SMART-Parameter anderweitig abgefragt werden? (Polling via SNMP ist design-technisch leider keine Option für unseren Anwendungsfall)
  • Wie setzt ihr das Plugin “SMART” ein?

Vielen Dank für die Hilfe!