Hi,
I have a problem with one of my proxmox servers (debian base):
CheckMK tries to check the dvd drive for SMART errors:
32608 ? D 0:00 smartctl -d scsi -i -A /dev/disk/by-id/ata-TSSTcorp_CDDVDW_SN-208FB_S11R6YBG7003VA
32655 ? D 0:00 smartctl -d scsi -i -A /dev/disk/by-id/ata-TSSTcorp_CDDVDW_SN-208FB_S11R6YBG7003VA
32705 ? D 0:00 smartctl -d scsi -i -A /dev/disk/by-id/ata-TSSTcorp_CDDVDW_SN-208FB_S11R6YBG7003VA
[...]
It started to do so yesterday night and now the load of my proxmox server is over 300. It still responses quite fine, but it’s still annoying, since I don’t see now, if the load actually gets critical.
There were over 400 check-mk-agent and smart processes, which could be killed, but the smartctl is in uninterruptable sleep.
I tried this to disable the drive:
echo 1 > /sys/block/sr0/device/delete
which is still running now and seems to do nothing.
I guess I need to reboot, but I want to make sure, that the dvd drive is not being monitored from now on. How to do so?
Gute Frage - wer hat heutzutage noch nen CD/DVD drive in nem Server
Generell hättest die Möglichkeit im “smart” Plugin die Filter zu erweitern welche zum ausfiltern von unerwünschten Devices genutzt werden. (Zur Zeit enthalten sind iSCSI und Logical Volumes)
Falls Modell nicht taugt zum filtern dann einfach die Zeilen davor nochmal duplizieren und nicht nach “device model” filtern sondern ach was anderem was so bei der Ausgabe von “smartctl -a /dev/disk/by-id/…” angezeigt wird.
Ist das heutzutage wirklich schon so ungewöhnlich?
Beim Check-Plugin im WATO gibt es nur die Möglichkeiten “Deploy” oder “Do not deploy”.
Dieser Filter wäre also irgendwo direkt in den Dateien zu finden, oder?
kannst Du das Verhalten zuverlässig reproduzieren? Ich hatte das vor ca. 14 Tagen mal bei mir nachgestellt und es gab zuerst kein Problem und nachstellen konnte ich es nicht. Ich habe darüber vergessen, dass ich dass smart Plugin deployt hatte. Heute jedoch ist mir der Server aus heiterem Himmel “um die Ohren geflogen”, über 5000 smartctl Prozesse. Ich musste den Server neustarten.
Nach dem Neustart kann ich das Problem allerdings wieder nicht triggern…
Hi @gulaschcowboy ,
nein, leider lässt sich das Verhalten leider überhaupt nicht reproduzieren.
Seit dem Reboot geht jetzt wieder alles obwohl ich im Check noch gar nichts geändert habe.
Wir rollen den Check auf allen Hosts aus, die den Tag “Linux” haben und haben damit eigentlich fast nie Probleme. Es tritt wirklich nur sehr selten auf.