Hallo Liste,
mich würde mal interessieren wie Check_MK Kunden mit großen Landschaften mit den Notifizierungen nach größeren Störungen umgehen.
Zu uns: Wir haben im Unternehmen eine relativ große Landschaft mit ca. 4000 Hosts und 160k Services.
CMK Version : 1.4.0p6 CEE
Zu meinem Problem :
Wir hatten gestern eine kurze Störung im Netzwerk, wodurch in kurzer Zeit über 20000 Notifizierungen generiert wurden.
Da die Alarme relativ langsam verarbeitet werden, hauptsächlich dem Umstand geschuldet dass viele SMS versandt werden, haben wir uns dazu entschieden die Alarme im Störungszeitraum aus dem Spool-Verzeichnis zu löschen.
Dadurch entsteht nur das Problem, dass die notify Logs sehr schnell anwachsen, da dort die Fehlermeldungen der nicht mehr vorhandenen Spool-Files auftauchen.
Ein Neustart des Cores reicht leider nicht aus, um Check_MK die Notifizierungen „vergessen“ zu lassen, d.h. wir müssen in diesem Fall das System auf den zweiten Node schwenken, da ansonsten keine neuen Notifizierungen mehr versandt werden.
Wenn wir die Alarme einfach „stehen lassen“, werden sie nur langsam abgearbeitet und aktuellere Alarme werden mehr zeitnah notifiziert.
Wie handhabt ihr das? Wartet ihr bis die Notifizierungen versandt wurden oder geht ihr den gleichen Weg wie wir?
Danke und Gruß,
Matthias
i.A. Matthias Carstensen
Kennzahlen und Monitoring
mobilcom-debitel GmbH
Ein Unternehmen der freenet Group
Hollerstraße 126
D-24782 Büdelsdorf
Tel.: +49 (0) 4331-69-5374
www.mobilcom-debitel.de
www.freenet-group.de
Geschäftsführung: Ingo Arnold, Rickmann von Platen
Vorsitzender des Aufsichtsrats: Christoph Vilanek
Sitz der Gesellschaft: Büdelsdorf
HRB 14826 KI, Amtsgericht Kiel