[Check_mk (deutsch)] Handling der Notifizierungen bei Störungen

Hallo Liste,

mich würde mal interessieren wie Check_MK Kunden mit großen Landschaften mit den Notifizierungen nach größeren Störungen umgehen.

Zu uns: Wir haben im Unternehmen eine relativ große Landschaft mit ca. 4000 Hosts und 160k Services.

CMK Version : 1.4.0p6 CEE

Zu meinem Problem :

Wir hatten gestern eine kurze Störung im Netzwerk, wodurch in kurzer Zeit über 20000 Notifizierungen generiert wurden.

Da die Alarme relativ langsam verarbeitet werden, hauptsächlich dem Umstand geschuldet dass viele SMS versandt werden, haben wir uns dazu entschieden die Alarme im Störungszeitraum aus dem Spool-Verzeichnis zu löschen.

Dadurch entsteht nur das Problem, dass die notify Logs sehr schnell anwachsen, da dort die Fehlermeldungen der nicht mehr vorhandenen Spool-Files auftauchen.

Ein Neustart des Cores reicht leider nicht aus, um Check_MK die Notifizierungen „vergessen“ zu lassen, d.h. wir müssen in diesem Fall das System auf den zweiten Node schwenken, da ansonsten keine neuen Notifizierungen mehr versandt werden.

Wenn wir die Alarme einfach „stehen lassen“, werden sie nur langsam abgearbeitet und aktuellere Alarme werden mehr zeitnah notifiziert.

Wie handhabt ihr das? Wartet ihr bis die Notifizierungen versandt wurden oder geht ihr den gleichen Weg wie wir?

Danke und Gruß,

Matthias

i.A. Matthias Carstensen
Kennzahlen und Monitoring

image001.png

mobilcom-debitel GmbH
Ein Unternehmen der freenet Group
Hollerstraße 126
D-24782 Büdelsdorf

Tel.: +49 (0) 4331-69-5374

matthias.carstensen@md.de

www.mobilcom-debitel.de
www.freenet-group.de

Geschäftsführung: Ingo Arnold, Rickmann von Platen
Vorsitzender des Aufsichtsrats: Christoph Vilanek
Sitz der Gesellschaft: Büdelsdorf
HRB 14826 KI, Amtsgericht Kiel

Hallo Matthias,

ich würde hier eher erstmal an dem Punkt ansetzen warum so viele Notifications generiert wurden, nur wegen “einer” Netzwerkstörung.

Verwendet Ihr Parent-Child Beziehungen bei den überwachten Objekten?

Zu dem Problem wie bei Euch aufgetreten wüsste ich auch keine einfache Lösung.

Gruß

Andreas

image001.png

image001.png

···

Matthias Carstensen Matthias.Carstensen@md.de schrieb am Mi., 13. Dez. 2017 um 11:11 Uhr:

Hallo Liste,

mich würde mal interessieren wie Check_MK Kunden mit großen Landschaften mit den Notifizierungen nach größeren Störungen umgehen.

Zu uns: Wir haben im Unternehmen eine relativ große Landschaft mit ca. 4000 Hosts und 160k Services.

CMK Version : 1.4.0p6 CEE

Zu meinem Problem :

Wir hatten gestern eine kurze Störung im Netzwerk, wodurch in kurzer Zeit über 20000 Notifizierungen generiert wurden.

Da die Alarme relativ langsam verarbeitet werden, hauptsächlich dem Umstand geschuldet dass viele SMS versandt werden, haben wir uns dazu entschieden die Alarme im Störungszeitraum aus dem Spool-Verzeichnis zu löschen.

Dadurch entsteht nur das Problem, dass die notify Logs sehr schnell anwachsen, da dort die Fehlermeldungen der nicht mehr vorhandenen Spool-Files auftauchen.

Ein Neustart des Cores reicht leider nicht aus, um Check_MK die Notifizierungen „vergessen“ zu lassen, d.h. wir müssen in diesem Fall das System auf den zweiten Node schwenken, da ansonsten keine neuen Notifizierungen mehr versandt werden.

Wenn wir die Alarme einfach „stehen lassen“, werden sie nur langsam abgearbeitet und aktuellere Alarme werden mehr zeitnah notifiziert.

Wie handhabt ihr das? Wartet ihr bis die Notifizierungen versandt wurden oder geht ihr den gleichen Weg wie wir?

Danke und Gruß,

Matthias

i.A. Matthias Carstensen

Kennzahlen und Monitoring

http://md.de/img/email-signature/mobilcom-debitel.png

mobilcom-debitel GmbH

Ein Unternehmen der freenet Group

Hollerstraße 126

D-24782 Büdelsdorf

Tel.: +49 (0) 4331-69-5374

matthias.carstensen@md.de

www.mobilcom-debitel.de

www.freenet-group.de

Geschäftsführung: Ingo Arnold, Rickmann von Platen

Vorsitzender des Aufsichtsrats: Christoph Vilanek

Sitz der Gesellschaft: Büdelsdorf

HRB 14826 KI, Amtsgericht Kiel


checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Zitat von Matthias Carstensen <Matthias.Carstensen@md.de>:

Hallo Liste,

mich würde mal interessieren wie Check_MK Kunden mit großen Landschaften mit den Notifizierungen nach größeren Störungen umgehen.

Hallo,
ich würde keine Daten löschen.
Wer weiss wann einem das mal auf die Füsse fällt.
Jedenfalls konntet ihr euer Problem nicht übersehen;-)
Wenn es nicht häufiger vorkommt würde ich die Notifications durchlaufen lassen und fertig. Es sei den es entstehen Kosten. Alternativ per Script nach X verschickten Nachrichten Notifications abschalten?

Gruss