[Check_mk (deutsch)] Logwatch + EC: Letzte Regeln für unbekannte Meldungen?

Hallo miteinander,

wie arbeitet ihr mit Regeln für logwatch + Event Console? Insbesondere: Wie verarbeitet ihr bisher unbekannte Fehlermeldungen?

Ich fürchte, dass wir das viel zu kompliziert angehen. (Raw-Edition.)

// Unsere Herangehensweise //

„Rule packages“ für Produktiv- und Testsysteme. Darin Regeln für bereits bekannte Fehler. Funktioniert an sich ganz gut, identische Ereignisse werden durch reguläre Ausdrücke, Match Groups und „application tags“ gut zusammenfasst.

Für bisher unbekannte Fehler gibt es am Ende der Packages eine abschließende Regel (z.B. „auto_PROD_rule“). Darin ist kein regulärer Ausdruck und auch keine Applikation definiert.

Sie soll dafür sorgen, dass neue Fehler auf jeden Fall als Event in der Event Console auftauchen.

// Das Problem //

Es ist dann immer ein- und dieselbe Regel „zuständig“. Alle neuen Events haben also gleiche Eigenschaften. Bspw.:

  • Hostname: xyz

  • Match Groups: –

  • Application: /var/log/messages

  • Rule-ID: auto_Prod_RULE

Alle noch folgenden Fehler aus dieser Logdatei zählt Checkmk nun zu diesem einen Event dazu. (In der History sieht man mit etwas Glück noch die alten Fehlermeldungen.)

Wenn ich nun:

···
  1. „acknowledge“ wähle, gilt das für die gesamte Logdatei. Neue Events aus der selben Logdatei fallen gar nicht mehr auf, weil nichts mehr in „Unhandled“ landet.

  2. einfach archiviere, erhalte ich i.d.R. innerhalb von Minuten neue Events vom gleichen Typ.

  3. immer wieder neue Regeln mit entsprechender Regex anlege, werden die Rule packages immer unübersichtlicher.

Wie kann ich das denn besser lösen?

An Regex in diesen letzten Regeln habe ich mich noch nicht versucht, weil ich keine Idee habe, mit welchen Match Groups man für unbekannte Fehler arbeiten sollte. Ich müsste ja unterschiedlichste Datumsformate usw. wegfiltern, damit ich
nicht von unzähligen Events erschlagen werde.

Viele Grüße

Thomas Lambeck

Hallo Thomas,

wir haben auch eine „Catchall“ Regel am Schluss, die unbekannte Meldungen auffängt und in der EC

anzeigt.

Wenn du bei „Count messages in defined interval“ einfach nichts einträgst, dann werden aus allen Logwatch-Events

eigene einzelne EC-Events erstellt.

Nur bei „Limit event lifetime“ haben wir 1 Std. drin stehen sonst läuft uns die EC immer mal wieder über…

Bei „Outcome and Action“ stellen den State auf „Unknown“, damit in der EC klar ist, dass man die Meldung noch

klassifizieren muss.

Gruss,

Kai

···

Dr. Ing. h.c. F. Porsche Aktiengesellschaft
Sitz der Gesellschaft: Stuttgart
Registergericht: Amtsgericht Stuttgart HRB-Nr. 730623
Vorsitzender des Aufsichtsrats: Dr. Wolfgang Porsche
Vorstand: Oliver Blume, Vorsitzender
Lutz Meschke, stv. Vorsitzender
Andreas Haffner, Detlev von Platen, Albrecht Reimold, Uwe-Karsten Städter, Michael Steiner

Informationen zum Umgang mit Ihren Daten finden Sie in unseren Datenschutzhinweisen.

Die vorgenannten Angaben werden jeder E-Mail automatisch hinzugefügt. Dies ist kein Anerkenntnis,
dass es sich beim Inhalt dieser E-Mail um eine rechtsverbindliche Erklärung der Porsche AG handelt.
Erklärungen, die die Porsche AG verpflichten, bedürfen jeweils der Unterschrift durch zwei zeichnungs-
berechtigte Personen der AG.

From: checkmk-de checkmk-de-bounces@lists.mathias-kettner.de
On Behalf Of Lambeck, Thomas
Sent: Tuesday, December 10, 2019 7:04 PM
To: checkmk-de@lists.mathias-kettner.de
Subject: [Check_mk (deutsch)] Logwatch + EC: Letzte Regeln für unbekannte Meldungen?

Hallo miteinander,

wie arbeitet ihr mit Regeln für logwatch + Event Console? Insbesondere: Wie verarbeitet ihr bisher unbekannte Fehlermeldungen?

Ich fürchte, dass wir das viel zu kompliziert angehen. (Raw-Edition.)

// Unsere Herangehensweise //

„Rule packages“ für Produktiv- und Testsysteme. Darin Regeln für bereits bekannte Fehler. Funktioniert an sich ganz gut, identische Ereignisse werden durch reguläre Ausdrücke, Match Groups und „application tags“ gut zusammenfasst.

Für bisher unbekannte Fehler gibt es am Ende der Packages eine abschließende Regel (z.B. „auto_PROD_rule“). Darin ist kein regulärer Ausdruck und auch keine Applikation definiert.

Sie soll dafür sorgen, dass neue Fehler auf jeden Fall als Event in der Event Console auftauchen.

// Das Problem //

Es ist dann immer ein- und dieselbe Regel „zuständig“. Alle neuen Events haben also gleiche Eigenschaften. Bspw.:

  • Hostname: xyz

  • Match Groups: –

  • Application: /var/log/messages

  • Rule-ID: auto_Prod_RULE

Alle noch folgenden Fehler aus dieser Logdatei zählt Checkmk nun zu diesem einen Event dazu. (In der History sieht man mit etwas Glück noch die alten Fehlermeldungen.)

Wenn ich nun:

a)
„acknowledge“ wähle, gilt das für die gesamte Logdatei. Neue Events aus der selben Logdatei fallen gar nicht mehr auf, weil nichts mehr in „Unhandled“ landet.

b)
einfach archiviere, erhalte ich i.d.R. innerhalb von Minuten neue Events vom gleichen Typ.

c)
immer wieder neue Regeln mit entsprechender Regex anlege, werden die Rule packages immer unübersichtlicher.

Wie kann ich das denn besser lösen?

An Regex in diesen letzten Regeln habe ich mich noch nicht versucht, weil ich keine Idee habe, mit welchen Match Groups man für unbekannte Fehler arbeiten sollte. Ich müsste ja unterschiedlichste Datumsformate usw. wegfiltern, damit ich
nicht von unzähligen Events erschlagen werde.

Viele Grüße

Thomas Lambeck

This topic was automatically closed after 58 days. New replies are no longer allowed.