Hallo miteinander,
wie arbeitet ihr mit Regeln für logwatch + Event Console? Insbesondere: Wie verarbeitet ihr bisher unbekannte Fehlermeldungen?
Ich fürchte, dass wir das viel zu kompliziert angehen. (Raw-Edition.)
// Unsere Herangehensweise //
„Rule packages“ für Produktiv- und Testsysteme. Darin Regeln für bereits bekannte Fehler. Funktioniert an sich ganz gut, identische Ereignisse werden durch reguläre Ausdrücke, Match Groups und „application tags“ gut zusammenfasst.
Für bisher unbekannte Fehler gibt es am Ende der Packages eine abschließende Regel (z.B. „auto_PROD_rule“). Darin ist kein regulärer Ausdruck und auch keine Applikation definiert.
Sie soll dafür sorgen, dass neue Fehler auf jeden Fall als Event in der Event Console auftauchen.
// Das Problem //
Es ist dann immer ein- und dieselbe Regel „zuständig“. Alle neuen Events haben also gleiche Eigenschaften. Bspw.:
-
Hostname: xyz
-
Match Groups: –
-
Application: /var/log/messages
-
Rule-ID: auto_Prod_RULE
Alle noch folgenden Fehler aus dieser Logdatei zählt Checkmk nun zu diesem einen Event dazu. (In der History sieht man mit etwas Glück noch die alten Fehlermeldungen.)
Wenn ich nun:
···
-
„acknowledge“ wähle, gilt das für die gesamte Logdatei. Neue Events aus der selben Logdatei fallen gar nicht mehr auf, weil nichts mehr in „Unhandled“ landet.
-
einfach archiviere, erhalte ich i.d.R. innerhalb von Minuten neue Events vom gleichen Typ.
-
immer wieder neue Regeln mit entsprechender Regex anlege, werden die Rule packages immer unübersichtlicher.
Wie kann ich das denn besser lösen?
An Regex in diesen letzten Regeln habe ich mich noch nicht versucht, weil ich keine Idee habe, mit welchen Match Groups man für unbekannte Fehler arbeiten sollte. Ich müsste ja unterschiedlichste Datumsformate usw. wegfiltern, damit ich
nicht von unzähligen Events erschlagen werde.
Viele Grüße
Thomas Lambeck