Distributed Monitoring gegen Performance-Probleme der RAW-Edition?

micha92 · May 25, 2023, 11:01am

Hallo,
wir nutzen Checkmk Raw Edition Version 2.1.0p22 und überwachen damit eine Umgebung mit ca. 2000 Hosts bzw. 17000 Services. Es handelt sich sowohl im Server als auch Netzwerkgeräte. Wir überwachen Geräte teilweise als Ping-only, teilweise über SNMP oder Checkmk-Agent (Windows und Linux). Das System läuft als VM mit 16 CPU-Cores und 32GB RAM.
Im täglichen Betrieb stehen wir vor folgenden Problemen:

Hosts werden fälschlicherweise als “Down” markiert, sind aber “Up”.
Services werden teilweise als “Stale” ausgewiesen und erhalten verspätet neue Werte
Das Alter von Geräten, welche wirklich “Down” sind, setzt sich immer wieder zurück. Wir können daran nicht erkennen, welche Geräte seit längerem inaktiv sind und welche Geräte erst neu hinzugekommen sind.
Die VM ist während der Abfrageintervalle mit allen CPU-Cores ausgelastet.

Ich gehe davon aus, dass Abfragen teilweise in Timeouts laufen bzw. der Monitoring-Host die Abfragen nicht bewältigen kann. Sicherlich haben wir irgendwo die Leistungsgrenze der Raw-Version erreicht haben. Die Verwendung unterschiedlicher Zeitintervalle für die verschiedenen Abfragetypen (Ping, Checkmk_Agent, SNMP) verschieben die Lastprobleme nur zeitlich.

Zur Behebung des Problems stellen sich folgende Fragen:

Kann sich durch Distributed Monitoring in unserem Use-Case die Leistung bzw. Responsivität des Monitorings verbessern? Ist es ratsam ein Distributed Monitoring über mehrere Hosts zu verteilen oder sind Performanceverbesserungen schon mit mehreren Sites pro Host denkbar?
Eine andere Möglichkeit wäre der Umstieg auf die Enterprise Edition. Hierbei steht die Frage, ob der optimierte CMC deutliche Verbesserungen ggü. dem Nagios Überwachungskern bietet.

Sicherlich gibt es für die Fragen keine explizit richtigen Antworten. Es wäre aber super, wenn jemand Erfahrungswerte geben kann. Auch Links zu Performancevergleichen der beiden Versionen oder Anleitungen zu sonstigen Optimierungsmöglichkeiten sind willkommen.

VG

elias.voelker · May 25, 2023, 3:47pm

Hallo @micha92

und willkommen im Forum.

2000 Hosts auf einer Site eine Menge für die Raw Edition. Wir sagen üblicherweise, dass ca. 1000 Hosts auf einer Site so die Obergrenze dessen ist, was mit der Raw Edition Spaß macht. Das ist natürlich eine klassische Daumenregel, in der Realität kommt es darauf an, WAS man überwacht (Agenten sind Ressourcen schonender als SNMP), in welcher Frequenz und wie viel Serverressourcen man auf das Problem schmeißt (Euer Server ist jetzt nicht gerade gigantisch dimensioniert).

Ich spreche gerade mit einem Unternehmen hier in den USA, die 170.000 Services mit der Raw überwachen (verteilt auf 11 Sites, allerdings). Aber sie sagen selber, dass die Hardware sie mehr kostet, als ein Upgrade auf die Enterprise Edition…

Ein verteiltes Monitoring aufzubauen könnte Dir in der Tat weiterhelfen, solange Du natürlich die weiteren Sites mit entsprechend ausreichend Server-Ressourcen ausstattest.

Zu Deiner Frage nach dem Wechsel auf den CMC / Enterprise Edition: Da würdest Du definitiv einen Performance-Unterschied merken. In diesem Artikel gibt es ein paar Beispiele: The Checkmk Micro Core (CMC)

Aber da kann sicherlich der eine oder andere Forist auch seine eigenen Erfahrungen posten.

Im Zweifelsfall: Einfach mal die Trial herunterladen und ausprobieren! 30 Tage lang hast Du ja keinerlei Einschränkungen und kannst Deine gesamte Infrastruktur damit überwachen und schauen wie es sich so anfühlt.

Viele Grüße
Elias