Hallo,
wir nutzen Checkmk Raw Edition Version 2.1.0p22 und überwachen damit eine Umgebung mit ca. 2000 Hosts bzw. 17000 Services. Es handelt sich sowohl im Server als auch Netzwerkgeräte. Wir überwachen Geräte teilweise als Ping-only, teilweise über SNMP oder Checkmk-Agent (Windows und Linux). Das System läuft als VM mit 16 CPU-Cores und 32GB RAM.
Im täglichen Betrieb stehen wir vor folgenden Problemen:
- Hosts werden fälschlicherweise als “Down” markiert, sind aber “Up”.
- Services werden teilweise als “Stale” ausgewiesen und erhalten verspätet neue Werte
- Das Alter von Geräten, welche wirklich “Down” sind, setzt sich immer wieder zurück. Wir können daran nicht erkennen, welche Geräte seit längerem inaktiv sind und welche Geräte erst neu hinzugekommen sind.
- Die VM ist während der Abfrageintervalle mit allen CPU-Cores ausgelastet.
Ich gehe davon aus, dass Abfragen teilweise in Timeouts laufen bzw. der Monitoring-Host die Abfragen nicht bewältigen kann. Sicherlich haben wir irgendwo die Leistungsgrenze der Raw-Version erreicht haben. Die Verwendung unterschiedlicher Zeitintervalle für die verschiedenen Abfragetypen (Ping, Checkmk_Agent, SNMP) verschieben die Lastprobleme nur zeitlich.
Zur Behebung des Problems stellen sich folgende Fragen:
- Kann sich durch Distributed Monitoring in unserem Use-Case die Leistung bzw. Responsivität des Monitorings verbessern? Ist es ratsam ein Distributed Monitoring über mehrere Hosts zu verteilen oder sind Performanceverbesserungen schon mit mehreren Sites pro Host denkbar?
- Eine andere Möglichkeit wäre der Umstieg auf die Enterprise Edition. Hierbei steht die Frage, ob der optimierte CMC deutliche Verbesserungen ggü. dem Nagios Überwachungskern bietet.
Sicherlich gibt es für die Fragen keine explizit richtigen Antworten. Es wäre aber super, wenn jemand Erfahrungswerte geben kann. Auch Links zu Performancevergleichen der beiden Versionen oder Anleitungen zu sonstigen Optimierungsmöglichkeiten sind willkommen.
VG