Hi zusammen,
distributed setup mit insgesamt knapp 4.600 Hosts und 120.000 Services, cmk Enterprise.
Stärkster cmk Node ist ein 8-Kerner mit HT, 32 GB Ram und 4x SSDs im Raid 10.
Loadavg von 3,irgendwas also ca 0,2 pro Thread, RAM ca zur Hälfte belegt und Disk utilization unter 5% dank der SSDs. Hatten vorher auch 4x 15k SAS im Raid 10,
die waren immer bei >90% utilization und überwache damit überwiegend Agenten-basierte Systeme.
Aber auch die anderen Nodes mit SNMP und/oder gemischten Checks haben ähnliches Verhalten gezeigt. Flaschenhals ist bzw. war der Storage, CPU und RAM eher weniger
aber eben auch abhängig von Check-Intervallen, Art der Checks etc.
Bei der freien Variante musst du es mit Storage erschlagen und danach mit CPU mit möglichst hohem Takt, da eben keine parallelen Helper-Prozesse existieren.
Ganz wichtig wenn man von der freien Variante auf Enterprise umstellt: Anpassung der RRD-Regelwerke und auch Konvertierung der bestehenden RRDs sonst hat man den
massiven Performance-Vorteil nur bei neu angelegten Hosts und Services (https://mathias-kettner.de/cms_graphing.html Abschnitt 8.2)
Gruß Maximilian
···
Von: checkmk-de [mailto:checkmk-de-bounces@lists.mathias-kettner.de]
Im Auftrag von Thomas Tretbar
Gesendet: Freitag, 16. November 2018 08:27
An: checkmk-de
Cc: R.Hoessrich
Betreff: Re: [Check_mk (deutsch)] Maximale Leistung / Performance von Check_MK
Ich habe die Monitoring Hosts sogar alle in VMware-VMs:
Ähnlich wie Deins:
750 Hosts, 16000 Services, 8 Instanzen, Check_mk Micro Core, 6 CPU, 24GB RAM, SSD Storage: Load ca 1,5-2,5.
Wie meine Vorredner empfehle ich dringend CMC (also Enterprise) und schnelles Storage.
So denn, Tom.
----- Am 15. Nov 2018 um 14:53 schrieb R.Hoessrich AmAUcLM@7mail.eu:
Guten Tag,
ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird
es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den “Host und Service Parametern” habe ich bei der Einstellung “Normal check interval for service checks” schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial
Variante besser?
Mit freundlichen Grüßen
R.Hoessrich
checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
Verwaltung & Abmeldung unter
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de
–
Thomas Tretbar
Head of IT
------------ managedhosting.de - Enterprise Cloud Services ------------
VMware Hybrid Cloud Powered Service Provider
Red Hat Certified Cloud & Service Provider
Zimbra Gold Partner
FileCloud Certified Partner
veeam Cloud Provider
p +49 800 6737877 (Toll Free)
p +49 371 90975555 (International Customers)
f +49 371 90975550
@ thomas.tretbar@managedhosting.de
w https://www.managedhosting.de
Pflichtangaben nach §35a GmbHG: AGB - managedhosting.de