[Check_mk (deutsch)] Maximale Leistung / Performance von Check_MK

Guten Tag,

ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den "Host und Service Parametern" habe ich bei der Einstellung "Normal check interval for service checks" schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial Variante besser?

Mit freundlichen Grüßen
R.Hoessrich

Hallo R., :wink:

die kommerzielle Version von Check_MK hat einen völlig neu programmierten Kernel (den man nach einem Update aber erst aktiveren muss). Sie arbeitet also ohne den Nagios Core. Neben diversen allgemeinen Performance Verbesserungen werden hier Helper Prozesse verwendet, um die eigentlichen Abfragen zu machen, so dass viel weniger Prozesse bzw. Threads gestartet werden müssen. Das macht extrem viel aus.
Für große Installationen würde ich immer die Commercial Version verwenden (ok, ich verwende ausschließlich die Commercial Version bei unseren Kunden :slight_smile: ).

Davon abgesehen ist die I/O Leistung des verwendeten Servers sehr wichtig, da viele RRD Dateien geschrieben werden müssen.

Gruß

Udo

----- Ursprüngliche Mail -----

···

Von: "R.Hoessrich" <AmAUcLM@7mail.eu>
An: checkmk-de@lists.mathias-kettner.de
Gesendet: Donnerstag, 15. November 2018 14:53:51
Betreff: [Check_mk (deutsch)] Maximale Leistung / Performance von Check_MK

Guten Tag,

ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den "Host und Service Parametern" habe ich bei der Einstellung "Normal check interval for service checks" schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial Variante besser?

Mit freundlichen Grüßen
R.Hoessrich

_______________________________________________
checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
Verwaltung & Abmeldung unter
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Hallo,

wie alt ist der Server?

Nach der Umstellung vom Nagios-Core zum CMC und dem Wechsel auf leistunsfähigere Hardware liegt meine Load bei zwischen 1-2.

Ich monitore reichlich 700 Hosts bei knapp 29000 Services.

Daniel

···

Am 15.11.2018 14:53, schrieb R.Hoessrich:


Guten Tag,
ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den "Host und Service Parametern" habe ich bei der Einstellung "Normal check interval for service checks" schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial Variante besser?
Mit freundlichen Grüßen
R.Hoessrich
_______________________________________________
checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
Verwaltung & Abmeldung unter
[http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de](http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de)

Hi,

was verursacht denn die Load?
Was für Platten sind denn verbaut, ich würde spontan erst mal hier das Bottleneck vermuten.

815Host, 11300 Services
2x Xeon CPU X5650 (24 Threats)
HDD ein Raid10 mit 4x 15k SAS Platten und hier merke ich, dass die Langsam aber sicher an ihre I/O Grenzen kommen.
Load im Schnitt bei 5.0 allerdings Enterprise mit CMC.

Grüße
Andreas

···

Am 15.11.18 um 14:53 schrieb R.Hoessrich:

Guten Tag,

ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den "Host und Service Parametern" habe ich bei der Einstellung "Normal check interval for service checks" schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial Variante besser?

Mit freundlichen Grüßen
R.Hoessrich

_______________________________________________
checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
Verwaltung & Abmeldung unter
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Hallo,

ich glaube das
ist schwer zu vergleichen. Wir haben die Enterprise im Einsatz und haben
derzeit 14000 Services in der der Überwachung. Ich sehe auf unserem System
keine Performanceprobleme.

Ich denke das
liegt auch ganz stark daran, was für Services du überwachst. Sind es nur
SNMP Bulkwalks, Manual Checks, eigene Scrips etc. Ich glaube deshalb ist
ein Vergleich mit anderen Umgebungen schwierig.

Mit freundlichen Grüßen / best regards

Sebastian Jebing

Von:
“Andreas”
stuff@kr33.de

An:
checkmk-de@lists.mathias-kettner.de

Datum:
15.11.2018
15:45

Betreff:
Re:
[Check_mk (deutsch)] Maximale Leistung / Performance von Check_MK

Gesendet
checkmk-de-bounces@lists.mathias-kettner.de

···

von: “checkmk-de”


`Hi,

was verursacht denn die Load?

Was für Platten sind denn verbaut, ich würde spontan erst mal hier das

Bottleneck vermuten.

815Host, 11300 Services

2x Xeon CPU X5650 (24 Threats)

HDD ein Raid10 mit 4x 15k SAS Platten und hier merke ich, dass die

Langsam aber sicher an ihre I/O Grenzen kommen.

Load im Schnitt bei 5.0 allerdings Enterprise mit CMC.

Grüße

Andreas

Am 15.11.18 um 14:53 schrieb R.Hoessrich:

Guten Tag,

ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit
in der Community Edition. Im Moment versuche ich herauszubekommen wo die
Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch
verbessern könnte.

Im Moment habe ich den Versuch mit über 800 überwachten Hosts und
15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts
ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39
und oft auch 80 und mehr hat. Schwierig wird es dann, wenn man etwas an
der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die
Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.

Bei den “Host und Service Parametern” habe ich bei der Einstellung
“Normal check interval for service checks” schon 3 Minuten eingestellt,
da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich
noch verbessern? Ist die Leistung in der Commercial Variante besser?

Mit freundlichen Grüßen

R.Hoessrich


checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

Verwaltung & Abmeldung unter

[http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de`](http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de)`


checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

Verwaltung & Abmeldung unter

[http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de`](http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de)`

`

Ich habe die Monitoring Hosts sogar alle in VMware-VMs:

Ähnlich wie Deins:

750 Hosts, 16000 Services, 8 Instanzen, Check_mk Micro Core, 6 CPU, 24GB RAM, SSD Storage: Load ca 1,5-2,5.

Wie meine Vorredner empfehle ich dringend CMC (also Enterprise) und schnelles Storage.

So denn, Tom.

Thomas Tretbar

Head of IT

------------ managedhosting.de - Enterprise Cloud Services ------------

VMware Hybrid Cloud Powered Service Provider
Red Hat Certified Cloud & Service Provider
Zimbra Gold Partner
FileCloud Certified Partner
veeam Cloud Provider

p +49 800 6737877 (Toll Free)
p +49 371 90975555 (International Customers)
f +49 371 90975550

@ thomas.tretbar@managedhosting.de
w https://www.managedhosting.de

Pflichtangaben nach §35a GmbHG: AGB - managedhosting.de

···

----- Am 15. Nov 2018 um 14:53 schrieb R.Hoessrich AmAUcLM@7mail.eu:

Guten Tag,

ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den “Host und Service Parametern” habe ich bei der Einstellung “Normal check interval for service checks” schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial Variante besser?

Mit freundlichen Grüßen
R.Hoessrich


checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
Verwaltung & Abmeldung unter
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Hi zusammen,

distributed setup mit insgesamt knapp 4.600 Hosts und 120.000 Services, cmk Enterprise.

Stärkster cmk Node ist ein 8-Kerner mit HT, 32 GB Ram und 4x SSDs im Raid 10.

Loadavg von 3,irgendwas also ca 0,2 pro Thread, RAM ca zur Hälfte belegt und Disk utilization unter 5% dank der SSDs. Hatten vorher auch 4x 15k SAS im Raid 10,
die waren immer bei >90% utilization und überwache damit überwiegend Agenten-basierte Systeme.

Aber auch die anderen Nodes mit SNMP und/oder gemischten Checks haben ähnliches Verhalten gezeigt. Flaschenhals ist bzw. war der Storage, CPU und RAM eher weniger
aber eben auch abhängig von Check-Intervallen, Art der Checks etc.

Bei der freien Variante musst du es mit Storage erschlagen und danach mit CPU mit möglichst hohem Takt, da eben keine parallelen Helper-Prozesse existieren.

Ganz wichtig wenn man von der freien Variante auf Enterprise umstellt: Anpassung der RRD-Regelwerke und auch Konvertierung der bestehenden RRDs sonst hat man den
massiven Performance-Vorteil nur bei neu angelegten Hosts und Services (https://mathias-kettner.de/cms_graphing.html Abschnitt 8.2)

Gruß Maximilian

···

Von: checkmk-de [mailto:checkmk-de-bounces@lists.mathias-kettner.de]
Im Auftrag von Thomas Tretbar
Gesendet: Freitag, 16. November 2018 08:27
An: checkmk-de
Cc: R.Hoessrich
Betreff: Re: [Check_mk (deutsch)] Maximale Leistung / Performance von Check_MK

Ich habe die Monitoring Hosts sogar alle in VMware-VMs:

Ähnlich wie Deins:

750 Hosts, 16000 Services, 8 Instanzen, Check_mk Micro Core, 6 CPU, 24GB RAM, SSD Storage: Load ca 1,5-2,5.

Wie meine Vorredner empfehle ich dringend CMC (also Enterprise) und schnelles Storage.

So denn, Tom.

----- Am 15. Nov 2018 um 14:53 schrieb R.Hoessrich AmAUcLM@7mail.eu:

Guten Tag,

ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird
es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den “Host und Service Parametern” habe ich bei der Einstellung “Normal check interval for service checks” schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial
Variante besser?

Mit freundlichen Grüßen
R.Hoessrich


checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
Verwaltung & Abmeldung unter
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Thomas Tretbar

Head of IT

------------ managedhosting.de - Enterprise Cloud Services ------------

VMware Hybrid Cloud Powered Service Provider
Red Hat Certified Cloud & Service Provider
Zimbra Gold Partner
FileCloud Certified Partner
veeam Cloud Provider

p +49 800 6737877 (Toll Free)
p +49 371 90975555 (International Customers)
f +49 371 90975550

@ thomas.tretbar@managedhosting.de
w https://www.managedhosting.de

Pflichtangaben nach §35a GmbHG: AGB - managedhosting.de

Hallo, gut der Server ist nicht mehr der neueste 2x Intel(R) Xeon(R) CPU
E5-2643 v3 @ 3.40GHz ich glaube über 3 Jahre. Ich sehe auch gerade,
dass ich mich bei den Cores verzählt hatte. Da war HyperThreading mit
kalkuliert. Zudem ist die Kiste virtualisiert, was evtl auch ein klein
wenig Performance verbraucht.

Darunter ist ein SAS ZFS Raid 10 mit 6 Festplatten.

···

am Donnerstag, 15. November 2018 um 15:13 schrieben Sie:

Hallo,

wie alt ist der Server?

Nach der Umstellung vom Nagios-Core zum CMC und dem Wechsel auf
leistunsfähigere Hardware liegt meine Load bei zwischen 1-2.

Ich monitore reichlich 700 Hosts bei knapp 29000 Services.

Hallo,

ich denke auch, dass bei der Größe Enterprise Pflicht ist. Den Unterschied haben wir beim Umstieg deutlich gemerkt.
Wir monitoren bei uns derzeit 7800 Hosts/Netzwerkgeräte mit 33000 Services verteilt über 4 Instanzen - 2 Instanzen davon sind aber nur aus organisatorischen Gründen existent.
Eine Slave-Instanz davon monitored ca. 7000 Kabelkanalswitche (derzeit nur mit ping) alle 10 Minuten. Wenn wir dort SNMP aktivieren kriegen wir auch Schwierigkeiten mit Load/Stales...Dort war es schlicht und ergreifend der Platten-I/O bei 35.000 Tests. Allerdings haben da SSDs deutlich geholfen. Wir gehen davon aus, dass ein leistungsstärkerer Host mit z.B. 32 Cores und PCIe Gen3 für z.B. M2-SSD aber auch das schaffen dürfte. Es ist aber derzeit noch nicht entschieden, ob uns das die SNMP-Zusatzinformationen wert sind.

Beste Grüße,
Maik

···

Am 15.11.2018 um 14:53 schrieb R.Hoessrich:

Guten Tag,

ich befasse mich nun einige Zeit mit dem Check_MK allerdings derzeit in der Community Edition. Im Moment versuche ich herauszubekommen wo die Leistungsgrenzen einer einzelnen Installation sind und wie ich diese noch verbessern könnte.
Im Moment habe ich den Versuch mit über 800 überwachten Hosts und 15000 Services. An der Stelle scheint der Server am Ende zu sein, da selbsts ein Dual Xeon mit insgesamt 16 Cores im Durchschnitt eine LoadAvg von 39 und oft auch 80 und mehr hat. Schwierig wird es dann, wenn man etwas an der WATO Konfiguration ändert und bestätigt. Dann überschlagen sich die Dienste und man hat mindestens 20 Minuten wo alles auf Stale steht.
Bei den "Host und Service Parametern" habe ich bei der Einstellung "Normal check interval for service checks" schon 3 Minuten eingestellt, da es mit dem Standardwert überhaupt nicht möglich war. Was könnte ich noch verbessern? Ist die Leistung in der Commercial Variante besser?

Mit freundlichen Grüßen
R.Hoessrich

_______________________________________________
checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
Verwaltung & Abmeldung unter
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Hallo. Also wir haben nun auf die Enterprise umgestellt. Und siehe da
ist die 15 Minuten Load bei 0.1. Das ist schon ein gewaltiger
Unterschied.
Abfragen sind nun viel schneller durch. Ein paar Sachen sind dafür oft
auf Stale. Meist Hosts aus dem lokalen Netz mit SNMP Abfragen.

···

am Freitag, 16. November 2018 um 08:27 schrieben Sie:

Ich habe die Monitoring Hosts sogar alle in VMware-VMs:
Ähnlich wie Deins:
750 Hosts, 16000 Services, 8 Instanzen, Check_mk Micro Core, 6 CPU,
24GB RAM, SSD Storage: Load ca 1,5-2,5.
Wie meine Vorredner empfehle ich dringend CMC (also Enterprise) und schnelles Storage.
So denn, Tom.

Lass dir mal das SnapIn Micro Core Statistics
in der Sidebar anzeigen. Das ist ein guter Anhaltspunkt um zu erkennen,
wo bei der Verwendung mit dem Microcore die Performance verschwindet. Wenn
du viele Stale Checks hast, kannst du versuchen die Maximum concurrent
active checks oder Maximum concurrent Check_MK checks in den Global Settings
(unter Monitoring Core) zu erhöhen und schauen, ob das dein Problem mindert.

Gerade bei den Check Helpern (Maximum
concurrent Check_MK checks) ist der Standard von 20 bei größeren Installation
zu klein dimensioniert.

Bei 2500 Hosts und 39.000 Checks komme
ich mit 200 Maximum concurrent Check_MK checks ganz gut hin. Man muss auch
bedenken, dass beim Aktivieren alle in der Zeit stattgefundenen Checks
nachgeholt werden müssen und man eine kurze Zeit mehr Abfragen braucht,
damit man nicht in die Stale-Situation läuft.

Mit freundlichen Grüßen

i.A. Tobias Schönau

EDV

SAP Basis

EDEKA Handelsgesellschaft Hessenring mbH

Industriegebiet Pfieffewiesen

34212 Melsungen

Tel.: 05661/72-486

E-Mail: Tobias.Schoenau@edeka.de

···

EDEKA Handelsgesellschaft Hessenring mbH, Melsungen

Geschäftsführer: Hans-Richard Schneeweiß (Sprecher), Hans-Jürgen Steffen

Aufsichtsratsvorsitzender: Tobias Schnabel

Eingetragen im Handelsregister des Amtsgerichts Fritzlar, HRB 11100

USt-IdentNr.: DE 1130 55864

Von:
“R.Hoessrich”
AmAUcLM@7mail.eu

An:
checkmk-de checkmk-de@lists.mathias-kettner.de

Datum:
29.12.2018 11:40

Betreff:
Re: [Check_mk
(deutsch)] Maximale Leistung / Performance von Check_MK

Gesendet von:
“checkmk-de”
checkmk-de-bounces@lists.mathias-kettner.de


`Hallo. Also wir haben nun auf die Enterprise umgestellt.
Und siehe da

ist die 15 Minuten Load bei 0.1. Das ist schon ein gewaltiger

Unterschied.

Abfragen sind nun viel schneller durch. Ein paar Sachen sind dafür oft

auf Stale. Meist Hosts aus dem lokalen Netz mit SNMP Abfragen.

am Freitag, 16. November 2018 um 08:27 schrieben Sie:

Ich habe die Monitoring Hosts sogar alle in VMware-VMs:

Ähnlich wie Deins:

750 Hosts, 16000 Services, 8 Instanzen, Check_mk Micro Core, 6 CPU,

24GB RAM, SSD Storage: Load ca 1,5-2,5.

Wie meine Vorredner empfehle ich dringend CMC (also Enterprise) und
schnelles Storage.

So denn, Tom.


checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

Verwaltung & Abmeldung unter

[https://lists.mathias-kettner.de/cgi-bin/mailman/listinfo/checkmk-de`](https://lists.mathias-kettner.de/cgi-bin/mailman/listinfo/checkmk-de)