Sporadisch high check helper usage

CFriedrich · October 22, 2021, 9:12am

Hallo zusammen,
wir nutzen die 2.0.0p12 cee im distributed setting.
Seit dem Update auf die 2.x haben wir hin und wieder auf einer Slave Site ein Problem mit der check helper usage. Der Service geht für 1-2 Minuten auf rot, dann wieder grün.

Konfiguriert ist derzeit folgendes:

Die Slave hat 16 GB RAM und 4 CPUs.

An der Slave hängen keine 200 Server.
Wie gehe ich am besten vor, um herauszufinden, woran das liegen könnte?

VG
Christian

tosch · October 28, 2021, 12:49pm

Hallo @CFriedrich,

nutzt ihr auf dem Slave dynamic hosts oder wird die site regelmäßig neu gestartet (activate changes)? Mein verdacht ist, dass nach dem Neustart alle checks nachgeholt werden und damit natürlich auch die Auslastung der helper steigt, damit das alles etwas flotter geht. Alternativ könnten Plugins verantwortlich sein, die nicht jede Minute aufgerufen werden, aber eine recht hohe Laufzeit haben, um alle Informationen einzusammeln (special agents). Eine weitere Ursache könnte das HW/SW-Inventory sein, dass defaultmäßig auch nur alle paar Stunden läuft und etwas mehr Last erzeugen könnte, weil die Helper länger beschäftigt sind.
Eventuell helfen dir die Ansätze beim Forschen nach der Ursache.

andreas-doehler · October 28, 2021, 1:36pm

Bei 200 Servern ist 80 “fetchers” zu viel - hab hier gerade ein System in den Händen gehabt 1200 Hosts und davon halb Netzwerk halb Server. 50-60 “fetchers” voll ausreichend nur meine “checkers” sind hier so 6 bis 8.
4 “checkers” sind natürlich schnell mal ausgelastet. Wie schaut der Graph für die “checkers” aus?
80 “fetchers” machen auch bei 4 Cores keinen Sinn.

openmindz · November 5, 2021, 3:24pm

Hey Andreas,

Ich hab ein aehnliches Problem, allerdings weiss ich dass mein “zweiter” host in einer Multisite
Umgebung sehr schwach ist (4 vCPU/4GB RAM), und mein Kunde laesst da auch noch “nodered” drauf laufen… Da ich damit aber einen Haufen SNMP devices monitoren muss, die auch noch oft
nicht erreichbar sind, bekomme ich immer mal wieder “99% Checker helper usage”

Hast Du ne Ahnung ob’s irgendwo mehr Doku gibt ueber die Thematik? Ich wuesste
einfach gern mal wie die empfohlene Anzahl von Fetchers/Checkers ist, und wie diese Werte
abhaengen von der Groesse des monitoring hosts bzw. der zu ueberwachenden Ubgebung…

Gruesse,
Thomas

andreas-doehler · November 5, 2021, 3:36pm

Also eine direkte Doku dazu kenne ich nicht.

Für Checker ist das fast auch nicht notwendig da diese Zahlen immer sehr klein sein können. Die “heavy load” wird von den Fetchern erzeugt.

Hier kann man nur Pi-mal-Daumen rechnen. Wie lange laufen meine Fetcher pro einzelnen Host und in deinem Fall wie sind die Timeouts eingestellt wenn keine Antwort kommt vom Ziel.
Nun einfach die verfügbaren Threads oder CPU cores nehmen und ausrechnen wieviel CPU Zeit pro Checkinterval zur Verfügung steht. Daraus lässt sich ableiten wie viele Hosts dieses Monitoringsystem überhaupt abfragen kann innerhalb eines Check Intervals.

Um die Anzahl der Fetcher Helper aber nach oben zu drehen müssen auch genug Ressourcen vorhanden sein. Dies dürfte bei deinem System das am ehesten begrenzende sein.

openmindz · November 5, 2021, 6:39pm

OK Andreas, danke Dir.

system · November 5, 2022, 6:40pm

This topic was automatically closed 365 days after the last reply. New replies are no longer allowed. Contact an admin if you think this should be re-opened.