Hallo zusammen,
wir nutzen die 2.0.0p12 cee im distributed setting.
Seit dem Update auf die 2.x haben wir hin und wieder auf einer Slave Site ein Problem mit der check helper usage. Der Service geht für 1-2 Minuten auf rot, dann wieder grün.
nutzt ihr auf dem Slave dynamic hosts oder wird die site regelmäßig neu gestartet (activate changes)? Mein verdacht ist, dass nach dem Neustart alle checks nachgeholt werden und damit natürlich auch die Auslastung der helper steigt, damit das alles etwas flotter geht. Alternativ könnten Plugins verantwortlich sein, die nicht jede Minute aufgerufen werden, aber eine recht hohe Laufzeit haben, um alle Informationen einzusammeln (special agents). Eine weitere Ursache könnte das HW/SW-Inventory sein, dass defaultmäßig auch nur alle paar Stunden läuft und etwas mehr Last erzeugen könnte, weil die Helper länger beschäftigt sind.
Eventuell helfen dir die Ansätze beim Forschen nach der Ursache.
Bei 200 Servern ist 80 “fetchers” zu viel - hab hier gerade ein System in den Händen gehabt 1200 Hosts und davon halb Netzwerk halb Server. 50-60 “fetchers” voll ausreichend nur meine “checkers” sind hier so 6 bis 8.
4 “checkers” sind natürlich schnell mal ausgelastet. Wie schaut der Graph für die “checkers” aus?
80 “fetchers” machen auch bei 4 Cores keinen Sinn.
Ich hab ein aehnliches Problem, allerdings weiss ich dass mein “zweiter” host in einer Multisite
Umgebung sehr schwach ist (4 vCPU/4GB RAM), und mein Kunde laesst da auch noch “nodered” drauf laufen… Da ich damit aber einen Haufen SNMP devices monitoren muss, die auch noch oft
nicht erreichbar sind, bekomme ich immer mal wieder “99% Checker helper usage”
Hast Du ne Ahnung ob’s irgendwo mehr Doku gibt ueber die Thematik? Ich wuesste
einfach gern mal wie die empfohlene Anzahl von Fetchers/Checkers ist, und wie diese Werte
abhaengen von der Groesse des monitoring hosts bzw. der zu ueberwachenden Ubgebung…
Für Checker ist das fast auch nicht notwendig da diese Zahlen immer sehr klein sein können. Die “heavy load” wird von den Fetchern erzeugt.
Hier kann man nur Pi-mal-Daumen rechnen. Wie lange laufen meine Fetcher pro einzelnen Host und in deinem Fall wie sind die Timeouts eingestellt wenn keine Antwort kommt vom Ziel.
Nun einfach die verfügbaren Threads oder CPU cores nehmen und ausrechnen wieviel CPU Zeit pro Checkinterval zur Verfügung steht. Daraus lässt sich ableiten wie viele Hosts dieses Monitoringsystem überhaupt abfragen kann innerhalb eines Check Intervals.
Um die Anzahl der Fetcher Helper aber nach oben zu drehen müssen auch genug Ressourcen vorhanden sein. Dies dürfte bei deinem System das am ehesten begrenzende sein.
This topic was automatically closed 365 days after the last reply. New replies are no longer allowed. Contact an admin if you think this should be re-opened.