CheckMK Slave Fetcher CPU Usage Problem

Hi,
ich habe das Problem, dass von jetzt auf gleich die CPU last auf einem Slave von jetzt auf gleich um 20%-25% gestiegen ist und jetzt durchgehend auf 88%. Es wurden keine Änderungen durchgeführt, es gab auch keinerlei Ausfälle. Ich sehe nur das die Fetcher die CPU fressen. Neustart des Systems brachte keinen Erfolg. Es gibt immer nur eine Handvoll fetcher die ordentlich was fressen.

Fetcher welche viel CPU Leistung brauchen deutet auf zwei Sachen hin.

  • meist langsame SNMP Devices oder auch falsch konfigurierte SNMP Parameter
    oder
  • viele Agents welche gleichzeitig TLS und nochmal die alte symmetrische Verschlüsselung nutzen

für ersteres Problem am einfachsten mal alle Check_MK Services filtern welche auf dem Slave überwacht werden und dann die Laufzeiten dieser Services sich anschauen. Sind dort viele dabei mit mehr wie 1-4 Sekunden so sollte man hier mal etwas genauer nachschauen was das Problem ist.

Was ich seltsam finde ist, dass das System seit Monaten so läuft und es wird nichts verändert und plötzlich habe ich doppelte load und 25% mehr CPU utilization durchgehend. Da sind Check_MK Service die auch 15s haben aber das sind größere Core Router die per SNMP abgefragt werden. Das hat vorher aber auch keine Probleme gemacht, wüsste aber auch nicht was ich verändern könnte, dass das weniger wird.

Das sich nix geändert hat glaube ich hier nicht. Es können ja auch externe Einflüsse sein. Fängt schon beim Patchen des Servers an.
Man sollte sich halt hier wirklich in Ruhe anschauen was anders ist gegenüber vorher.

Nach stundenlangem überprüfen von Server und Konfiguration, ohne ersichtliche Änderungen, Gründe für den plötzlichen Anstieg, habe ich veranlasst de Host auf eine andere ESX zu migrieren und siehe da Problem behoben… was auch immer das war…
Trotzdem vielen Dank für die schnelle Antwort und Unterstützung und Tipps @andreas-doehler

Oh da wird der alte ESX scheinbar eine ältere CPU Architektur haben.
Wenn zwischen diesen verschiedenen ESX Servern DRS aktiv ist kann das auch immer wieder mal passieren.