Hallo,
ich habe unsere Site geklont und von 1.6.0p25 auf 2.0.0p13 aktualisiert um das Update zu testen.
Nun fällt auf das die Zeit die cmk für die Abfrage des Management Boards via SNMP (“Time spent waiting for SNMP responses”) sich deutlich erhöht hat. Zeitgleich werden wohl auch bei Clustern (“Clustered services for overlapping clusters”) nun beim check des Clusters auch nochmal die Management Boards des Hosts zusätzlich mit abgefragt. Das sieht man an den Zeitend es Agents und beim Abfragen des Hosts mit debug auf der console.
Zeiten mit cmk 1.6
einzelner Host: ~12s SNMP
Cluster: <5s – also ohne SNMP
Zeiten mit cmk 2.0
einzelner Host: ~46s SNMP
Cluster: 170s – also mit SNMP und 170s ist deutlich länger als 2x46s für beide Nodes – was auch immer cmk hier noch tut
Betroffen sind sowohl HPE als auch Oracle Server. Die Anzahl der Fetcher habe ich erhöht, die sind aber auch nicht ausgelastet.
Wenn ich an den Hosts die Abfrage des Management Boards via SNMP abschalte, dann sind die Laufzeiten zwischen cmk 1.6 und 2.0 vergleichbar. Ich habe auch testweise die 1.6 Site gestoppt, damit die überwachten Hosts nicht durch parallele abfragen überlastet werden.
SNMP Timeouts sind groß genug gesetzt.
Auffällig ist auch, das ich im „top“ auf dem cmk Server nun oft mehrere snmpwalk prozesse sehe – wenn nur die 1.6er Site läuft sehe ich das hier nie.
Hat jemand ein ähnliches Verhalten beobachten können?