[Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Alexander_Taffner · September 5, 2017, 9:22am

Hallo zusammen,

ich habe hier einen Switch (Cisco VSS), der so über 500 Services schafft…

Das Problem ist Check_MK hat ein maximales Timeout von 60 Sekunden. Der Switch schafft das aber leider trotz bulkwalk nicht…

Ich weiß das ist viel aber ich kanns nicht ändern.

Wo könnte man noch ansetzen? Kann man CMK irgendwie ein höheres Timeout reinprügeln?

WATO sagt nur 90.0 is too high. The maximum allowed value is 60.

Und das obwohl

TIMEOUT VALUES

These options control how much time Nagios will allow various

types of commands to execute before killing them off. Options

are available for controlling maximum time allotted for

service checks, host checks, event handlers, notifications, the

ocsp command, and performance data commands. All values are in

seconds.

service_check_timeout=90

host_check_timeout=30

event_handler_timeout=30

notification_timeout=30

ocsp_timeout=5

perfdata_timeout=5

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

andreas-doehler · September 5, 2017, 7:04pm

Hallo Alexander,

du müsstest nicht nur die “service_check_timeout” anpassen sondern auch den “normal_check_interval for services” der sollte auch entsprechend mindestens so hoch sein wie der Timeout.

Welcher Core wird bei dir verwendet? Bei mir lässt sich mit CMC ohne Probleme im WATO ein “service_check_timeout” von 5 Minuten setzen.

Bei Verwendung von Nagios muss dies manuell wie von dir angegeben in der cfg Datei erfolgen.

Gruß

Andreas

···

Alexander Täffner alexander.taeffner@klinikum-bayreuth.de schrieb am Di., 5. Sep. 2017 um 11:23 Uhr:

Hallo zusammen,

ich habe hier einen Switch (Cisco VSS), der so über 500 Services schafft…

Das Problem ist Check_MK hat ein maximales Timeout von 60 Sekunden. Der Switch schafft das aber leider trotz bulkwalk nicht…

Ich weiß das ist viel aber ich kanns nicht ändern.

Wo könnte man noch ansetzen? Kann man CMK irgendwie ein höheres Timeout reinprügeln?

WATO sagt nur 90.0 is too high. The maximum allowed value is 60.

Und das obwohl

TIMEOUT VALUES

These options control how much time Nagios will allow various

types of commands to execute before killing them off. Options

are available for controlling maximum time allotted for

service checks, host checks, event handlers, notifications, the

ocsp command, and performance data commands. All values are in

seconds.

service_check_timeout=90

host_check_timeout=30

event_handler_timeout=30

notification_timeout=30

ocsp_timeout=5

perfdata_timeout=5

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

–

Preuschwitzer Str. 101, 95445 Bayreuth

Sitz und Registergericht: Bayreuth HRB 3902

Geschäftsführer: Dr. Joachim Haun

Aufsichtsratsvorsitzende: Oberbürgermeisterin Brigitte Merk-Erbe

Institutskennzeichen: 260 940 109

Umsatzsteuer-Identifikations-Nr. DE 81 38 50 95 8

checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Alexander_Taffner · September 6, 2017, 7:43am

Hallo Andreas,

Rules in folder Infrastruktur Netz KH

···

Conditions

Value

Description

Host name is Core-Router-Cluster or VSS-RZ

5 minutes

Das hab ich leider auch schon drin…

@Udo: Ich habe deine Mail gesehen. Ja ich bin da voll deiner Meinung. Das ist allerdings etwas, das wir gesondert angehen müssen…

Bei uns ist’s ein (bzw sinds zwei) 6807-XL und ne Hand voll Rackswitches (fex)… Die CPUs relaxen allerdings bei um die 0-25%

Was ich seltsam finde… Weder Prime noch Observium haben Probleme… Nur Check_MK rennt ins Timeout… Jeweils über v2c (ja ja ich weiß…)

Und während ich das schriebe fiel ich vom Stuhl… Observium schreibt der Poller bräuchte 5 Minuten (!)… Ich weiß nicht ob das die SNMP-Zeit ist oder mehr aber
das ist ordentlich…

Allerdings hab ich mir andere kleinere Switche angesehen und auch dort braucht er wahnsinnig lange (40Sek)…

Vielleicht sollte ich da mal von Hand nachgraben… Nicht dass evtl der Monitoring-Server ein Problem hat…

Danke für den Anstoß!

Jetzt kommt noch der große Witz… Hin und wieder geht’s!

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

Von: Andreas Döhler [mailto:andreas.doehler@gmail.com]
Gesendet: Dienstag, 5. September 2017 21:04
An: Alexander Täffner; checkmk-de@lists.mathias-kettner.de
Betreff: Re: [Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Hallo Alexander,

du müsstest nicht nur die “service_check_timeout” anpassen sondern auch den “normal_check_interval for services” der sollte auch entsprechend mindestens so hoch sein wie der Timeout.

Welcher Core wird bei dir verwendet? Bei mir lässt sich mit CMC ohne Probleme im WATO ein “service_check_timeout” von 5 Minuten setzen.

Bei Verwendung von Nagios muss dies manuell wie von dir angegeben in der cfg Datei erfolgen.

Gruß

Andreas

Alexander Täffner alexander.taeffner@klinikum-bayreuth.de schrieb am Di., 5. Sep. 2017 um 11:23 Uhr:

Hallo zusammen,

ich habe hier einen Switch (Cisco VSS), der so über 500 Services schafft…

Das Problem ist Check_MK hat ein maximales Timeout von 60 Sekunden. Der Switch schafft das aber leider trotz bulkwalk nicht…

Ich weiß das ist viel aber ich kanns nicht ändern.

Wo könnte man noch ansetzen? Kann man CMK irgendwie ein höheres Timeout reinprügeln?

WATO sagt nur 90.0 is too high. The maximum allowed value is 60.

Und das obwohl

TIMEOUT VALUES

These options control how much time Nagios will allow various

types of commands to execute before killing them off. Options

are available for controlling maximum time allotted for

service checks, host checks, event handlers, notifications, the

ocsp command, and performance data commands. All values are in

seconds.

service_check_timeout=90

host_check_timeout=30

event_handler_timeout=30

notification_timeout=30

ocsp_timeout=5

perfdata_timeout=5

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

–

Preuschwitzer Str. 101, 95445 Bayreuth

Sitz und Registergericht: Bayreuth HRB 3902

Geschäftsführer: Dr. Joachim Haun

Aufsichtsratsvorsitzende: Oberbürgermeisterin Brigitte Merk-Erbe

Institutskennzeichen: 260 940 109

Umsatzsteuer-Identifikations-Nr. DE 81 38 50 95 8

checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

Alexander_Taffner · September 6, 2017, 9:30am

Hallo Udo,

öhm...

OMD[cmk]:~$ cmk -vvvv Core-Router-Cluster
Traceback (most recent call last):
  File "/omd/sites/cmk/share/check_mk/modules/check_mk.py", line 4644, in <module>
    cmk.log.set_verbosity(verbosity=_verbosity)
  File "/omd/sites/cmk/lib/python/cmk/log.py", line 117, in set_verbosity
    raise NotImplementedError()
NotImplementedError

Ein paar v's zu viel? Allerdings hab ich schon mal nen bulkwalk beobachtet... ist recht gleichmäßig langsam...
Bei -vv fällt mir jetzt nichts auf, ich hab aber unseren Dienstleister mit eingebunden wegen der extrem hohen Zeiten...

OK - execution time 104.2 sec|execution_time=104.154 user_time=7.020 system_time=0.140 children_user_time=0.240 children_system_time=0.130 cmk_time_snmp=93.058

Trotzdem lang...

Mit freundlichen Grüßen
Alexander Täffner
IT-Abteilung

Klinikum Bayreuth GmbH
Betriebsstätte Klinikum Bayreuth

···

-----Ursprüngliche Nachricht-----
Von: Udo Woehler [mailto:uw@bsw-com.de]
Gesendet: Mittwoch, 6. September 2017 11:19
An: Alexander Täffner
Betreff: Re: [Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Hi Alexander,

mach mal ein cmk -vvvv auf das System und schau, ob irgendein einzelner SNMP Request besonders lange braucht. Eventuell kannst Du durch deaktiveren eines bestimmten Checks die Zeit deutlich reduzieren. Oder Du misst das mal mir tcpdump und Wireshark aus.

Gruß

Udo

----- Ursprüngliche Mail -----
Von: "Alexander Täffner" <alexander.taeffner@klinikum-bayreuth.de>
An: "Andreas Döhler" <andreas.doehler@gmail.com>, checkmk-de@lists.mathias-kettner.de
Gesendet: Mittwoch, 6. September 2017 09:43:09
Betreff: Re: [Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Hallo Andreas,

Rules in folder Infrastruktur Netz KH

Conditions

Value

Description

https://monitoring/cmk/check_mk/images/trans.png

Host name is Core-Router-Cluster or VSS-RZ

5 minutes

Das hab ich leider auch schon drin…

@Udo: Ich habe deine Mail gesehen. Ja ich bin da voll deiner Meinung. Das ist allerdings etwas, das wir gesondert angehen müssen…

Bei uns ist’s ein (bzw sinds zwei) 6807-XL und ne Hand voll Rackswitches (fex)… Die CPUs relaxen allerdings bei um die 0-25%

Was ich seltsam finde… Weder Prime noch Observium haben Probleme… Nur Check_MK rennt ins Timeout… Jeweils über v2c (ja ja ich weiß…)

Und während ich das schriebe fiel ich vom Stuhl… Observium schreibt der Poller bräuchte 5 Minuten (!)… Ich weiß nicht ob das die SNMP-Zeit ist oder mehr aber das ist ordentlich…

Allerdings hab ich mir andere kleinere Switche angesehen und auch dort braucht er wahnsinnig lange (40Sek)…

Vielleicht sollte ich da mal von Hand nachgraben… Nicht dass evtl der Monitoring-Server ein Problem hat…

Danke für den Anstoß!

Jetzt kommt noch der große Witz… Hin und wieder geht’s!

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

Von: Andreas Döhler [mailto:andreas.doehler@gmail.com]
Gesendet: Dienstag, 5. September 2017 21:04
An: Alexander Täffner; checkmk-de@lists.mathias-kettner.de
Betreff: Re: [Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Hallo Alexander,

du müsstest nicht nur die "service_check_timeout" anpassen sondern auch den "normal_check_interval for services" der sollte auch entsprechend mindestens so hoch sein wie der Timeout.

Welcher Core wird bei dir verwendet? Bei mir lässt sich mit CMC ohne Probleme im WATO ein "service_check_timeout" von 5 Minuten setzen.

Bei Verwendung von Nagios muss dies manuell wie von dir angegeben in der cfg Datei erfolgen.

Gruß

Andreas

Alexander Täffner < alexander.taeffner@klinikum-bayreuth.de > schrieb am Di., 5. Sep. 2017 um 11:23 Uhr:

Hallo zusammen,

ich habe hier einen Switch (Cisco VSS), der so über 500 Services schafft…

Das Problem ist Check_MK hat ein maximales Timeout von 60 Sekunden. Der Switch schafft das aber leider trotz bulkwalk nicht…

Ich weiß das ist viel aber ich kanns nicht ändern.

Wo könnte man noch ansetzen? Kann man CMK irgendwie ein höheres Timeout reinprügeln?

WATO sagt nur 90.0 is too high. The maximum allowed value is 60.

Und das obwohl

# TIMEOUT VALUES

# These options control how much time Nagios will allow various

# types of commands to execute before killing them off. Options

# are available for controlling maximum time allotted for

# service checks, host checks, event handlers, notifications, the

# ocsp command, and performance data commands. All values are in

# seconds.

service_check_timeout=90

host_check_timeout=30

event_handler_timeout=30

notification_timeout=30

ocsp_timeout=5

perfdata_timeout=5

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

--

Preuschwitzer Str. 101, 95445 Bayreuth

Sitz und Registergericht: Bayreuth HRB 3902

Geschäftsführer: Dr. Joachim Haun

Aufsichtsratsvorsitzende: Oberbürgermeisterin Brigitte Merk-Erbe

Institutskennzeichen: 260 940 109

Umsatzsteuer-Identifikations-Nr. DE 81 38 50 95 8

_______________________________________________
checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de
_______________________________________________
checkmk-de mailing list
checkmk-de@lists.mathias-kettner.de
http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

andreas-doehler · September 6, 2017, 6:14pm

Hallo Alexander,

Zu deiner Aussage Observium und Prime sind auch noch aktiv an deinen Geräten dran kannst ja wenigstens mal Observium stilllegen.

Konkurierende SNMP Abfragen sorgen auch öfters für arg lange Antwortzeiten.

Ein anderer Punkt sind die riesigen Interface Tables dieser Switche in der Enterprise hast wenigstens die Möglichkeit zu sagen hole mir “nur” die ersten 200 Interfaces und dann ist Schluss. In der Raw geht das leider nicht.

Meine größten Nexus sind mit glaub 8 Fex versehen und brauchen auch um die 90 bis 100 Sekunden. dort hab ich einfach das Check Interval auf 3 min und den maximum execution time auf 2 min gestellt und das funktioniert recht stabil. Wenn grad die Prime mal wieder Config Backup macht gibt es natürlich Timeouts aber sonst ok.

Gruß

Andreas

···

Alexander Täffner alexander.taeffner@klinikum-bayreuth.de schrieb am Mi., 6. Sep. 2017 um 11:31 Uhr:

Hallo Udo,

öhm…

OMD[cmk]:~$ cmk -vvvv Core-Router-Cluster

Traceback (most recent call last):

File “/omd/sites/cmk/share/check_mk/modules/check_mk.py”, line 4644, in
cmk.log.set_verbosity(verbosity=_verbosity)
File “/omd/sites/cmk/lib/python/cmk/log.py”, line 117, in set_verbosity
raise NotImplementedError()
NotImplementedError

Ein paar v’s zu viel? Allerdings hab ich schon mal nen bulkwalk beobachtet… ist recht gleichmäßig langsam…

Bei -vv fällt mir jetzt nichts auf, ich hab aber unseren Dienstleister mit eingebunden wegen der extrem hohen Zeiten…

OK - execution time 104.2 sec|execution_time=104.154 user_time=7.020 system_time=0.140 children_user_time=0.240 children_system_time=0.130 cmk_time_snmp=93.058

Trotzdem lang…

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

-----Ursprüngliche Nachricht-----

Von: Udo Woehler [mailto:uw@bsw-com.de]

Gesendet: Mittwoch, 6. September 2017 11:19

An: Alexander Täffner

Betreff: Re: [Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Hi Alexander,

mach mal ein cmk -vvvv auf das System und schau, ob irgendein einzelner SNMP Request besonders lange braucht. Eventuell kannst Du durch deaktiveren eines bestimmten Checks die Zeit deutlich reduzieren. Oder Du misst das mal mir tcpdump und Wireshark aus.

Gruß

Udo

----- Ursprüngliche Mail -----

Von: “Alexander Täffner” alexander.taeffner@klinikum-bayreuth.de

An: “Andreas Döhler” andreas.doehler@gmail.com, checkmk-de@lists.mathias-kettner.de

Gesendet: Mittwoch, 6. September 2017 09:43:09

Betreff: Re: [Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Hallo Andreas,

Rules in folder Infrastruktur Netz KH

Conditions

Value

Description

https://monitoring/cmk/check_mk/images/trans.png

Host name is Core-Router-Cluster or VSS-RZ

5 minutes

Das hab ich leider auch schon drin…

@Udo: Ich habe deine Mail gesehen. Ja ich bin da voll deiner Meinung. Das ist allerdings etwas, das wir gesondert angehen müssen…

Bei uns ist’s ein (bzw sinds zwei) 6807-XL und ne Hand voll Rackswitches (fex)… Die CPUs relaxen allerdings bei um die 0-25%

Was ich seltsam finde… Weder Prime noch Observium haben Probleme… Nur Check_MK rennt ins Timeout… Jeweils über v2c (ja ja ich weiß…)

Und während ich das schriebe fiel ich vom Stuhl… Observium schreibt der Poller bräuchte 5 Minuten (!)… Ich weiß nicht ob das die SNMP-Zeit ist oder mehr aber das ist ordentlich…

Allerdings hab ich mir andere kleinere Switche angesehen und auch dort braucht er wahnsinnig lange (40Sek)…

Vielleicht sollte ich da mal von Hand nachgraben… Nicht dass evtl der Monitoring-Server ein Problem hat…

Danke für den Anstoß!

Jetzt kommt noch der große Witz… Hin und wieder geht’s!

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

Von: Andreas Döhler [mailto:andreas.doehler@gmail.com]

Gesendet: Dienstag, 5. September 2017 21:04

An: Alexander Täffner; checkmk-de@lists.mathias-kettner.de

Betreff: Re: [Check_mk (deutsch)] Check MK SNMP Timeout > 60 Sekunden

Hallo Alexander,

du müsstest nicht nur die “service_check_timeout” anpassen sondern auch den “normal_check_interval for services” der sollte auch entsprechend mindestens so hoch sein wie der Timeout.

Welcher Core wird bei dir verwendet? Bei mir lässt sich mit CMC ohne Probleme im WATO ein “service_check_timeout” von 5 Minuten setzen.

Bei Verwendung von Nagios muss dies manuell wie von dir angegeben in der cfg Datei erfolgen.

Gruß

Andreas

Alexander Täffner < alexander.taeffner@klinikum-bayreuth.de > schrieb am Di., 5. Sep. 2017 um 11:23 Uhr:

Hallo zusammen,

ich habe hier einen Switch (Cisco VSS), der so über 500 Services schafft…

Das Problem ist Check_MK hat ein maximales Timeout von 60 Sekunden. Der Switch schafft das aber leider trotz bulkwalk nicht…

Ich weiß das ist viel aber ich kanns nicht ändern.

Wo könnte man noch ansetzen? Kann man CMK irgendwie ein höheres Timeout reinprügeln?

WATO sagt nur 90.0 is too high. The maximum allowed value is 60.

Und das obwohl

TIMEOUT VALUES

These options control how much time Nagios will allow various

types of commands to execute before killing them off. Options

are available for controlling maximum time allotted for

service checks, host checks, event handlers, notifications, the

ocsp command, and performance data commands. All values are in

seconds.

service_check_timeout=90

host_check_timeout=30

event_handler_timeout=30

notification_timeout=30

ocsp_timeout=5

perfdata_timeout=5

Mit freundlichen Grüßen

Alexander Täffner

IT-Abteilung

Klinikum Bayreuth GmbH

Betriebsstätte Klinikum Bayreuth

–

Preuschwitzer Str. 101, 95445 Bayreuth

Sitz und Registergericht: Bayreuth HRB 3902

Geschäftsführer: Dr. Joachim Haun

Aufsichtsratsvorsitzende: Oberbürgermeisterin Brigitte Merk-Erbe

Institutskennzeichen: 260 940 109

Umsatzsteuer-Identifikations-Nr. DE 81 38 50 95 8

checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de

checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de