NTP Check & Stratum 11

Hallo zusammen,
seit wir checkmk für einige Systeme nutzen, fällt mir immer wieder auf, dass zu verschiedenen Zeiten fast alle Server zeitgleich einen NTP Fehler “Stratum too high” melden:

NTP Time on xxx:CRIT - sys.peer - stratum 11, offset -4.86 ms, jitter 2.79 ms, last reached 154 secs ago, stratum is too high (max allowed is 9)(!!) (synchronized on 10.x.x.x)(!!).

Nach ein paar Minuten verschwinden die Alarme wieder. Ich könnte jetzt einfach die Empfindlichkeit hochschrauben…allerdings möchte ich lieber wissen, was hier genau das Problem ist?

Was genau bedeutet Stratum 11 und vor allem, wieso Stratum 11, wenn er doch im Status “synchronized” ist?

Kurz noch als Info, wir haben 3 interne ntp Server hinterlegt… scheinbar verlieren die Systeme zum 1. NTP Server die Verbindung und connecten sich dann mit dem 3. (Der 2. wird scheinbar übersprungen). Nach einigen Minuten wechseln sie dann wieder zum 1. NTP Server und dann verschwinden auch die Alarme wieder.

Ich verstehe aber nicht, wieso der Stratum-Fehler erscheint, obwohl er synced ist?!

Jemand eine Idee?
Danke!
Christian

Vermutlich Fallback “sync” mit der lokalen Uhr - diese hat üblicherweise ein sehr hohes Stratum konfiguriert.

Was für ein NTP-Client ist das … Linux oder Windows? Bei Linux: ntpd? ntpsec? chrony?
Wie sieht während einer Störung die Client-Sync-Info genau aus? z.B. ntpq -pn oder chronyc -n sources

siehe dazu z.B. die Erklärung in der Wikipedia: https://de.wikipedia.org/wiki/Network_Time_Protocol#Grundlagen

Hi Martin,
auf AIX ist das der xntpd und auf Linux ntp und chrony. Soweit ich das gesehen habe, kommen die Stratum-Meldungen von allen 3 Clients.
Die Fehler kommen meistens außerhalb der Arbeitszeit, daher konnte ich bis jetzt noch nicht selber per ntpq schaun, wie der Status ist. Ich schau mal, ob ich das zeitnah hinkriege, dann poste ich den Output hier.

VG

1 Like

Hi, ich bin kein Experte bei dem Thema, aber habe eine Vermutung.

Das Stratum ist zu hoch weil der NTP Algorithmus deine NTP Server als “unzuverlässig” runterstuft. Deswegen geht vermutlich dein Stratum hoch. Sobald die NTP Server wieder den Zeitgeber Server erreichen, dann sinkt dein Stratum wieder, weil die Zuverlässigkeit der NTP Server steigt.

Das solltest du dir genauer angucken. Ist vermutlich die Ursache.

2 Likes

Hi,
das Stratum zeigt an, wie weit Du von der echten Zeitquelle weg bist. Ein NTP Server der eine eigene exakte Uhr hat (z.B. per DCF77 oder GPS) hat normalerweise ein Stratum von 1. Wird die Zeit dann von Server zu Server weitergereicht, steigt das Stratum jedes mal um 1. Das Stratum auf deinem Server sollte also konstant sein (meistens <5). In deinem Fall wird dein Server aber alle Quellen verloren haben. Häufig ist in der NTP Config die lokale Uhr dann noch mit Stratum 11 oder 12 hinterlegt, sodass Du weiter synchron bist, aber eben nur mit Stratum 11 zur eigenen Uhr.
Die Frage ist jetzt, warum die Quellen nicht mehr akzeptiert werden. Am häufigsten passiert das, wenn du dir die Zeit aus dem Internet holst und deine Internetleitung zeitweise ausgelastet ist. Dann steigt der Jitter und die Server im Internet werden nicht mehr als Quellen zugelassen.
Grundsätzlich ist es empfehlenswert seine eigene NTP Quelle zu installieren (dafür reicht schon eine GPS Maus an eine Rechner) und die Internet NTP Server nur als Backup zu verwenden.
Gruß
Udo

4 Likes

Hallo zusammen,
wir konnten das Problem nun finden.
Wir haben Zeitserver die per Antenne das Zeitsignal auf Frankfurt empfangen. Hin und wieder (oft wetterbedingt) verlieren diese Antennen die Verbindung nach Frankfurt. Dadurch haben sie ein Stratum 10 bekommen. Die nachgelagerten ntp-Server hatten dann ein Stratum 11 und die Clients anschließend Stratum 12. Wir haben jetzt die Konfiguration der Antennen angepasst, so dass diese kein Stratum 10 mehr erhalten, wenn sie mit interner Quarz-Uhr laufen.

Danke für eure Hilfe.
VG

2 Likes