[BUG] Overlapping Clusters Regel legt nahezu komplettes System lahm

Situation
2 Node MSSQL Cluster mit auf beiden Nodes verteilt ca. 6k Services.
Overlapping Cluster Regeln erstellt um die Services auf Cluster Objekte aufzuteilen - jeweils alle Services einer Datenbank Instanz pro Cluster Objekt.
Läuft erstmal alles ohne Probleme.
Nachdem alles aufgeteilt wurde per Regel dauert das erste Aktivieren der Changes schon sehr lange.
Auf der Shell ist ein “cmk -vv ClusterNodeName” nicht ausführbar - hab ich nach 3-4 Minuten ohne sichtbare Regung des Systems abgebrochen - vorher hat dieses Command ohne die Regeln ca 1,5-5 Sekunden gedauert.
Aktivieren auf der Shell per “cmk -vvR” sieht erstmal ok aus bis der ganze Prozess unvermittelt stoppt bei einem der Cluster Nodes und dort ca. 4 Minuten verweilt. Das Gleiche passiert danach noch mit dem zweiten Cluster Node und die Aktivierung läuft fertig durch. So ist das System aber nicht benutzbar.
Wir haben dann einfach mal alle Overlapping Cluster Rules wieder deaktiviert und schon lief alles wieder wie gewohnt flott.
Sehr seltsam.
Falls jemand hier mit seinem Produktivsystem auf dem 2.1er aktuellen Patchlevel ist und große Cluster Konstrukte hat, würde mich da das Verhalten interessieren.

Ich beobachte das auch schon in Version 2.0, nicht ganz so extrem, aber subjektiv bemerkbar.

Das Cluster-Handling musss sich intern so extrem geändert haben, dass da die Performance stark einbricht.

1 Like

Ist es denn nicht so das die komplette Cluster Funktionalität in das plugin in die Funktion cluster_check_function verlegt wurde?

Dann betrifft das ja nur das MSSQL plugin, oder liege ich damit falsch?

Alles Andere wäre mal echt fatal :open_mouth:

Gruß

Michael

Bisher hab ich das nur bei nem MSSQL Check.
Ich halte Ausschau nach anderen großen Clustern (Oracle z.B.)

Wir hatten das identische Problem in unserem Produktivsystem und dazu ein Ticket eröffnet. In 2.1.0p3 wurde es dann gelöst. performance bug when using a cluster

Seitdem haben wir das Problem nichtmehr. Der Cluster hat aktuell gesamt ~3700 Services.

Na dann hoffe ich mal dass mir das nach dem Upgrade auf die 2.0 nicht auf die Füße fällt.
Scheint ja nur un der 2.1 behoben worden zu sein.

Mein Problem besteht in der aktuellsten 2.1 Version. Also noch nicht zu früh freuen :smiley: