Probleme mit Kubernetes Monitoring in CMK 2.1 (CME)

CMK version: 2.1.0p8 (cme)

OS version: Ubuntu 20.04 LTS

Cluster collector version: 1.0.1

Error message:

Warnings:
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'pod_local_cattle-system-rancher-webhook-6958cfcddf-82vc8'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_pod_info / None
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'pod_local_checkmk-checkmk-kube-agent-node-collector-container-metrics-7x6gj'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_pod_info / None
check_mk: 12 further warnings have been omitted
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'pod_local_cattle-fleet-local-system-fleet-agent-57497ff7dc-bwnmd'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_pod_info / None
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'namespace_local-checkmk'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_namespace_info / None
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'pod_local_kube-system-rke2-coredns-rke2-coredns-687554ff58-l9csh'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_pod_info / None
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'pod_local_checkmk-checkmk-kube-agent-cluster-collector-5d46f7b5dd-zmmck'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_pod_info / None
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'pod_local_checkmk-checkmk-kube-agent-node-collector-container-metrics-glv77'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_pod_info / None
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'namespace_local-cattle-fleet-local-system'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_namespace_info / None
check_mk: ERROR: Duplicate service description (auto check) 'Info' for host 'pod_local_kube-system-kube-proxy-dok-ran-app-002'! - 1st occurrence: check plugin / item: kube_cluster_info / None - 2nd occurrence: check plugin / item: kube_pod_info / None
check_mk: 22 further warnings have been omitted

Ich bin der Anleitung in der Dokumentation gefolgt.
Alles funktioniert, bis auf den Fehler der beim aktivieren der Änderungen auftritt und dass die Kubernetes Node Hosts, die durch das Dynamic host Management erstellt wurden, Fehler haben.

Das Kubernetes Cluster ist das locale Management Cluster einer Rancher Installation.
Kubernetes Engine ist RKE2.

Die Fehlermeldungen sehen so aus wie wenn es ein Problem mit den Namen der einzelnen gefundenen Objekten gibt. Normal sollten die Piggyback Daten ja nicht x-mal für immer wieder den gleichen Pod/Container usw. auftretten.
Ich denke hier kommt man nur erstmal weiter mit dem Originalen Output wo auch alle Piggyback Namen sichtbar sind.

Wie bekomme ich den Output?
Mit cmk --debug -vvn local ? (so heißt der host für das Cluster)

Normal sollte ein “cmk -d local” reichen das bringt den ganzen Agent Output.

Der Output aus cmk -d local ist leider auch nicht sehr aufschlussreich.

Aber das Problem ist einfach dass CheckMK zwei Info Services anlegt.
Einmal für das Cluster (Check Plugin: kube_cluster_info) und einmal für den Node (Check Plugin: kube_node_info)

Deaktiviert man eines der Plugin über “Disable checks” sind die Warnungen beim Aktivieren von Änderungen weg.
Das sieht nach einem Bug aus

Aber der Kernel Performance Service der Nodes bleibt weiterhin auf UNKN und der Check_MK Discovery Service auf WARN.
Da scheint es auch noch einen Bug zu geben

no unmonitored services found, no vanished services found, no new host labels, Parsing of section cpu failed**WARN**
Details:  Parsing of section cpu failed - please submit a crash report!

Crashreport Inhalt:

Exception

ValueError (invalid literal for int() with base 10: '0.49')

Traceback

  File "/omd/sites/master/lib/python3/cmk/base/agent_based/data_provider.py", line 122, in _parse_raw_data
    return section.parse_function(list(raw_data))
  File "/omd/sites/master/lib/python3/cmk/base/plugins/agent_based/cpu.py", line 50, in parse_cpu
    max=int(string_table[1][0]) if len(string_table) > 1 else None,
Local Variables

{‘num_cpus’: 2,
‘part’: ‘2’,
‘row’: [‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
‘string_table’: [[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.49’, ‘0.62’, ‘0.73’, ‘1/749’, ‘21884’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’],
[‘0.71’, ‘0.67’, ‘0.76’, ‘1/749’, ‘21866’, ‘2’]]}

Details

Section Name

cpu

Inline-SNMP

Unknown

Section Content

[[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘1.39’, ‘0.97’, ‘0.90’, ‘11/751’, ‘22136’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’],
[‘0.50’, ‘0.79’, ‘0.84’, ‘1/751’, ‘22118’, ‘2’]]

Ich frag mich was das mit Inline-SNMP soll.
An den hosts die über DCD erstellt werden ist nichts mit SNMP konfiguriert

Das mit dem SNMP einfach ignorieren. Hat jedenfalls nix mit dem Fehler hier zu tun.
Für mich sieht es so aus wie wenn er 76 mal Daten sieht für irgendwelche Objekte und diese nicht richtig zuordnen kann.
Die Sektion für CPU/Kernel Performance ist einfach zu groß da Daten von vielen Objekten zu einem zusammen geworfen wurden.
Wie schaut den deine DCD Konfiguration aus? Nicht das hier was schief gelaufen ist bei der Erstellung der einzelnen Objekte. Ebenfalls kann es relevant sein wenn eine Piggyback Renaming Regel vorhanden ist.

Die DCD Konfiguration ist im Grunde wie in der Dokumentation gezeigt.
Renamimg Regeln für diese Piggyback daten habe ich keine bis auf case translation die auf die Main ebene ohne condition gesetzt ist und damit auch für diese Daten gilt.

Dann hilft nur noch zu schauen was an Piggyback Daten wirklich vorliegt oder halt wie der direkte Output aussieht.

Ich habe das ganze jetzt nochmal mit einem anderen Cluster getestet welches aus 3 Master/control-plane Nodes und 4 Worker Nodes besteht.
Dort treten die ganzen Fehler nicht auf.

Das Cluster mit den Problemen besteht aus 3 Nodes die nur die Master/control-plane Rolle haben.

Scheint so als würde es damit zusammenhängen.