[Check_mk (deutsch)] SMART Monitoring für CEPH (SSDs)

Hallo,

wir haben hier einen ceph-cluster mit 4 Nodes erstellt und möchten gerne die genutzten OSDs (SSDs) mit in den SMART Monitoring aufnehmen. Wenn ich smartctl direkt nutze, erhalte ich auch sofort Werte:

smartctl -A /dev/sda
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-116-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
  9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 810
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 16
177 Wear_Leveling_Count 0x0013 100 099 005 Pre-fail Always - 0
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 10992
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0032 072 061 000 Old_age Always - 28
194 Temperature_Celsius 0x0022 072 061 000 Old_age Always - 28 (Min/Max 26/39)
195 Hardware_ECC_Recovered 0x001a 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
202 Unknown_SSD_Attribute 0x0033 100 100 010 Pre-fail Always - 0
235 Unknown_Attribute 0x0012 099 099 000 Old_age Always - 13
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 2178046378
242 Total_LBAs_Read 0x0032 099 099 000 Old_age Always - 1444497527
243 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
244 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
245 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 65535
246 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 65535
247 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 65535
251 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 2955429888

Das smartplugin bleibt leider leer:

/usr/lib/check_mk_agent/plugins/smart
<<<smart>>>

Die Mountpoints sind wie folgt... z.B.:
/dev/sda1 on /var/lib/ceph/osd/ceph-12

Die Mountpoints werden auch von check_mk erkannt und zeigen die aktuelle Diskspaceusage an.

Hat jemand das gleiche Problem für das smart-Monitoring?

Beste Grüße

Jan

Hallo Jan,

ich kann mich erinnern, dass das Thema Smart Plugin und SSD hier schon mal auf dem Plan stand :slight_smile:

Gerade geschaut und dort wurden aber die Daten schon richtig ausgelesen nur dann vom Smart Check nicht richtig verarbeitet.

Schau mal bitte bei dir nach ob die Zeilen aus dem Plugin bei dir zutreffen oder nicht.

101 for D in /dev/disk/by-id/{scsi,ata}-*; do

102 [ “$D” != “${D%scsi-*}” ] && continue

103 [ “$D” != “${D%ata-*}” ] && continue

104 [ “$D” != “${D%-part*}” ] && continue

Wenn das funktioniert wirst du wohl oder übel das Script der Reihe nach mal durchgehen müssen um die Stelle zu finden an der abgebrochen wird.

Gruß

Andreas

···

Jan Peters haseningo@gmx.de schrieb am Di., 12. Juni 2018 um 09:41 Uhr:

Hallo,

wir haben hier einen ceph-cluster mit 4 Nodes erstellt und möchten gerne die genutzten OSDs (SSDs) mit in den SMART Monitoring aufnehmen. Wenn ich smartctl direkt nutze, erhalte ich auch sofort Werte:

smartctl -A /dev/sda

smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-116-generic] (local build)

Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 1

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0

9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 810

12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 16

177 Wear_Leveling_Count 0x0013 100 099 005 Pre-fail Always - 0

179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0

180 Unused_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 10992

181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0

182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0

183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0

184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0

187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0

190 Airflow_Temperature_Cel 0x0032 072 061 000 Old_age Always - 28

194 Temperature_Celsius 0x0022 072 061 000 Old_age Always - 28 (Min/Max 26/39)

195 Hardware_ECC_Recovered 0x001a 200 200 000 Old_age Always - 0

197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0

199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0

202 Unknown_SSD_Attribute 0x0033 100 100 010 Pre-fail Always - 0

235 Unknown_Attribute 0x0012 099 099 000 Old_age Always - 13

241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 2178046378

242 Total_LBAs_Read 0x0032 099 099 000 Old_age Always - 1444497527

243 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0

244 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0

245 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 65535

246 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 65535

247 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 65535

251 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 2955429888

Das smartplugin bleibt leider leer:

/usr/lib/check_mk_agent/plugins/smart

<<>>

Die Mountpoints sind wie folgt… z.B.:

/dev/sda1 on /var/lib/ceph/osd/ceph-12

Die Mountpoints werden auch von check_mk erkannt und zeigen die aktuelle Diskspaceusage an.

Hat jemand das gleiche Problem für das smart-Monitoring?

Beste Grüße

Jan


checkmk-de mailing list

checkmk-de@lists.mathias-kettner.de

Verwaltung & Abmeldung unter

http://lists.mathias-kettner.de/mailman/listinfo/checkmk-de