Salve,
da un anno ho un server MG 2011 bestof con esxi 5 con RAID1 HW. Nel corso dell'anno questo server si è "bloccato" in maniera completamente random circa una decina di volte in questo modo:
- Il server fisico risponde al ping
- ci si riesce a collegare in ssh
- NON ci si riesce a collegare con vsphere
- tutte le VM rispondono al ping ma a nessun altro servizio
- sul server fisico qualsiasi comando che richiede accesso al disco si blocca (ad esempio "df", "ls", ecc)
- il reboot del server da ssh si blocca. Funziola solo il reboot da pannello di OVH
abbiamo già eseguito i check della modalità rescue e nessun di questi ha segnalato problemi.
Di seguito una parte dell'output di "dmesg" quando il server si "blocca" dal quale secondo noi il problema potrebbe derivare dalla scheda RAID:
2012-12-14T14:35:02.609Z cpu0:2067)megasas: ABORT sn 17251838 cmd=0x28 retries=0 tmo=0
2012-12-14T14:35:02.609Z cpu0:2067)megaraid_sas: megasas_abort Line 2022: ABORT instance->fw_outstanding: 0 , instance->disableOnlineCtrlReset: 0
2012-12-14T14:35:02.609Z cpu0:2067)<5>0 :: megasas: RESET -17251838 cmd=28 retries=0
2012-12-14T14:35:02.609Z cpu0:2067)megaraid_sas: HBA reset handler invoked without an internal reset condition.
2012-12-14T14:35:02.609Z cpu0:2067)<7>megaraid_sas: megasas_wait_for_outstanding: line 1875: AFTER HBA reset handler invoked without an internal reset condition: took 0 seconds. Max is 180.
2012-12-14T14:35:02.609Z cpu0:2067)megaraid_sas: no more pending commands remain after reset handling.
2012-12-14T14:35:02.609Z cpu0:2067)<5>megasas: reset successful
2012-12-14T14:35:02.622Z cpu0:2056)ScsiDeviceIO: 2288: Cmd(0x4124003dbd40) 0x2a, CmdSN 0x24092 to dev "naa.60030480036f2800165d2edf12dc5df5" failed H:0x8 D:0x0 P:0x0
2012-12-14T14:35:41.599Z cpu3:2178)megasas: ABORT sn 17251991 cmd=0x28 retries=0 tmo=0
2012-12-14T14:35:41.599Z cpu3:2178)megaraid_sas: megasas_abort Line 2022: ABORT instance->fw_outstanding: 2 , instance->disableOnlineCtrlReset: 0
2012-12-14T14:35:41.599Z cpu3:2178)<5>0 :: megasas: RESET -17251991 cmd=28 retries=0
2012-12-14T14:35:41.599Z cpu3:2178)megaraid_sas: HBA reset handler invoked without an internal reset condition.
2012-12-14T14:35:41.599Z cpu0:2067)ScsiDeviceIO: 2305: Cmd(0x4124003dbd40) 0x2a, CmdSN 0x24095 to dev "naa.60030480036f2800165d2edf12dc5df5" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2012-12-14T14:35:42.609Z cpu3:2178)<7>megaraid_sas: megasas_wait_for_outstanding: line 1875: AFTER HBA reset handler invoked without an internal reset condition: took 1 seconds. Max is 180.
2012-12-14T14:35:42.609Z cpu3:2178)megaraid_sas: no more pending commands remain after reset handling.
2012-12-14T14:35:42.609Z cpu3:2178)<5>megasas: reset successful