OVH Community, your new community space.

Blocco server ESXI


BiagioParuolo
21.12.2012, 09.12
Il problema è dovuto anche forse al sync RAID ed essendoci una scheda RAID senza cache...è molto lento

technofab
19.12.2012, 11.54
Citazione Originariamente Scritto da scelli
Per più di un'ora?
Così scadenti da non riuscire nemmeno a fare un "ls -l"?

Posso capire dei rallentamenti, ma qui il server è proprio bloccato.
Inoltre si verifica completamente random, non a orari prestabiliti. Ieri si è bloccato alle 4pm e alle 11pm.
Se vedi la discussione è di un tipo nelle tue identiche casistiche.

scelli
19.12.2012, 11.53
Per più di un'ora?
Così scadenti da non riuscire nemmeno a fare un "ls -l"?

Posso capire dei rallentamenti, ma qui il server è proprio bloccato.
Inoltre si verifica completamente random, non a orari prestabiliti. Ieri si è bloccato alle 4pm e alle 11pm.

Citazione Originariamente Scritto da technofab
Te la da VMWARE stesso.
http://communities.vmware.com/thread/397021

Sottolineo il passaggio From our experience, when RAID controller performs self-check, the host has very poor performance, but data are not lost. Nevertheless the backup is very important

Insomma performance scadenti detto in poche parole, e attenzione comunque al backup.

technofab
19.12.2012, 11.31
Te la da VMWARE stesso.
http://communities.vmware.com/thread/397021

Sottolineo il passaggio From our experience, when RAID controller performs self-check, the host has very poor performance, but data are not lost. Nevertheless the backup is very important

Insomma performance scadenti detto in poche parole, e attenzione comunque al backup.

scelli
18.12.2012, 18.50
Oggi è successo nuovamente e come sempre abbiamo dovuto fare un reboot hardware.

C'è qualcuno di OVH che può darci un feedback?

Grazie

scelli
16.12.2012, 12.48
Ho già aperto il ticket, ma ho ricevuto la classica risposta di fare i test in modalità rescue.

Apparentemente random. Ma non conoscendone la causa precisa è difficile capire se c'è una causa.

Maghetto
16.12.2012, 12.43
Buongiorno,

Per un problema simile la prima cosa da fare è aprire immediatamente un ticket di assistenza tecnica.

Per il resto il problema va e viene a intervalli regolari o la cosa è pienamente random?

Saluti,

scelli
16.12.2012, 09.59
Salve,

da un anno ho un server MG 2011 bestof con esxi 5 con RAID1 HW. Nel corso dell'anno questo server si è "bloccato" in maniera completamente random circa una decina di volte in questo modo:

  • Il server fisico risponde al ping
  • ci si riesce a collegare in ssh
  • NON ci si riesce a collegare con vsphere
  • tutte le VM rispondono al ping ma a nessun altro servizio
  • sul server fisico qualsiasi comando che richiede accesso al disco si blocca (ad esempio "df", "ls", ecc)
  • il reboot del server da ssh si blocca. Funziola solo il reboot da pannello di OVH


abbiamo già eseguito i check della modalità rescue e nessun di questi ha segnalato problemi.
Di seguito una parte dell'output di "dmesg" quando il server si "blocca" dal quale secondo noi il problema potrebbe derivare dalla scheda RAID:

2012-12-14T14:35:02.609Z cpu0:2067)megasas: ABORT sn 17251838 cmd=0x28 retries=0 tmo=0
2012-12-14T14:35:02.609Z cpu0:2067)megaraid_sas: megasas_abort Line 2022: ABORT instance->fw_outstanding: 0 , instance->disableOnlineCtrlReset: 0
2012-12-14T14:35:02.609Z cpu0:2067)<5>0 :: megasas: RESET -17251838 cmd=28 retries=0
2012-12-14T14:35:02.609Z cpu0:2067)megaraid_sas: HBA reset handler invoked without an internal reset condition.
2012-12-14T14:35:02.609Z cpu0:2067)<7>megaraid_sas: megasas_wait_for_outstanding: line 1875: AFTER HBA reset handler invoked without an internal reset condition: took 0 seconds. Max is 180.
2012-12-14T14:35:02.609Z cpu0:2067)megaraid_sas: no more pending commands remain after reset handling.
2012-12-14T14:35:02.609Z cpu0:2067)<5>megasas: reset successful

2012-12-14T14:35:02.622Z cpu0:2056)ScsiDeviceIO: 2288: Cmd(0x4124003dbd40) 0x2a, CmdSN 0x24092 to dev "naa.60030480036f2800165d2edf12dc5df5" failed H:0x8 D:0x0 P:0x0
2012-12-14T14:35:41.599Z cpu3:2178)megasas: ABORT sn 17251991 cmd=0x28 retries=0 tmo=0
2012-12-14T14:35:41.599Z cpu3:2178)megaraid_sas: megasas_abort Line 2022: ABORT instance->fw_outstanding: 2 , instance->disableOnlineCtrlReset: 0
2012-12-14T14:35:41.599Z cpu3:2178)<5>0 :: megasas: RESET -17251991 cmd=28 retries=0
2012-12-14T14:35:41.599Z cpu3:2178)megaraid_sas: HBA reset handler invoked without an internal reset condition.
2012-12-14T14:35:41.599Z cpu0:2067)ScsiDeviceIO: 2305: Cmd(0x4124003dbd40) 0x2a, CmdSN 0x24095 to dev "naa.60030480036f2800165d2edf12dc5df5" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2012-12-14T14:35:42.609Z cpu3:2178)<7>megaraid_sas: megasas_wait_for_outstanding: line 1875: AFTER HBA reset handler invoked without an internal reset condition: took 1 seconds. Max is 180.
2012-12-14T14:35:42.609Z cpu3:2178)megaraid_sas: no more pending commands remain after reset handling.
2012-12-14T14:35:42.609Z cpu3:2178)<5>megasas: reset successful