mi autorispondo per aggiornarvi sullo stato.
intanto confermo che il disco e' stato cambiato con uno identico (anche se diverso vedi dopo..) ma tutto OK per ora (e toccando ferro!)
in pratica quali passaggi ho fatto per ripristinare il RAID1 delle due partizioni (root e home)
partiamo da qualche istante prima del cambio disco fisico (programmato con tecnici OVH asciutti ma gentili e precisi), quando il server girà ancora da boot da hard disk anche se "degradato".
come ho scritto sopra in altro post, ho fatto questi passi:
ho messo in fail tutte le partizioni sul disco da cambiare (
mdadm /dev/mdX --fail /dev/sdaX)
le ho rimosse dal raid (
mdadm /dev/mdX --remove /dev/sdaX)
poi da pannello di controllo ho messo in "rescue pro" il successivo reboot del server.
sul server ho dato il comando di "reboot" ed il server e' passato in boot da rete,
ho ricevuto le pwd via email e loggatomi in ssh come root (la chiave cambia quindi c'e' un alert!) ho visto che i dischi erano quelli di prima (con
smartcl -i /dev/sda).
a parte ho messo su una shell del mio pc un
ping all'ip del server per vedere quando cominciava l'intervento (avrebbe smesso di rispondere ovviamente)
mi sono sloggato dal server prima del momento dell'appuntamento e sono rimasto in attesa..
al momento concordato il server e' andato giu' (l'ho visto dal ping che e' terminato..); l'intervento al cervello (mezzo..) era in corso!!
sono andato a prendermi un bel caffe' (ne avevo proprio bisogno..)
son tornato dopo 15 minuti, il ping era tornato su. (server ancora in modalità rescue pro)
sono entrato con le credenziali temporanee ricevute per posta
ho visto che /dev/sda era nuovo con
smartctl -i /dev/sda
=== START OF INFORMATION SECTION ===
Device Model: HGST HUS724020ALA640
Serial Number: PN2134P6KRWULX
LU WWN Device Id: 5 000cca 22df4af21
Firmware Version: MF6OAA70
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Size: 512 bytes logical/physical
questo era il vecchio /dev/sdb..
=== START OF INFORMATION SECTION ===
Device Model: TOSHIBA DT01ACA200
Serial Number: Z2L9B21GS
LU WWN Device Id: 5 000039 ff3c440e1
Firmware Version: MX4OABB0
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
uguali ma non cosi uguali.. da Toshiba a HSGST.. devo dire che qui ho avuto un brivido di sudore nella schiena.
mah. procediamo mi son detto..
da
dmesg ho controllato che non c'erano partizioni..
anche con
gdisk /dev/sda (e poi p per print).
ho copiato le partizioni dal nuovo al vecchio:
sgdisk -R=/dev/sda /dev/sdb
poi ho letto
un post che mi ha messo una pulce nell'orecchio.
ho dato
sgdisk --randomize-guids /dev/sda per randomizzare gli identificatori dl nuovo disco..
poi ho copiato il bios_grub che era in /dev/sdb1 con
dd if=/dev/sdb1 of=/dev/sda1 sperando che cosi' il bootloader sia funzionante in entrambe le partizioni. (qui la cosa non mi e' tanto chiara, ma in ogni caso poi il sistema e' ripartito. penso che dovro' fare dei test su una macchina in ufficio..)
a questo punto avrei potuto fare la rebuild del raid in modalità "rescue pro" come consigliatomi da OVH ma d'altra parte sapevo che la partizione home da 2TB ci avrebbe messo una decina di ore e non potevo lasciare gli utenti senza servizio, per cui ho deciso di prendermi un rischio e passare in esercizio..
da pannello di controllo ho messo il boot mode in "da hard disk" al prossimo riavvio.
son tornato sulla shell di rescue pro ed ho dato il comando
reboot. qui si giocava tutta la mia speranza che l'OS sarebbe ripartito senza fare casino col disco nuovo (avevo tolto le partizioni /dev/sdaX dal raid)
mi son messo a guardare il ping. si e' interrotto e poi... e' ripreso! almeno un kernel era partito.
mi son loggato come utente (da SSH ho disabilitato il login da root) e EVVIVA.. la chiave SSH era tornata quella di prima e sono entrato. almeno la partizione /home/ era stata montata.
ho guardato un po' in giro con dmesg, cat /proc/mdstata df ed in effetti stavo girando col raid degradato ma il nuovo disco era li bello pronto per tornare in linea.
ho dato i comandi previsti:
mdadm --manage /dev/md2 --add /dev/sda2 e poi
mdadm --manage /dev/md3 --add /dev/sda3 e difatti il raid si e' riattivato (in
rebuild mode), vedi $
cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md2 : active raid1 sda2[0] sdb2[1]
20478912 blocks [2/2] [UU]
md3 : active raid1 sda3[2] sdb3[1]
1932506048 blocks [2/1] [_U]
[=>...................] recovery = 9.0% (174971136/1932506048) finish=532.4min speed=55010K/sec
unused devices:
i servizi sono ripartiti come prima. la partizione home ci mettera' 10 ore circa.. ma intanto il server e' ok. la partizione / (root) ci ha messo 10 minuti. solo 30GB.
aspettiamo che termini prima di fare un eventuale altro reboot di test.
questo e' tutto, per ora. recuperare da un fail di un RAID1 si puo' fare.. per quello che costano i dischi oggi, il RAID1 e' d'obbligo IMHO per un server dedicato (o meglio uno virtualizzato da un'operatore serio..)
ricordarsi comunque di avere sempre un backup[*].. cintura e bretelle!!
[*] PS un backup se non e' stato testato per davvero (ad es. su un server clone o similare..) non vale molto di piu' di zero. perche' si scopre sempre troppo tardi che mancavano delle informazioni importanti! :-)