Buongiorno,
abbiamo avuto un problema di routing questa notte
dovuto ad un bug software che ha coinvolto 2 routers principali
di Roubaix. Questi Cisco ASR 9010 assicurano la banda dei datacenter a RBX
(RBX1 RBX2 RBX3 RBX4 RBX5) e la connessione verso Parigi, Bruxelles, Amsterdam, London et Frankfurt. Ovvero il coure del routing a Roubaix.
Questo bug è conosciuto e legato alle nuove schede messe in produzione
a fine gennaio (24x10G per slot). Per una ragione casuale la scheda rileva errori RAM ECC e non ruota più i pacchetti. Nonostante ciò questa non dichiara il "guasto" e resta attiva come in corretto funzionamento.
Gli altri router continuano così ad inviare pacchetti senza che questi raggiungano destinazione. Tutto arriva in un buco nero.
Questa notte 3 schede 24x10G su 2 routers ASR 9010
hanno subito questo bug più o meno contemporaneamente.
Questo ha rotto la rete in 3 pezzi: USA/London/Amsterdam/Varsavia,
Roubaix e Parigi, Francoforte, Madrid, Milano, aspirando i pacchetti
a Roubaix. Solitamente il traffico avrebbe dovuto essere ruotato ma
è stato aspirato e bloccato a Roubaix.
Improvvisamente non siamo riusciti a gestire la rete per amministrare
e recuperare logs di tutti i routers per conoscere l'origine del problema.
Abbiamo navigato all'antica con le connessioni di soccorso/esterne per
connetterci su ciascun router di backbone per verificare se fosse il router
all'origine del problema.
Questa operazione ha richiesto tempo, poichè due router si sono guastati.
Una volta riavviate le 3 schede tutto è risorto in 5 minuti.
Sono già 3 settimane. Abbiamo già aperto un ticket presso Cisco inerente
il problema delle RAM ECC. Cisco ha lavorato sul problema ed ha potuto fornirci
.. questa mattina la patch software da applicare sui routers al fine di risolvere
il problema. Realizzeremo l'operazione questa notte.
Nessun interruzione prevista.
Cerchiamo anche di migliorare la gestione dei nostri routers nel caso in cui la
backbone sia down per ragioni improbabili. Sappiamo gestire questi casi, ma lentamente.
In tutti i casi, il guasto è durato più del 99.9%, 1h22 ed abbiamo "diritto" a 43 minuti
per mese di downtime. Ci sono dunque le penalità per lo sforo del tempo autorizzato.
Esempio: sui server dedicati OVH è 5% per ora di indisponibilità.
Il ticket sarà postato in :
http://travaux.ovh.com/?do=details&id=6533
Non è bello scrivere questo genere di emails ma quando sbagliamo sbagliamo
e ce ne rendiamo conto e ci scusiamo.
Desolato.
Amichevolmente
Octave