OVH Community, your new community space.

problema routing questa notte


kr3atin4
20.04.2012, 23.29
ecco il link per richiedere l'applicazione delle SLA:

https://www.ovh.it/managerv3/sla-list.pl

cedivad
02.04.2012, 19.39
Diciamo che sono giovane e continuo ad avere una visione filosofica del mondo =)

EvolutionCrazy
02.04.2012, 13.01
concordo che non vedo nulla di strano nell'accettare il rimborso...

ci sono ISP che tengono la rete ridondata completamente anche come vendor (juniper + cisco) per evitare downtime causati da un bug di un vendor.

Credo siano decisioni economiche appunto già previste e messe a budget

MnEm0nIc
02.04.2012, 00.56
premesso che sei libero di non rivalerti del diritto sullo SLA - considerato anche l'esiguo rimborso che si potrebbe avere - facciamo un paio di considerazioni di carattere piu' generale:
  • un'azienda fornisce uno SLA perche' ritiene di non sforarne i limiti; se cio' accade, e' giusto che l'utente, in quanto danneggiato, venga rimborsato
  • un utente sceglie un provider anche perche' ci sono delle garanzie date dallo SLA, non solo per il prezzo
  • che il downtime sia stato causato da un bug di Cisco e' un problema esterno al cliente che ha sottoscritto un accordo con OVH, e solo su di essa che puo' rivalersi
  • OVH riesce a praticare dei prezzi convenienti, ma in questa cifra sono contenute tutte le spese (tra cui lo SLA) ed il guadagno


in definitiva, non credo che OVH stia facendo un piacere ai propri clienti (alzi la mano chi ha saltato qualche pagamento), quindi trovo normale che in caso di errore l'azienda rimborsi in proporzione.

ciao ciao

cedivad
01.04.2012, 23.45
Mica sei obbligato a rispondere tesoro, ho solo esercitato un mio diritto, esposto una mia opinione.

Vabbe.

Sorrido e godo.

kr3atin4
01.04.2012, 17.10
Citazione Originariamente Scritto da cedivad
Con quello che paghiamo, visto che il bug è di Cisco ed è anche riconosciuto (ora non mi ricordo il nome dell'altro provider, ma anche questi altri sono andati down per colpa di questa cosa)... Cioè libero di farlo, ma io non lo farò =)
Questa discussione è sterile.

cedivad
31.03.2012, 10.33
Con quello che paghiamo, visto che il bug è di Cisco ed è anche riconosciuto (ora non mi ricordo il nome dell'altro provider, ma anche questi altri sono andati down per colpa di questa cosa)... Cioè libero di farlo, ma io non lo farò =)

kr3atin4
30.03.2012, 22.59
Citazione Originariamente Scritto da cedivad
Se fossi in voi sinceramente non mi permetterei di fare richiesta...
Puoi spiegarti?

cedivad
30.03.2012, 21.56
Se fossi in voi sinceramente non mi permetterei di fare richiesta...

kr3atin4
29.03.2012, 15.35
Bene, sono in attesa dell'url per la richiesta di applicazione degli SLA.

Cordiali Saluti

cedivad
28.03.2012, 20.35
Un bug nei router Cisco (non scherzo) ha mandato giù tutto stanotte per un paio d'ore.
E' crasciata la scheda di routing primaria e quella secondaria qualche secondo dopo.

Cisco merda.

viking2010
28.03.2012, 20.04
Traduzione please

oles@ovh.net
28.03.2012, 19.50
Buongiorno,
abbiamo avuto un problema di routing questa notte
dovuto ad un bug software che ha coinvolto 2 routers principali
di Roubaix. Questi Cisco ASR 9010 assicurano la banda dei datacenter a RBX
(RBX1 RBX2 RBX3 RBX4 RBX5) e la connessione verso Parigi, Bruxelles, Amsterdam, London et Frankfurt. Ovvero il coure del routing a Roubaix.

Questo bug è conosciuto e legato alle nuove schede messe in produzione
a fine gennaio (24x10G per slot). Per una ragione casuale la scheda rileva errori RAM ECC e non ruota più i pacchetti. Nonostante ciò questa non dichiara il "guasto" e resta attiva come in corretto funzionamento.
Gli altri router continuano così ad inviare pacchetti senza che questi raggiungano destinazione. Tutto arriva in un buco nero.

Questa notte 3 schede 24x10G su 2 routers ASR 9010
hanno subito questo bug più o meno contemporaneamente.
Questo ha rotto la rete in 3 pezzi: USA/London/Amsterdam/Varsavia,
Roubaix e Parigi, Francoforte, Madrid, Milano, aspirando i pacchetti
a Roubaix. Solitamente il traffico avrebbe dovuto essere ruotato ma
è stato aspirato e bloccato a Roubaix.

Improvvisamente non siamo riusciti a gestire la rete per amministrare
e recuperare logs di tutti i routers per conoscere l'origine del problema.
Abbiamo navigato all'antica con le connessioni di soccorso/esterne per
connetterci su ciascun router di backbone per verificare se fosse il router
all'origine del problema.
Questa operazione ha richiesto tempo, poichè due router si sono guastati.
Una volta riavviate le 3 schede tutto è risorto in 5 minuti.

Sono già 3 settimane. Abbiamo già aperto un ticket presso Cisco inerente
il problema delle RAM ECC. Cisco ha lavorato sul problema ed ha potuto fornirci
.. questa mattina la patch software da applicare sui routers al fine di risolvere
il problema. Realizzeremo l'operazione questa notte.
Nessun interruzione prevista.

Cerchiamo anche di migliorare la gestione dei nostri routers nel caso in cui la
backbone sia down per ragioni improbabili. Sappiamo gestire questi casi, ma lentamente.

In tutti i casi, il guasto è durato più del 99.9%, 1h22 ed abbiamo "diritto" a 43 minuti
per mese di downtime. Ci sono dunque le penalità per lo sforo del tempo autorizzato.

Esempio: sui server dedicati OVH è 5% per ora di indisponibilità.
Il ticket sarà postato in :
http://travaux.ovh.com/?do=details&id=6533

Non è bello scrivere questo genere di emails ma quando sbagliamo sbagliamo
e ce ne rendiamo conto e ci scusiamo.

Desolato.

Amichevolmente
Octave