24/12/12 - Il monitoring HTTP di 3 server in vrack comincia a dare errore (senza modifiche da parte mie nel mese precedente). L'HTTP risponde bene anche perchè monitorato anche da PingDom e altri servizi similari. Ovviamente disabilito subito gli SMS alert che oltre a costarmi mi svegliano anche di notte e lascio solo le email per controllare la situazione.
27/12/12 - Invio una email a
supporto@ovh.it per segnalare l'anomalia.
28/12/12 - Ricevo risposta che mi chiede dettagli maggiori, rispondo subito.
31/12/12 - Mi scrivono per dire che stanno facendo verifiche (beh, almeno qualcuno si ricorda della cosa)
03/01/13 - Mi rispondo "mi è stato consigliato di farle aprire un ticket incidente, qualora non possa ricondurre gli alert ad eventuali configurazioni errate dei sistemi." (8 giorni per dirmi di aprire un ticket.. va beh.. siam sotto le feste).
03/01/13 - Apro subito il ticket con tutti i dettagli
05/01/13 - Mi rispondono:
Il problema puo essere dovuto
a questo problema di rete :
http://status.ovh.net/?do=details&id=3902
Se incontra ancora questo tipo di problemi,
La prego di darci il Suo accordo per
mettere uno dei server in modalità rescue pro .
07/01/13 11.00 - Ovviamente il problema persiste nonostante quel task sia completato quindi non poteva essere quello la causa e comunque mi sembra strano che quella possa essere la causa... così faccio in modo di spostare i servizi di produzione in modo che uno dei tre server (quello sul quale ho aperto il ticket) non eroghi niente e poi lo riavvio in rescue-pro. Segnalo via ticket che il server è in rescue pro e che mi facciano sapere.
07/01/13 22.00 - Non avendo avuto aggiornamenti in 11 ore decido di riavviare il server normalmente per poterlo usare (è uno slave di un cluster, non si sa mai che nella notte possa servire). Quando lo riavvio ricevo per un attimo l'email che dice che l'http è OK, poi dopo pochi minuti il REMIND del guasto (stranamente senza ricevere l'ALERT, lo segnalo nel ticket).
08/01/13 09.00 - Mi rispondono al ticket che i miei server non hanno la chiave OVH e quindi non possono usare SSH per fare le verifiche. Non capisco perchè debbano verificare l'interno del mio server, non possono semplicemente vedere se la connessione HTTP che dovrebbe controllare il monitor gli funziona o meno? Va beh, gli attivo le chiavi e rispondo. Per ora sono passate 4 ore ma niente.
Io vedo le richieste HTTP da 5.39.71.251 (mrtg-rbx3-11.ovh.net) e vedo che il mio server risponde 403 (è la risposta corretta e il monitoring è configurato per aspettarsi il 403):
5.39.71.251 - - [08/Jan/2013:13:05:01 +0100] "GET / HTTP/1.1" 403 - "-" "OVH Service Monitoring"
Vedendo che queste richieste ci sono mi sembra evidente che il problema non stia nel mio server ma in qualche inghippo nel sistema di monitoring che continua a mandarmi dei REMIND per problemi che non ci sono.
08/01/2013 16:18 - OVH mi risponde che guardando al mio server non rileva problemi e mi propongono di cambiare cavo di rete !?!?!?!
Ho appena verificato il vostro server, nessuno errore è
scoperto.
Solamente, ci sono degli errori al livello di dropped della
vostra
scheda rete:
RX packets:2835197 errors:0 dropped:353 overruns:0 frame:0
TX packets:1783302 errors:0 dropped:0 overruns:0
carrier:0
Vi prego di permettermi di sostituire la cavo rete.
Ora, c'è un qualunque tecnico degno di questo nome che dopo che gli ho detto che i servizi funzionano bene, che le chiamate HTTP del monitoring le vedo, che il problema riguarda tutti i miei server propone di cambiare un cavo di rete?? E poi??? Lo cambiamo per tutti i server?
Se dovete mettervi a cambiarmi i cavi su tutti i server dove "dropped" non è 0 allora fate pure un acquisto di cavi, perchè ve ne serviranno tanti ;-)
Ora ho provato ad usare la funzione di "cambio tecnico" per vedere se sono più fortunato.
Visto che OVH fatica a capirmi, c'è qualcuno di voi che usa il service monitoring per monitorare HTTP o altri servizi sui dedicati con allerte email/sms e che ha riscontrato questi falsi positivi come me?
Ho l'impressione che il servicemonitoring si sia per qualche motivo "incagliato" e memorizzato uno stato di errore per i miei server che invece non c'è e quindi continua a mandarmi i REMIND di errore anche se non c'è alcun errore, ma evidentemente io e OVH parliamo lingue diverse e mi fanno perdere un sacco di tempo con rescue-pro, chiavi ssh e continuano a cercare il problema nel server.