OVH Community, your new community space.

Falsi allarmi e REMIND continui da "OVH Service Monitoring"

cerri

16.01.2013, 07.40

Confermo che è successo anche a me il disservizio che dici tu.
Tra l'altro a me non funziona la notifica su iPhone (ma non ho verificato) e ieri mi è successo che il sistema mi ha allertato 2 volte per lo stesso problema via mail.

bago

15.01.2013, 12.43

Ieri ho ricevuto un ALERT per ogni server, seguito dopo 5 minuti da un OK per tutti i server. A parte i 6 sms sprecati, comunque, direi che era solo un falso allarme che era già capitato in passato. Visto che tutti i server sono stati coinvolti contemporaneamente deduco ci sia stato un problema momentaneo del server di monitoraggio, che quindi forse ha riguardato tutti i clienti? In questi casi sarebbe utile che se il server di monitoraggio si accorge che ci sono troppi siti che non vanno faccia una ipotesi che sia lui stesso a non andare ed eviti di spendere i nostri SMS.

cerri

15.01.2013, 11.17

Bene, confermo che ho anch'io avuto questo tipo di problema e il supporto incidenti si è rivelato incapace anche solo di capire il problema…

bago

11.01.2013, 16.51

Sì, confermo che i REMIND non stanno più arrivando. Ho appena riabilitato gli SMS, sperando di dormire sonni tranquilli ;-)

Ho anche chiuso il ticket.

Grazie.

torpado

11.01.2013, 10.33

In un altra occasione di fronte a questo tipo di interlocutore avrei potuto rinunciare e lasciarvi con il vostro bug. Sono io che vi faccio un favore se raccolgo informazioni su un vostro bug e vi aiuto ad investigare sullo stesso, non voi a farlo a me quando lo risolvete e quindi vorrei essere trattato DA TUTTI come uno che sta aiutando (gratuitamente) e non dover ripetere la stessa cosa mille volte per essere ascoltato o sentirmi trattato da incompetente da chi, probabilmente, lo è meno di me.

Ti ringrazio per la collaborazione e ti confermo che il problema è stato risolto

bago

11.01.2013, 09.51

Originariamente Scritto da torpado

Concordo anche sul fatto che è necessario scrivere nel ticket l'essenziale, i dati utili ad individuare il problema e se possibile la formula per riprodurlo.

Considera che io non so come funziona la vostra infrastruttura, quindi a volte è difficile notare le peculiarità. Ad esempio il fatto che ricevessi i REMIND indipendentemente da ALERT ed OK l'ho capito dopo qualche tempo. Inizialmente pensavo che arrivasse comunque l'ALERT poi il REMIND. Poi facendo mille prove ho capito che invece i REMIND arrivavano indipendentemente da tutto il resto.

Il fatto però è che fin dalla prima segnalazione ho specificato che sicuramente si trattava di un problema sul server di monitoraggio e non sul mio server e nonostante questo mi sono stati chiesti dei tcpdump, mi è stato chiesto di tenere in rescue-pro il server per mezza giornata, mi è stato chiesto di sostituire il cavo di rete!!

Io credo che oltre ad un problema di comunicazione ci sia stata anche una sottovalutazione delle mie competenze da parte di OVH: si è partiti dal presupposto che quello che segnalavo non fosse un problema di OVH ma un problema della mia configurazione (e fin qui posso anche accettarlo) e si è insistito su questo anche quando tutti i segnali mostravano evidentemente che non era possibile si trattasse di questo.

In un altra occasione di fronte a questo tipo di interlocutore avrei potuto rinunciare e lasciarvi con il vostro bug. Sono io che vi faccio un favore se raccolgo informazioni su un vostro bug e vi aiuto ad investigare sullo stesso, non voi a farlo a me quando lo risolvete e quindi vorrei essere trattato DA TUTTI come uno che sta aiutando (gratuitamente) e non dover ripetere la stessa cosa mille volte per essere ascoltato o sentirmi trattato da incompetente da chi, probabilmente, lo è meno di me.

Faccio parte anche io dell'assistenza ticket ed è un piacere poter fare la mia parte

Diciamo che delle risposte sul ticket non ce ne è una singola che abbia un senso (sia dal punto di vista dell'italiano che della validità tecnica), ed ho cambiato due tecnici... non so se è sfortuna, ma mi capitano sempre nomi "francesi" e non il tuo, ma ho capito che se oltre ad aprire il ticket apro anche un post sul forum è più facile che la cosa venga vista anche da voi in italia e che arrivi ad una soluzione.

In passato scrivendo questo tipo di segnalazioni (problemi di OVH e non problemi sul mio server) via email a supporto@ovh.it avevo avuto più successo, ma stavolta dopo 1 settimana via email sono stato dirottato sui ticket, per poi arrivare a soluzione qui sul forum (c'è tutto "loggato" nel primo post di questo topic).

torpado

11.01.2013, 09.22

Originariamente Scritto da bago

Torpado, concorderai almeno con me sul fatto che le ultime risposte che ho ricevuto nel ticket non erano in italiano comprensibile e chi era dall'altra parte non aveva capito il mio italiano
(mentre tu l'hai capito, visto che me l'hai riassunto correttamente).

Concordo con te per la parti di qualità della comprensione e scrittura che necessitano un netto miglioramento.

Concordo anche sul fatto che è necessario scrivere nel ticket l'essenziale, i dati utili ad individuare il problema e se possibile la formula per riprodurlo.

Il riassunto che ho postato è stato sufficiente per l'individuazione del problema e l'ho estratto dalle informazioni che hai postato nel ticket.

Questo per sottolineare che la collaborazione da sempre i migliori risultati

Per il resto grazie per aver preso in considerazione la mia segnalazione e non avermi lasciato in balia dell'assistenza ticket che mi stava facendo diventare pazzo.

Faccio parte anche io dell'assistenza ticket ed è un piacere poter fare la mia parte

bago

10.01.2013, 18.02

Puoi tranquillamente scrivere in italiano.

Torpado, concorderai almeno con me sul fatto che le ultime risposte che ho ricevuto nel ticket non erano in italiano comprensibile e chi era dall'altra parte non aveva capito il mio italiano (mentre tu l'hai capito, visto che me l'hai riassunto correttamente).

Per il resto grazie per aver preso in considerazione la mia segnalazione e non avermi lasciato in balia dell'assistenza ticket che mi stava facendo diventare pazzo.

torpado

10.01.2013, 17.42

Originariamente Scritto da bago

Considera che nel ticket avevo già chiesto precedentemente se era meglio che io riesponessi le cose in inglese, ma non mi hanno chiesto di farlo (e nemmeno confermato che l'inglese è meglio).

Puoi tranquillamente scrivere in italiano.

Comunque nel dubbio io ho risposto che NON CAPISCO quello che dicono e che non conoscendo il francese provo con l'inglese e gli ho riassunto il problema in inglese.

Ma penso che la soluzione non sia cambiare lingua, ma cambiare tecnico. Solo che l'ho già cambiato una volta e non è migliorata la situazione.

Avere una assistenza che non capisce le segnalazioni è molto peggio che non averla: almeno non starei perdendo tempo.

Per appunto l'ho comunicato sintetizzato in questo modo:

falsi positivi [REMIND] ricevuti ogni 6 ore

ALERT ed OK funzionano correttamente

1) "OVH Service Monitoring d7.***.it [ALERT]"
2) "OVH Service Monitoring d7.***.it [OK]"

mentre continuo a ricevere falsi positivi [REMIND]

3) "OVH Service Monitoring d7.***.it [REMIND] <= spediti anche se il servizio è UP
--
Il problema dei falsi allarmi è stato individuato, lo stiamo correggendo.
Riceverai conferma non appena la patch viene applicata.
Grazie per la segnalazione

bago

10.01.2013, 17.05

Considera che nel ticket avevo già chiesto precedentemente se era meglio che io riesponessi le cose in inglese, ma non mi hanno chiesto di farlo (e nemmeno confermato che l'inglese è meglio).

Comunque nel dubbio io ho risposto che NON CAPISCO quello che dicono e che non conoscendo il francese provo con l'inglese e gli ho riassunto il problema in inglese.

Ma penso che la soluzione non sia cambiare lingua, ma cambiare tecnico. Solo che l'ho già cambiato una volta e non è migliorata la situazione.

Avere una assistenza che non capisce le segnalazioni è molto peggio che non averla: almeno non starei perdendo tempo.

Analytic

10.01.2013, 16.44

Che figura

Sicuramente è un vantaggio che OVH abbia una sede (p.iva ed operatori) in italia, rsipetto ad altri competitor europei che non cito per ovvi motivi.

Però meglio una risposta in inglese che queste frasi sconclusionate, al limite lo usiamo noi il traduttore di google.

Io fossi in te risponderei in inglese, mi sembra una guerra persa con l'italiano.

Chissà poi perchè il supporto italiano non si può occupare direttamente delle questioni tecniche...

bago

10.01.2013, 15.42

Mah... siamo arrivati ad una situazione ridicola... questa l'ultima risposta:

Cercate di ciò che vi si dice che è buono quando avete un errore 403: ciò che non è logico.

Se volete essere allertato quando il servizio è Down, create un stampatello che tutto è OK,
e rivolta un valore dello servito 'service_up.'

Così, se non c'è questo messaggio, andate a ricevere un'allerta.

Voi la capite?

Io sforzandomi penso di capire che stanno continuando a proporre soluzioni di configurazione del mio server alternative e continuano a non capire che il problema è sul loro sistema di monitoraggio.

Io non so più in che lingua parlare e come esprimere il problema.

Se non è possibile usare il service monitoring di OVH per essere avvisati via SMS allora avrei bisogno che mi fosse rimborsato il pacchetto SMS che ho comprato, visto che l'ho comprato solo per le allerte SMS. Vi prego, non fatemi infilare di nuovo nelle procedure di rimborso... qualcuno che capisce l'italiano o l'inglese e che si fida anche solo un minimo della mia preparazione tecnica giri il mio ticket a chi sa come funziona il "Service Monitor" di OVH per dirgli che stanno partendo dei REMIND per servizi che non sono down.

bago

10.01.2013, 13.47

Come previsto continuo a ricevere un REMIND su ogni server ogni 6 ore. Tutti nello stesso momento, indipendentemente da ciò che faccio. L'ultimo giro è passato alle 14.31 ... quello prima era delle 8.26.

Il ticket non ha risposta, ma almeno non mi sono state fatte nuove richieste "perditempo".

torpado

09.01.2013, 15.39

Originariamente Scritto da bago

Ritengo che il problema sia lato loro, e quindi non posso fare molto.

Se tiro giù httpd (o meglio, varnish) allora mi arriva l'ALERT. Se lo ritiro su mi arriva l'OK. E sembrerebbe tutto perfetto, se non fosse che ogni 6 ore ricevo una email per ogni server con un REMIND che mi dice che il servizio http è ancora giù.

Sto verificando il problema che hai segnalato nel ticket 1240297

bago

09.01.2013, 15.34

Ritengo che il problema sia lato loro, e quindi non posso fare molto.

Se tiro giù httpd (o meglio, varnish) allora mi arriva l'ALERT. Se lo ritiro su mi arriva l'OK. E sembrerebbe tutto perfetto, se non fosse che ogni 6 ore ricevo una email per ogni server con un REMIND che mi dice che il servizio http è ancora giù.

technofab2

09.01.2013, 15.12

Te lo chiedevo, perchè se si capiva cosa c'era sotto, tipo monit, o munin, potevo vedere di farti fare un paio di test che potevano farti capire qualcosa in più.

bago

09.01.2013, 15.01

l'host dal quale arrivano le chiamate si chiama mrtg-qualcosa, ma non credo usino mrtg direttamente. Piuttosto secondo me si sono sviluppati qualcosa, visto che le chiamate HTTP hanno come useragent "OVH Service Monitoring".

Comunque a me sembra evidente che si sia incagliato qualcosa, probabilmente è rimasto impostato un flag di allarme sui miei server e continuano a mandarmi le email di REMIND nonostante i miei server rispondano bene.

Il fatto stesso che mi sia capitato di ricevere l'email di OK e poi dopo quella di REMIND senza un ALERT in mezzo dovrebbe palesare a chiunque che c'è qualcosa che non va lato OVH e non sui miei server, ma non sono ancora riuscito a trasmettere questo concetto a qualcuno di OVH, ahime.

technofab2

09.01.2013, 14.54

Hai avuto modi di capire che servizio usino? Monit? Munin? Xxx?

bago

09.01.2013, 14.43

Io purtroppo sono molto in difficoltà... provo a condividere la risposta per vedere se voi la capite e se sono io a non capire i tecnici OVH o se c'è qualcuno che parla la loro stessa lingua che può intercedere...

Ho cambiato tecnico e il nuovo (nuova) oggi mi risponde così al mio ticket (numero 1240297):

Salve,

Ho fatto un test sul suo server .

Sto cercando la connessione dal mrtg sul suo server:

Se eseguo un tcpdump sul server e apro la
connessione sul server MRTG:

# tcpdump host 5.39.68.251
==== dump omesso ====

Cio' funziona.

Occorrerebbe che proviate ad installare una vera allerta,
non lasciare in default.

Ciò vuole dire nel vostro manager voi menzionate: get Test

Nello schedario deve essere segnato: OK per esempio.
Poi il mrtg va a fare un get Test "

Se ciò contiene OK - > non dell'allerta Se ciò non
contiene OK o non di risposta: ciò deve mandare
un'allerta.

In stesso tempo, potete fermare apache sulla macchina,
lanciare il tcpdump, vedere se il
mrtg si connette per fare il get.

1) io stesso gli ho già detto che le chiamate del monitoring io le vedo arrivare e le vedo risposte correttamente dal mio server e che è inutile che continuino a cercare il problema nel mio server quando invece il problema è nel servizio di monitoraggio (o in una delle sue componenti).
2) sinceramente anche sforzandomi faccio fatica a capire cosa mi propongono di fare e se stiamo solo perdendo tempo o se qualcuno sta capendo quello che succede. Per il mio italiano alcune di quelle frasi sono molto toste.... a livello di traduttore google... purtroppo non conosco il francese, ma forse se mi si rispondesse in inglese potrei capire... non so...

Ora io provo a fermare HTTPD e vedere se il monitoring fa lo stesso le chiamate, e immagino di sì, non vedo come potrebbe smettere di farle se non è preveggente.. poi incollerò l'ovvio risultato nel ticket.. ma a me sembra evidente che ci sia come minimo un problema di comunicazione e forse anche uno di competenza.

C'è qualche buona anima di OVH che ha voglia di comprendere il mio italiano (e la questione tecnica) e fare in modo che il ticket arrivi a chi è in grado di capirlo? Oppure la strategia migliore è continuare a cliccare sul pulsante per cambiare tecnico?

bago

08.01.2013, 15.36

24/12/12 - Il monitoring HTTP di 3 server in vrack comincia a dare errore (senza modifiche da parte mie nel mese precedente). L'HTTP risponde bene anche perchè monitorato anche da PingDom e altri servizi similari. Ovviamente disabilito subito gli SMS alert che oltre a costarmi mi svegliano anche di notte e lascio solo le email per controllare la situazione.
27/12/12 - Invio una email a supporto@ovh.it per segnalare l'anomalia.
28/12/12 - Ricevo risposta che mi chiede dettagli maggiori, rispondo subito.
31/12/12 - Mi scrivono per dire che stanno facendo verifiche (beh, almeno qualcuno si ricorda della cosa)
03/01/13 - Mi rispondo "mi è stato consigliato di farle aprire un ticket incidente, qualora non possa ricondurre gli alert ad eventuali configurazioni errate dei sistemi." (8 giorni per dirmi di aprire un ticket.. va beh.. siam sotto le feste).
03/01/13 - Apro subito il ticket con tutti i dettagli
05/01/13 - Mi rispondono:

Il problema puo essere dovuto
a questo problema di rete :

http://status.ovh.net/?do=details&id=3902

Se incontra ancora questo tipo di problemi,
La prego di darci il Suo accordo per
mettere uno dei server in modalità rescue pro .

07/01/13 11.00 - Ovviamente il problema persiste nonostante quel task sia completato quindi non poteva essere quello la causa e comunque mi sembra strano che quella possa essere la causa... così faccio in modo di spostare i servizi di produzione in modo che uno dei tre server (quello sul quale ho aperto il ticket) non eroghi niente e poi lo riavvio in rescue-pro. Segnalo via ticket che il server è in rescue pro e che mi facciano sapere.
07/01/13 22.00 - Non avendo avuto aggiornamenti in 11 ore decido di riavviare il server normalmente per poterlo usare (è uno slave di un cluster, non si sa mai che nella notte possa servire). Quando lo riavvio ricevo per un attimo l'email che dice che l'http è OK, poi dopo pochi minuti il REMIND del guasto (stranamente senza ricevere l'ALERT, lo segnalo nel ticket).
08/01/13 09.00 - Mi rispondono al ticket che i miei server non hanno la chiave OVH e quindi non possono usare SSH per fare le verifiche. Non capisco perchè debbano verificare l'interno del mio server, non possono semplicemente vedere se la connessione HTTP che dovrebbe controllare il monitor gli funziona o meno? Va beh, gli attivo le chiavi e rispondo. Per ora sono passate 4 ore ma niente.

Io vedo le richieste HTTP da 5.39.71.251 (mrtg-rbx3-11.ovh.net) e vedo che il mio server risponde 403 (è la risposta corretta e il monitoring è configurato per aspettarsi il 403):
5.39.71.251 - - [08/Jan/2013:13:05:01 +0100] "GET / HTTP/1.1" 403 - "-" "OVH Service Monitoring"
Vedendo che queste richieste ci sono mi sembra evidente che il problema non stia nel mio server ma in qualche inghippo nel sistema di monitoring che continua a mandarmi dei REMIND per problemi che non ci sono.

08/01/2013 16:18 - OVH mi risponde che guardando al mio server non rileva problemi e mi propongono di cambiare cavo di rete !?!?!?!

Ho appena verificato il vostro server, nessuno errore è
scoperto.
Solamente, ci sono degli errori al livello di dropped della
vostra
scheda rete:

RX packets:2835197 errors:0 dropped:353 overruns:0 frame:0

TX packets:1783302 errors:0 dropped:0 overruns:0
carrier:0

Vi prego di permettermi di sostituire la cavo rete.

Ora, c'è un qualunque tecnico degno di questo nome che dopo che gli ho detto che i servizi funzionano bene, che le chiamate HTTP del monitoring le vedo, che il problema riguarda tutti i miei server propone di cambiare un cavo di rete?? E poi??? Lo cambiamo per tutti i server?

Se dovete mettervi a cambiarmi i cavi su tutti i server dove "dropped" non è 0 allora fate pure un acquisto di cavi, perchè ve ne serviranno tanti ;-)

Ora ho provato ad usare la funzione di "cambio tecnico" per vedere se sono più fortunato.

Visto che OVH fatica a capirmi, c'è qualcuno di voi che usa il service monitoring per monitorare HTTP o altri servizi sui dedicati con allerte email/sms e che ha riscontrato questi falsi positivi come me?

Ho l'impressione che il servicemonitoring si sia per qualche motivo "incagliato" e memorizzato uno stato di errore per i miei server che invece non c'è e quindi continua a mandarmi i REMIND di errore anche se non c'è alcun errore, ma evidentemente io e OVH parliamo lingue diverse e mi fanno perdere un sacco di tempo con rescue-pro, chiavi ssh e continuano a cercare il problema nel server.