OVH Community, your new community space.

Server riavviato... ma da chi?


torpado
10.07.2009, 10.07
Citazione Originariamente Scritto da MnEm0nIc
che hardware test devo fare? la mia sensazione e' che sia mancata l'alimentazione (o premuto il tasto di reset) perche' tracce di riavvii software non ce ne sono.

grazie per l'assistenza
il test hardware che si effettua a partire dal rescue mode

Dopo aver fatto il test hardware puoi aprire un ticket incidente inserendo i dettagli dei logs

MnEm0nIc
10.07.2009, 09.22
Citazione Originariamente Scritto da torpado
il nostro sistema di monitoring ha individuato un down dei servizi del server, senza riavviarlo. La cosa migliore da fare è far girare un hardware test sulla macchina ed aprire un ticket riportando i logs di errore rilevati. In questo modo sapremo la vera causa del problema
che hardware test devo fare? la mia sensazione e' che sia mancata l'alimentazione (o premuto il tasto di reset) perche' tracce di riavvii software non ce ne sono.

grazie per l'assistenza

torpado
09.07.2009, 09.48
ho passato il log ad un admin per verificare la macchina. Non appena ho un esito lo posto qui di seguito. grazie per la collaborazione

edit:
il nostro sistema di monitoring ha individuato un down dei servizi del server, senza riavviarlo. La cosa migliore da fare è far girare un hardware test sulla macchina
ed aprire un ticket riportando i logs di errore rilevati. In questo modo sapremo la vera causa del problema

MnEm0nIc
08.07.2009, 19.55
da /var/log/messages non ho alcun segno di un reboot software (segnalato come "shutting down for system reboot" nei log), e' come se fosse stato staccato il cavo dell'alimentazione:

Jul 8 17:30:01 vega cron[2268]: (root) CMD (test -x /usr/sbin/run-crons && /usr/sbin/run-crons )
Jul 8 17:31:01 vega cron[3339]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null)
Jul 8 17:43:55 vega syslog-ng[3150]: syslog-ng starting up; version='2.0.9'
Jul 8 17:44:00 vega rc-scripts: Configuration not set for eth1 - assuming DHCP
Jul 8 17:44:01 vega rc-scripts: Strange, the socket file already exist in "/var/run/mysqld/mysqld.sock"
Jul 8 17:44:01 vega rc-scripts: it will be removed now and re-created by the MySQL server
Jul 8 17:44:01 vega rc-scripts: BUT please make your checks.
Jul 8 17:44:16 vega cron[4622]: (CRON) STARTUP (V5.0)
Jul 8 17:45:01 vega cron[4819]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null)
Jul 8 17:46:01 vega cron[4918]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null)

come si vede c'e' un buco di 10 minuti in cui c'e' il riavvio di syslog, mysql che trovava il file del pid e poi riprende il cron dell'rtm...

il comando uptime torna questa cosa qui:
vega # uptime
20:54:40 up 3:10, 2 users, load average: 0.00, 0.05, 0.02

spero sia d'aiuto...

torpado
08.07.2009, 18.00
Ho verificato i logs del nostro sistema interno e non risulta che la macchina in questione sia stata riavviata. Risulta appunto l'invio dell'email per un intervento sulla macchina e subito dopo l'invio dell'email che notifica: l'intervento è stato annullato

Puoi postare i logs del sistema che rivelano il riavvio della macchina?
Grazie per la collaborazione

MnEm0nIc
08.07.2009, 17.23
scrivo in relazione all'incidente numero 174585 aperto dal sistema di monitoring:

PING ksXXXXX.kimsufi.com from 213.186.33.13
: 56(84) bytes of data.
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable

questo alle 17:39...

alle 17:45 la macchina risale, solo che quando faccio il login mi ritrovo con la macchina rebootata. per prima cosa ho cercato nei log ma non ho trovato nulla.

potrete immaginare che non e' bello avere i server riavviati... inoltre questa cosa del problema di rete sta succedendo di frequente nell'ultimo periodo.

Il mio nic-handle e' da31865-ovh.

grazie per l'assistenza