Server riavviato... ma da chi?
Originariamente Scritto da
MnEm0nIc
che hardware test devo fare? la mia sensazione e' che sia mancata l'alimentazione (o premuto il tasto di reset) perche' tracce di riavvii software non ce ne sono.
grazie per l'assistenza
il test hardware che si effettua a partire dal
rescue mode
Dopo aver fatto il test hardware puoi aprire un ticket incidente inserendo i dettagli dei logs
MnEm0nIc
10.07.2009, 09.22
Originariamente Scritto da
torpado
il nostro sistema di monitoring ha individuato un down dei servizi del server, senza riavviarlo. La cosa migliore da fare è far girare un hardware test sulla macchina ed aprire un ticket riportando i logs di errore rilevati. In questo modo sapremo la vera causa del problema
che hardware test devo fare? la mia sensazione e' che sia mancata l'alimentazione (o premuto il tasto di reset) perche' tracce di riavvii software non ce ne sono.
grazie per l'assistenza
ho passato il log ad un admin per verificare la macchina. Non appena ho un esito lo posto qui di seguito. grazie per la collaborazione
edit:
il nostro sistema di monitoring ha individuato un down dei servizi del server, senza riavviarlo. La cosa migliore da fare è far girare un hardware test sulla macchina
ed aprire un ticket riportando i logs di errore rilevati. In questo modo sapremo la vera causa del problema
MnEm0nIc
08.07.2009, 19.55
da /var/log/messages non ho alcun segno di un reboot software (segnalato come "shutting down for system reboot" nei log), e' come se fosse stato staccato il cavo dell'alimentazione:
Jul 8 17:30:01 vega cron[2268]: (root) CMD (test -x /usr/sbin/run-crons && /usr/sbin/run-crons )
Jul 8 17:31:01 vega cron[3339]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null)
Jul 8 17:43:55 vega syslog-ng[3150]: syslog-ng starting up; version='2.0.9'
Jul 8 17:44:00 vega rc-scripts: Configuration not set for eth1 - assuming DHCP
Jul 8 17:44:01 vega rc-scripts: Strange, the socket file already exist in "/var/run/mysqld/mysqld.sock"
Jul 8 17:44:01 vega rc-scripts: it will be removed now and re-created by the MySQL server
Jul 8 17:44:01 vega rc-scripts: BUT please make your checks.
Jul 8 17:44:16 vega cron[4622]: (CRON) STARTUP (V5.0)
Jul 8 17:45:01 vega cron[4819]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null)
Jul 8 17:46:01 vega cron[4918]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null)
come si vede c'e' un buco di 10 minuti in cui c'e' il riavvio di syslog, mysql che trovava il file del pid e poi riprende il cron dell'rtm...
il comando uptime torna questa cosa qui:
vega # uptime
20:54:40 up 3:10, 2 users, load average: 0.00, 0.05, 0.02
spero sia d'aiuto...
Ho verificato i logs del nostro sistema interno e non risulta che la macchina in questione sia stata riavviata. Risulta appunto l'invio dell'email per un intervento sulla macchina e subito dopo l'invio dell'email che notifica: l'intervento è stato annullato
Puoi postare i logs del sistema che rivelano il riavvio della macchina?
Grazie per la collaborazione
MnEm0nIc
08.07.2009, 17.23
scrivo in relazione all'incidente numero 174585 aperto dal sistema di monitoring:
PING ksXXXXX.kimsufi.com from 213.186.33.13
: 56(84) bytes of data.
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable
questo alle 17:39...
alle 17:45 la macchina risale, solo che quando faccio il login mi ritrovo con la macchina rebootata. per prima cosa ho cercato nei log ma non ho trovato nulla.
potrete immaginare che non e' bello avere i server riavviati... inoltre questa cosa del problema di rete sta succedendo di frequente nell'ultimo periodo.
Il mio nic-handle e' da31865-ovh.
grazie per l'assistenza