Server si blocca ogni giorno inspiegabilmente
Originariamente Scritto da
ibanez89
Bisognava farlo due volte a distanza di un tempo determinato (e.g: 1 ora).
A quel punto i numeri a fianco del disco che interessa dicono i settori letti/scritti i bytes e molto altro. Per differenza si può risalire a quanto si usa il disco.
il servizio tecnico mi ha contattato dicendo che era colpa di un mio utilizzo di emerge (effettivamente ho aggiornato il sistema senza aspettare le patch OVH...una colpa tremenda ) e di un'installazione di torrent...ora, nei miei log di apache c'è effettivamente un messaggio sospetto di suPHP che parla di "memory corruption", ma è lì da mesi e non ha mai dato fastidio! Temo sia dovuto ad una incompatibilità degli aggiornamenti di Apache e suPHP che ho fatto. Ma quello che mi fa strano è che parlano di Torrent...quando io non ho MAI installato ne' usato torrent sul mio RPS. Ora o qualcuno mi ha hackato la macchina oppure...beh siamo ad alti livelli di distrazione
ibanez89
25.03.2009, 00.19
Originariamente Scritto da
bago
Effettivamente sembra un problema piuttosto grave. Ma vorrei capire una cosa.. questo problema dei blocchi capita a tutte le RPS su quei filer che sono in sincronizzazione o solo a quelli che fanno un alto uso del disco?
energia, ibanez89, pcfe, per averne un'idea vi va di fare un "cat /proc/diskstats" su una media distanza (diciamo 1 ora) per vedere quale uso effettivo fate del disco?
cat /proc/diskstats
1 0 ram0 0 0 0 0 0 0 0 0 0 0 0
1 1 ram1 0 0 0 0 0 0 0 0 0 0 0
1 2 ram2 0 0 0 0 0 0 0 0 0 0 0
1 3 ram3 0 0 0 0 0 0 0 0 0 0 0
1 4 ram4 0 0 0 0 0 0 0 0 0 0 0
1 5 ram5 0 0 0 0 0 0 0 0 0 0 0
1 6 ram6 0 0 0 0 0 0 0 0 0 0 0
1 7 ram7 0 0 0 0 0 0 0 0 0 0 0
1 8 ram8 0 0 0 0 0 0 0 0 0 0 0
1 9 ram9 0 0 0 0 0 0 0 0 0 0 0
1 10 ram10 0 0 0 0 0 0 0 0 0 0 0
1 11 ram11 0 0 0 0 0 0 0 0 0 0 0
1 12 ram12 0 0 0 0 0 0 0 0 0 0 0
1 13 ram13 0 0 0 0 0 0 0 0 0 0 0
1 14 ram14 0 0 0 0 0 0 0 0 0 0 0
1 15 ram15 0 0 0 0 0 0 0 0 0 0 0
180 0 uba 43 261 716 396 0 0 0 0 0 72 396
180 1 uba1 32 184 621 332 0 0 0 0 0 60 332
8 0 sda 2965 5549 152979 120320 395 1044 9770 50044 0 99572 170364
8 1 sda1 2294 2031 110492 92568 310 693 8032 42964 0 74560 135532
8 2 sda2 662 3508 42335 27372 85 351 1738 7080 0 26368 34452
urge decifratore
Originariamente Scritto da
torpado
scusa per l'incorrettezza, intendo dire che la personalizzazione della release OVH può causare errori di configurazione. La personalizzazione avviene anche tramite l'utilizzo del comando emerge
ok, perfetto. Ad esempio? Sarebbe interessante fare da soli un debug del genere per capire se è il mio caso Non credo ... ma non si sa mai
Originariamente Scritto da
energia
in che senso emerge non va utilizzato sulla release OVH??? Io ho installato varie cose usando emerge, ma non sapevo questo avrebbe creato problemi...che succede?
scusa per l'incorrettezza, intendo dire che la personalizzazione della release OVH può causare errori di configurazione. La personalizzazione avviene anche tramite l'utilizzo del comando emerge
Originariamente Scritto da
torpado
Un'altra questione è quella di utilizzare la release OVH utilizzando i comandi emerge, generando molti errori a livello di configurazione e quindi di accesso disco.
in che senso emerge non va utilizzato sulla release OVH??? Io ho installato varie cose usando emerge, ma non sapevo questo avrebbe creato problemi...che succede?
Si stanno confondendo più problemi, diversi, legandoli ad un rallentamento sugli accessi ISCSI dovuto ad un'operazione di manutenzione.
Esiste un problema HW individuato sui SAN che richiede che tutti i dischi Seagate da 160GB vengano sostituiti.
Questo causa la limitazione della velocità di accesso ai dischi perchè:
ogni disco sostituito richiede una sincronizzazione dei nuovi dischi, contemporaneamente all'uso del filer da parte di tutti gli utenti presenti sul
filer in questione.
Un'altra questione è quella di utilizzare la release OVH utilizzando i comandi emerge, generando molti errori a livello di configurazione e quindi di accesso disco.
Un'altra questione ancora è il tipo di processi presenti che rischiano di crashare il sistema, in quanto è stata limitata la velocità di accesso al disco. Ad esempio i torrent rappresentano un problema in questo particolare momento.
a maggior ragione, sarebbe opportuno espandere a chi è interessato da questo disservizio i 50gb, no?
Forse stanno mettendo su delle SAN nuove più spaziose e così riorganizzando i filer esistenti e magari il resync per il raid1 che per qualche motivo devono rifare influisce sui clienti esistenti. Probabilmente hanno finito lo spazio sui filer attuali e quindi non potevano più consegnare nuove RPS (Oles ha scritto che avrebbero ritardato le attivazioni ed era per questo che davano 50 gb al posto di 10).
Io ho una mia idea in proposito, e sarebbe bello avere una conferma/smentita dal team OVH: stanno offrendo i nuovi RPS con 50gb di spazio invece di 10gb -->
http://forum.ovh.it/showthread.php?t=671
Evidentemente per farlo devono aumentare lo spazio disponibile, e nell'aggiungere hard disk qualche cosa è andata storta...ora, visto che offrono 50gb ai nuovi clienti quando a noi non riescono a garantire neppure i nostri 10gb non sarebbe bello se, visto il disservizio EVIDENTE che stanno causando, offrissero come "rimborso simbolico" i 50gb anche a noi che stiamo venendo danneggiati da questa situazione?
Ovviamente è una cosa da nulla per loro, ma almeno sarebbe un gesto di disponibilità e gentilezza, per rispondere adeguatamente alla nostra "gentilezza" di clienti che continuano a rinnovare nonostante i disservizi... che ne dite?
ibanez89
24.03.2009, 11.48
Più tardi provo, ora nn posso, cmq la macchina attualmente è sempre in idle non fa nulla
ecco il mio:
cat /proc/diskstats
1 0 ram0 0 0 0 0 0 0 0 0 0 0 0
1 1 ram1 0 0 0 0 0 0 0 0 0 0 0
1 2 ram2 0 0 0 0 0 0 0 0 0 0 0
1 3 ram3 0 0 0 0 0 0 0 0 0 0 0
1 4 ram4 0 0 0 0 0 0 0 0 0 0 0
1 5 ram5 0 0 0 0 0 0 0 0 0 0 0
1 6 ram6 0 0 0 0 0 0 0 0 0 0 0
1 7 ram7 0 0 0 0 0 0 0 0 0 0 0
1 8 ram8 0 0 0 0 0 0 0 0 0 0 0
1 9 ram9 0 0 0 0 0 0 0 0 0 0 0
1 10 ram10 0 0 0 0 0 0 0 0 0 0 0
1 11 ram11 0 0 0 0 0 0 0 0 0 0 0
1 12 ram12 0 0 0 0 0 0 0 0 0 0 0
1 13 ram13 0 0 0 0 0 0 0 0 0 0 0
1 14 ram14 0 0 0 0 0 0 0 0 0 0 0
1 15 ram15 0 0 0 0 0 0 0 0 0 0 0
7 0 loop0 0 0 0 0 0 0 0 0 0 0 0
7 1 loop1 0 0 0 0 0 0 0 0 0 0 0
7 2 loop2 0 0 0 0 0 0 0 0 0 0 0
7 3 loop3 0 0 0 0 0 0 0 0 0 0 0
7 4 loop4 0 0 0 0 0 0 0 0 0 0 0
7 5 loop5 0 0 0 0 0 0 0 0 0 0 0
7 6 loop6 0 0 0 0 0 0 0 0 0 0 0
7 7 loop7 0 0 0 0 0 0 0 0 0 0 0
180 0 uba 3 0 24 4 72 466 4304 8908 0 884 8912
180 1 uba1 0 0 0 0 71 459 4240 8896 0 880 8896
9 0 md0 0 0 0 0 0 0 0 0 0 0 0
8 0 sda 12752 23185 695014 10372424 206989 120338 2613122 381712056 2 27377992 392085444
8 1 sda1 5652 5775 365532 4932840 178956 105025 2271904 342530132 1 24388532 347463444
8 2 sda2 7099 17410 329474 5439360 28033 15313 341218 39181924 1 14332784 44621776
Effettivamente sembra un problema piuttosto grave. Ma vorrei capire una cosa.. questo problema dei blocchi capita a tutte le RPS su quei filer che sono in sincronizzazione o solo a quelli che fanno un alto uso del disco?
energia, ibanez89, pcfe, per averne un'idea vi va di fare un "cat /proc/diskstats" su una media distanza (diciamo 1 ora) per vedere quale uso effettivo fate del disco?
anche io iSCSI; e continuo ad avere problemi. La cosa inizia a diventare imbarazzante, voglio sperare che OVH trovi un modo di rimborsare quantomeno simbolicamente per un disservizio così snervante e stupido.
ibanez89
23.03.2009, 16.23
io iSCSI mai provato NFS
Originariamente Scritto da
bago
x quelli a cui si blocca l'RPS: usate iSCSI o NFS ?
iSCSI
@ibanez89: sì, questo l'ho capito anche io. In questi giorni credo che il problema sia particolarmente evidente perchè credo stiano proprio aggiornando dei dischi:
http://travaux.ovh.net/?project=15&s...all&perpage=50
In pratica tutti quei ticket "in corso" sui filerz dovrebbero/potrebbero essere la causa.
Mi stavo chiedendo però, se gli utenti di RPS che riscontrano il problema del crash sono tutti su iSCSI o anche su NFS è uguale. NFS non mi è mai piaciuta, ma non si sa mai che gestisca questa situazione (che potrebbe capitare spesso) meglio dell'iSCSI.
ibanez89
23.03.2009, 12.43
Io ho capito che i san hanno un raid 1, se si scassa un disco devi aspettare la risincronizzazione altrimenti hai l'accesso al disco talmente lento che il sistema il più delle volte crasha
@ibanez89, mi chiedevo proprio questo. Mi sembra di capire che i SAN non si blocchino ma che semplicemente stiano rallentando molto e che di conseguenza il sistema operativo sull'RPS si incarta. Questo mi farebbe pensare che cambiare il metodo di accesso possa cambiare molto i risultati. A dire di Oles l'accesso NFS alle stesse SAN è molto più performante.
ibanez89
23.03.2009, 12.21
io iscsi ma dovrebbe essere uguale visto che sono gli stessi SAN quindi se sei dentro uno di quelli sei punto e accapo
x quelli a cui si blocca l'RPS: usate iSCSI o NFS ?
Ho aperto un ticket il giorno 20. Siamo al 22 e ancora nessuno m'ha dato alcuna informazione sul perché il mio RPS da due giorni non risponde piu.
Scusate, sono molto molto deluso da questo servizio. E' incredibile come possa succedere una cosa così. Se io su quel server avevo un servizio che doveva stare up e non poteva permettersi un down così lungo? Ero rovinato.
Mi direte: "se hai bisogno di tale sicurezza, non ti compravi un RPS I". Non è vero, perché anche un RPS I può bastare per servizi del genere, e soprattutto se è fornito un servizio, per qualunque valore esso abbia, deve essere servito bene.
Ho provveduto ad acquistare una VPS da un altro fornitore. Appena scadrà il contratto, cancellerò questa RPS I.
E' inconcepibile.
Ho anche io lo stesso problema, riporto qui il post che ho erroneamente fatto nell'altra sezione:
---------------------
Ciao a tutti,
da stamattina sto tentando di accedere alla mia RPS I senza successo.
Ho provato questa mattina e non mi accedeva piu all'ssh. Allora, visto che ancora sto configurando il server, ho pensato che ci potesse essere stato qualche problema di configurazione.
Senza perdere ulteriore tempo ho provveduto alla reinstallazione del sistema operativo, procedura che però si è interrotta a metà un paio di volte. Alla prima volta ha dato come errore che SSH non veniva avviato. La seconda volta che il sistema non dava segni di riavvio.
Contemporaneamente la mia casella di posta elettronica è stata letteralmente intasata dalle segnalazioni automatiche che mi avvisavano dell'apertura automatica di una segnalazione poiché era stato riscontrato un errore, segnalazione poi immediatamente chiusa perché sembrava che il problema si fosse automaticamente risolto.
Dopo un'oretta ho provveduto nuovamente all'installazione del sistema operativo, procedura correttamente effettuata.
Ho provveduto dunque a configurare alcuni pacchetti, quando improvvisamente sembrava come se il server non rispondesse pù. Mi sono disconnesso da SSH, mi sono riconnesso, et voilà...SSH non risponde più. Nuovamente.
Qualcuno mi saprebbe spiegare cosa sta succedendo, gentilmente?
Il mio codice è: gm23025-ovh
Grazie mille
Originariamente Scritto da
energia
rallentamento temporaneo o cosa? Su travaux.ovh.com a quale ticket dobbiamo far riferimento? Sarebbe bello avvisare prima di fare lavori e rallentamenti del genere ...
il ticket di riferimento
Originariamente Scritto da
torpado
tutti gli RPS hanno un rallentamento forzato sugli accessi ai dischi ISCSI, quindi caricare troppo i processi potrebbe determinare il blocco.
rallentamento
temporaneo o cosa? Su travaux.ovh.com a quale ticket dobbiamo far riferimento? Sarebbe bello avvisare prima di fare lavori e rallentamenti del genere ...
Originariamente Scritto da
energia
tutti gli RPS hanno un rallentamento forzato sugli accessi ai dischi ISCSI, quindi caricare troppo i processi potrebbe determinare il blocco.
Originariamente Scritto da
torpado
indica il tuo nic-handle, grazie
cd17554-ovh , prego
Originariamente Scritto da
energia
Ok, per ora tengo buono il ninja allora
Questo è il mio server iSCSI : iscsi40.rps.ovh.net
indica il tuo nic-handle, grazie
Ok, per ora tengo buono il ninja allora
Questo è il mio server iSCSI : iscsi40.rps.ovh.net
ibanez89
19.03.2009, 13.28
he, io ci sono dentro, il mio rps è su questo iscsi
iscsi54.rps.ovh.net
ho un solo rps, questo è il mio nick FL6392-OVH
Originariamente Scritto da
energia
ottimo! Grazie ibanez stavo impazzendo...ovviamente è successo anche stanotte. Hanno intenzione di dare delle spiegazioni che tu sappia? Ne sono a conoscenza? O devo mandargli il mio ninja di fiducia armato di katana e lassativi?
ci sono interventi tecnici in corso sui filers: 21,22,52,53,54,55.
se avete più di un RPS scrivete qui il nome macchina oppure mandando una email al supporto per verificare a quale filer appartiene.
può andare bene anche il nic-handle in caso abbiate solo un RPS.
grazie
ottimo! Grazie ibanez stavo impazzendo...ovviamente è successo anche stanotte. Hanno intenzione di dare delle spiegazioni che tu sappia? Ne sono a conoscenza? O devo mandargli il mio ninja di fiducia armato di katana e lassativi?
ibanez89
18.03.2009, 19.57
no, se è lo stesso problema mio "riavvii e dopo 30min tutto si sistema" è un problema dei san di ovh te non puoi farci nulla...
cioè riguarda OVH e non solo me individualmente?
ibanez89
18.03.2009, 19.23
vedi qui...
http://icestream.it/munin/opensim.ic...stream.it.html
quando i n° di processi salgono significa che l'iscsi è crashato, il server è pingabile ma se ti logi via ssh non puoi scrivere comandi... forse soffri anche tu di questo problema da un paio di giorni... è a tratti inspiegabile...
Salve,
ho un RPS dove ospito alcuni piccoli blog wordpress e poche altre cosine (progetti SVN etc). Ultimamente il server si blocca all'improvviso, senza alcun motivo apparente. Semplicemente, va giù. Poi riavvio e tutto funziona. Ho guardato in var/log ma non trovo nulla di sospetto. Come faccio a capire cosa c'è che non va? Pensavo fosse w00tw00t o simili ma ho installato fail2ban ... e blocca regolarmente gli IP colpevoli. Eppure, continua a stopparsi il server. Non capisco. Che dire? Non so dove guardare.
Una delle cose fondamentali che fa questo RPS è gestire il mio server di posta...come faccio? Se va giù perdo messaggi
grazie a tutti!! Dario