No, non ho sospetti, soprattutto perchè quel MAC address che riporti è quello di uno switch CISCO che non è mai stato "annunciato" dai miei server.
Visto che i server che mi sono stati spenti sono due e che il primo che mi è stato spento senza motivazioni non è stato sospeso ma solamente spento, potrebbe essere utile se voi aveste log anche di quel primo evento per vedere se ci sono cose comuni tra i due server. Inoltre avevo un terzo server Proxmox configurato allo stesso identico modo che invece non è mai stato spento o sospeso, ma che la notte tra giovedì e venerdì ho dismesso io dopo aver migrato tutto su un nuovo server CentOS per cercare di evitare ulteriori brutte sorprese.
Se avessimo IP e MAC address dei miei server che secondo voi hanno creato problemi potremmo andare più a fondo, anche se per farlo avreste dovuto evitare di spegnere il server ma solamente scollegarlo dalla rete, perchè già uno spegnimento rende più difficile capire. Comunque le configurazioni del server sospeso sono ancora lì.
Provo a ricostruire gli eventi a memoria, poi li ricostruirò per bene guardando log ed email.
Il venerdì ho spostato i server nella vrack, senza modificare le configurazioni.
Poi ho aggiunto la configurazione della vlan e dell'ip privato e verificato che i server dialogassero tra loro su questa rete, lasciando per il momento gli IP RIPE assegnati singolarmente ai singoli server.
La notte tra domenica e lunedì ho deciso di fare lo spostamento dei blocchi RIPE sulla vrack: ho notato queste cose:
- Una classe RIPE (quella più piccola) ha impiegato pochi minuti per essere reroutata sulla vrack.
- L'altra classe RIPE ci ha messo quasi 2 ore: non so se sia normale o se fosse già sintomo di un problema (non ci sono guide che spiegano cosa ci si deve aspettare quando si spostano dei server e delle classi ripe nella vrack e la "Procedura di migrazione senza interruzione" della guida dice "Sezione in corso di redazione" da sempre.
Prima di mattina i 3 server migrati funzionavano correttamente, compresi gli IP assegnati alle VM.
Lunedì in tarda mattinata mi trovo uno dei server spento senza motivazioni/preavvisi. Dopo un po' mi arriva l'email che mi segnala la condizioni di "Hacking" senza dettagli. Cerco di raccogliere informazioni sull'accaduto ma mi vengono date risposte generiche, troppo generiche per capire cosa potesse essere successo. Sono abbastanza sicuro che il server non sia stato hackato, ma ovviamente per averne certezza devo mettermi a guardare al contenuto e verificare un po' di log/configurazioni ed altro.
Nel frattempo le VM che venivano erogate dal server spento si riattivano sugli altri server (sono clonate con DRBD).
Passo 2 giorni ad investigare su questo "supposto" problema di hacking del mio server (senza avere alcun dettaglio da OVH) e il mercoledì mi trovo con un secondo server spento senza motivazioni.
Questa volta non riesco nemmeno ad avere accesso ai miei dati e contattando OVH mi sento solamente dire che devo comprare il supporto VIP o che non ci possono fare niente perchè ho violato le condizioni di servizio e il mio sistema è sospeso.
A quel punto vedendo che 2 macchine su 3 con proxmox ci sono state spente mentre le macchine centos non sono state toccate e non avendo alcuna informazione da parte di OVH ci organizziamo per migrare tutti i servizi su macchine centos, senza virtualizzazione. Ovviamente dovendo gestire anche l'emergenza di due server spenti e non riuscendo nemmeno ad ottenere accesso ai dati la cosa non può essere istantanea e quindi la notte tra giovedì e venerdì completiamo la migrazione dei servizi dell'unico server proxmox rimasto.
Tutto questo non l'ho fatto perchè pensavo che ci fosse un errore nelle nostre configurazioni ma solo come gestione dell'emergenza: se mi vengono spenti senza motivi 2 server e in comune hanno il fatto di essere proxmox e non riesco ad ottenere alcuna risposta o alcun contatto tecnico con OVH allora mi organizzo per gestire l'emergenza cercando di trovare strade che mi tutelino e quindi innanzitutto abbiamo cercato di ripristinare le repliche dei servizi che stavano sui server spenti e trovare il modo di recuperare dai backup i dati per i quali non avevamo più accesso.
Nel frattempo dovevamo gestire le chiamate di decine di clienti incavolati per i disservizi che purtroppo con 2 server spenti senza preavviso ci sono stati e anche gravi.
Per poter fare ulteriori ipotesi avrei bisogno di avere più informazioni sul vostro lato, su come è configurata la vostra rete, come gestite le VLAN, come gestite il routing, l'HA e quant'altro, le configurazioni dei router e switch coinvolti. Senza queste informazioni non sono in grado di investigare sul problema e fare ipotesi tecniche sull'accaduto.
L'unico log che avete è questo? Non avete altro?
2012 Nov 14 11:21:43 sw.178.33.236.2**
%FWM-2-STM_LOOP_DETECT: Loops detected in the network for
mac 0005.73a0.0000 among ports Eth101/1/32 and Po10 vlan
2148 - Disabling dynamic learn notifications for 180 seconds
2012 Nov 14 11:24:43 sw.178.33.236.2**
%FWM-2-STM_LEARNING_RE_ENABLE: Re enabling dynamic learning on all interfaces
2012 Nov 14 11:25:17 sw.178.33.236.2**
%FWM-2-STM_LOOP_DETECT: Loops detected in the network for
mac 0005.73a0.0000 among ports Eth101/1/32 and Po10 vlan
2148 - Disabling dynamic learn notifications for 180 seconds
Questo non parla di porte che vengono "disabilitate" ma solamente di dynamic learning disabilitato, che è appunto una protezione per evitare che lo switch di incarti quando rileva una situazione anomala e non dovrebbe quindi essere sufficiente a far morire lo switch (come dite che è accaduto) e non è una condizione che dovrebbe impedire il funzionamento del normale "switching".
Se è l'unico evento che avete mi sembra strano che per voi sia sufficiente per stabilire che c'è un problema di hacking sui miei server e che me li spegnete senza preavviso, ma passiamo oltre: avete almeno l'evento equivalente che ha portato lo spegnimento del primo server?
Lo switch che ha loggato questo evento è un nexus5000? Avete il risultato di uno "show spanning-tree vlan 2148" fatto durante l'evento?
Io ho controllato i log dei miei server e non ho trovato problemi che facciano supporre che ci fosse un problema di networking di qualsiasi tipo. Ho solo numerose segnalazioni di clienti che in quei giorni segnalavano rallentamenti nell'utilizzo dei nostri servizi.