Discussione:
[OT] Hard disk per server 24/365
(troppo vecchio per rispondere)
Giuseppe³
2011-02-13 21:18:51 UTC
Permalink
Ciao

Scusate l'ot ma so che qui bazzicano molti responsabili di centri server.

La domanda e': che diavolo di marca/tipo di dischi montano i server che
restano accesi per 24 ore al giorno tutto l'anno?

Io ho due server in una scuola Africana, realizzati con dei normali PC
con ognuno due dischi in raid1 e come SO una Debian e una Ubuntu 6.6.

Uno dei server funziona da gateway del laboratorio di informatica verso
il modem satellitare, l'altro e' un file server e domain controller dove
vengono salvati i file dei vari utenti e le relative credenziali.

Il gateway monta due dischi da 80GB e il file server due da 500GB

L'alimentazione di tutto il sitema e' filtrata da un UPS a doppia
conversione che sopperisce ai frequentissimi black out della rete
elettrica pubblica, quindi la sinusoide e la tensione sono stabili e
senza spilli di tensione.

La temperatura ambiente raramente supera i 30 gradi (siamo a 1800metri
slm), l'unica cosa che rompe i maroni e' la polvere, rossa finissima che
entra in ogni posto delle macchine (e degli umani :) ) che a volte e'
riuscita a far grippare anche i cuscinetti delle ventole di
raffreddamento dei PC.

Ebbene, mi succede che almeno una o due volte l'anno uno o piu' dischi
dei server, vadano a quel paese.
Ho provato a montare dischi Maxtor, Samsung, Segate, ma anche or ora ho
ricevuto la temuta mail, che il sitema mi invia automaticamente, che il
raid del gateway sta lavorando in modo degradato, cioe' uno dei due
dischi e' andato a quel paese.
Il sever File system e' da piu' di due mesi che lavora con un solo disco
e proprio in questi giorni stavo organizzando la spedizione dei pezzi di
ricambio.

La cosa e' abbastanza noiosa, in quanto i tempi di spedizione
installazione sono lunghissimi, costosi, e sempre a rischio di
sparizione del materiale (giusto l'altro giorno sono venuto a conoscenza
del fatto che l'ultimo container inviato con un carico di PC usati, e'
stato razziato), ed in piu' mi tocca assistere l'addetto alla
"manutenzione" guidandolo passetto per passetto alla sistemazione
dell'hardware e del software. Inoltre non e' che gli africani siano
molto sensibili alle parole "manutenzione" e "backup".

Quindi, per avere un sistema con un MTBF (se serve: Minimum Time Between
Failure :) ) il piu' possibile alto, che marca e tipo di HD mi
converrebbe installare? Sul gateway, non fosse per il costo, sarei
tentato di installare dei dischi "solid state".

Opinioni?

Ciao
Giuseppe
sadness
2011-02-13 22:36:27 UTC
Permalink
Post by Giuseppe³
La domanda e': che diavolo di marca/tipo di dischi montano i server che
restano accesi per 24 ore al giorno tutto l'anno?
Tendenzialmente dischi scsi o sas di fascia enterprise, insomma non
propiamente il disco sata che trovi al supermercato un tanto al chilo,
i produttori sono i soliti, Seagate, Western Digital, Hitachi (un tempo
anche Fujitsu)

[snip]
Post by Giuseppe³
Ebbene, mi succede che almeno una o due volte l'anno uno o piu' dischi
dei server, vadano a quel paese.
Non ho riscontrato un tasso di mortalita' cosi elevato nemmeno ficcando
su h24 con uso intensivo dischi di fascia bassissima, io farei qualche
verifica al di la' del tipo/marca/modello di disco in uso
Temperatura dei dischi in questione ? vabbene l'ups ma l'alimentatore di
queste macchine com'e' ? insomma ci deve essere qualche fattore esterno
perche una simile moria di dischi non e' normale
Post by Giuseppe³
Quindi, per avere un sistema con un MTBF (se serve: Minimum Time Between
Failure :) ) il piu' possibile alto, che marca e tipo di HD mi
converrebbe installare? Sul gateway, non fosse per il costo, sarei
tentato di installare dei dischi "solid state".
Non credo ti possa interessare l'uso di dischi sas, scsi o fc-al, ma
restando sui dischi sata ci sono serie apposite pensate per un uso
continuato su sistemi critici (insomma roba di fascia enterprise), puoi
vedere i vari modelli RE di Western Digital, oppure dischi della serie
Constellation ES di Seagate, o la linea enterprise di Hitachi, l'MTBF
e' di solito scritto ben chiaro sui datasheet, per quel che vale puoi
confrontarli.

Premetto che i costi non sono bassi, forse i piu' abbordabili sono
gli RE di Western Digital, se restiamo su tagli medio/piccoli
probabilmente sono cifre ancora spendibili.

Ma ripeto di verificare le condizioni in cui questi dischi vengono fatti
lavorare, eccessivo calore, problemi di alimentazione, etc etc possono
uccidere un disco di fascia enterprise tanto quanto il disco di fascia
consumer.

Tanto per dire io ho alcuni sistemi (relativamente critici per me, ma in
assoluto non roba enterprise) accesi h24 da anni con dentro varie
tipologie di dischi consumer, personalmente in casa ho un array di
Maxtor DiamondMax 10 da 300Gb (4 dischi, raid5), dischi che sono in
inverno sui 30/35 gradi, in estate ben oltre, che sono da un anno senza
un ups sotto al culo (e con frequenti blackout) ma sono ancora tutti
vivi e in salute (ok, c'e' una discreta componente di fortuna, ma per
capirci, non sono cosi delicati sti dischi) e parliamo di roba _molto_
economica (e tra l'altro con una pessima fama).

Il precedente array (che questo ha sostituito) era con dei diamondmax 9
da 120Gb, e' dismesso ma tutt'ora sanissimo. Ho avuto in giro anche array
composti dai primissimi diamondmax da 40Gb dismesso per raggiunti limiti
di eta' ma funzionante ..

Certo questi saranno casi fortunati (non sfido la sorte e cambio
i dischi diciamo in media ogni tre anni, finita la garanzia o prima), mi
e' capitato di vedermi saltare qualche disco in altri array ma parliamo
di eventi occasionali, diciamo nei circa tre anni in cui tengo su un
array al massimo avro' visto partire due dischi.

Se ci penso direi che ho avuto piu' o meno lo stesso livello di
affidabilita' dei dischi che mi ritrovo nei sistemi enterprise dei
clienti, considerando che li magari ne ho 90 di dischi in un array, ma in
proporzione non mi pare di avere avuto maggiore mortalita' con la roba
consumer usata h24.

Per quanto poi possa contare una statistica cosi limitata (avro' si
una 30ina di dischi consumer che spinnano h24 in giro, ma e' pur sempre
un numero ridicolo).
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
Giovine
2011-02-14 09:49:46 UTC
Permalink
On Sun, 13 Feb 2011 22:36:27 +0000 (UTC), sadness
Post by sadness
Post by Giuseppe³
La domanda e': che diavolo di marca/tipo di dischi montano i server che
restano accesi per 24 ore al giorno tutto l'anno?
Tendenzialmente dischi scsi o sas di fascia enterprise, insomma non
propiamente il disco sata che trovi al supermercato un tanto al chilo,
i produttori sono i soliti, Seagate, Western Digital, Hitachi (un tempo
anche Fujitsu)
No no, invece io vado proprio per quelli un tanto al kilo, cosi'
invece di comprartene uno che in teoria dovrebbe durare 7 vite ma ti
costa quanto 8 vite, a meta' del prezzo ne compri 12 e aivoglia a
romperli tutti e 12!!
marco oriani
2011-02-13 23:20:47 UTC
Permalink
giusto per precisa MTBF è mean time between failure.
marco oriani
2011-02-13 23:21:45 UTC
Permalink
giusto per precisare MTBF è mean time between failures
marco oriani
2011-02-13 23:25:56 UTC
Permalink
puo' essere che questa polvere di cui parli sia il problema?

io per sicurezza metterei tutto dentro un rack con filtri e ventole per
l'aerazione forzata come si fa per l'automazione industriale.
sadness
2011-02-13 23:35:16 UTC
Permalink
Post by marco oriani
puo' essere che questa polvere di cui parli sia il problema?
Diciamo che se i sistemi non sono propio in mezzo alla strada (e anche
cosi .. ) trovo difficile che la polvere in questione possa entrare al
interno dei dischi, l'unico punto di accesso, ovvero il foro che serve a
compensare la pressione interna, e' normalmente _ben_ protetto da un
filtro adeguato (al interno del disco).
Post by marco oriani
io per sicurezza metterei tutto dentro un rack con filtri e ventole per
l'aerazione forzata come si fa per l'automazione industriale.
Questo in effetti lo farei a prescindere anche per una questione di
ventilazione dei sistemi, di certo l'accumularsi di polvere al interno
non gli fa' bene (oltre che bloccare le ventole un bello strato di
polvere innalza anche la temperatura dei componenti), pero' tremo al
pensiero che poi i filtri si tappino completamente riducendo la
circolazione del aria (e per esperienza so' che possono ridurla di
_molto_).

Si dovrebbe fare manutenzione ai filtri ad intervalli regolari, mi par di
capire che forse la cosa potrebbe risultare problematica.

Mi chiedo quale sia la temperatura dei dischi, con 30 gradi di
temperatura ambiente, e magari un bello strato di polvere che ricopre un
po' tutto (dischi inclusi) al interno del case, e le ventole che faticano
a fare il loro dovere ..
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
supervinx
2011-02-14 00:20:30 UTC
Permalink
1) La polvere non entra negli HD, ma si deposita sicuramente sulla
superficie superiore e sull'elettronica sottostante, contribuendo
all'innalzamento della temperatura, diminuendo il coefficiente di scambio
termico.
2) Il deposito sulle ventole e nei condotti di aereazione riduce
notevolmente il flusso dell'aria.
3) Non posso vantare le statistiche di sadness. Sul centinaio di HD che
ho usato negli ultimi anni, in casa, solo uno ha mostrato un
malfunzionamento. La causa, per l'appunto, è stato un surriscaldamento
per mia negligenza. Così ho dovuto sacrificare 20Gb, per isolare il
danno, ed utilizzare il resto del disco (che, dopo quattro anni, funziona
ancora).

Giusto per fare un esempio: ogni due mesi pulisco il mio Pentium IV con
il compressore.
Doo la cura, i sensori segnalano quasi 10 gradi in meno.
E non sono in mezzo alla polvere (ho un elemento di disturbo, però: il
gatto ...)
Pulizia e manutenzione ma, a quanto dici, sono concetti difficili...
Giuseppe³
2011-02-14 06:43:12 UTC
Permalink
Post by marco oriani
puo' essere che questa polvere di cui parli sia il problema?
io per sicurezza metterei tutto dentro un rack con filtri e ventole per
l'aerazione forzata come si fa per l'automazione industriale.
Avevo proposto una cosa del genere ancora nel 2007, ma si e' sorvolato
(forse in modo leggero) sulla cosa, per problemi di costi (del materiale
e della spedizione nel caso in cui non ci siano in programma container)
sia perche' i volontari che hanno cablato la rete, hanno tenuto i fili
molto corti e quindi al momento e' impensabile spostare gli switch dalla
mensola in cui si trovano. Dentro l'armadio, troverebbero posto, quindi
solo i due server e magari anche l'UPS.
Tentero' di riproporre la cosa.

Concordo con sadness che a questo punto il problema della manutenzione
dei filtri sarebbe raddoppiato: pulizia filtri armadio + pulizia filtri
server. (I server, ho dimenticato di specificare, non sono per terra ma
sopra un tavolo) quindi un pochino al riparo dallo sporco piu' sporco.

I dischi li ho fatti montare su due slitte separate tra di loro in modo
da lasciare spazio tra di loro. Su due di essi, per tentare una
soluzione al problema, una volta ho anche montato quegli aggeggi che
portano due ventoline per tenere bassa la temperatura.
Inoltre ho sfruttato la possibilita' data dai case che ho, per montare
una seconda ventola di areazione.

Il mio timore e' quello che prendano degli scossoni durante il
trasporto, nonostante l'imbottitura in cui li pongo, e che le testine
striscino i dischi e che poi, nel tempo, si degradino sino alla rottura.

Stasera provo a vedere sulla baia quanto vengono e se si trovano i
dischi enterprise citati da Sadness. (Poi devo trovare il modo di farli
portare giu' senza che prendano shock meccanici magari dentro il
bagaglio a mano di qualcuno che va giu').

Continuo a ripetere di dare una soffiata ai sistemi ogni mesetto, ma che
poi venga fatto non ci metterei la mano sul fuoco. I due o tre dischi
che mi sono fatto portare indietro, e che poi sono riuscito a farmi
sostituire in garanzia, erano generalmente diciamo "puliti" ma non so se
sono stati puliti dopo lo smontaggio.
Gli altri non e' conveniente riportarli indietro.

Un'idea che mi e'venuta, leggendo queste risposte, e' quella di
sostituire i case dei PC con qualcosa di piu' grande e con ventole piu'
grandi e robuste.
Magari nel prossimo container possono trovare posto.

Grazie
Giuseppe
Giuseppe³
2011-02-14 06:45:40 UTC
Permalink
Dimenticavo: cosa ne pensate dell'idea dei solid state sul gateway? Vado
a cercare rogne o possono aumentare l'affidabilita' ?

Buon San Valentino a tutti

Giuseppe
Giovine
2011-02-14 09:54:03 UTC
Permalink
On Mon, 14 Feb 2011 07:45:40 +0100, Giuseppe³
Post by Giuseppe³
Dimenticavo: cosa ne pensate dell'idea dei solid state sul gateway? Vado
a cercare rogne o possono aumentare l'affidabilita' ?
Lascia proprio stare, ma alla grande..... L'unica cosa che giustifica
un disco SSD e' la necessita' di una grande velocita' di accesso, a
pochi dati, e in sola lettura.... per il resto e' tutto in perdita.
Sp4rrow
2011-02-14 20:29:56 UTC
Permalink
Post by Giovine
On Mon, 14 Feb 2011 07:45:40 +0100, Giuseppe³
Post by Giuseppe³
Dimenticavo: cosa ne pensate dell'idea dei solid state sul gateway? Vado
a cercare rogne o possono aumentare l'affidabilita' ?
Lascia proprio stare, ma alla grande..... L'unica cosa che giustifica
un disco SSD e' la necessita' di una grande velocita' di accesso, a
pochi dati, e in sola lettura.... per il resto e' tutto in perdita.
Scusa eh, da cio che stai dicendo si intuisce subito che non hai mai usato i
dischi
SSD, e non ne capisci una mazza.
sono due anni che ho un server con 5 SSD montati in RAID 5
sul server e ti posso dire che gli fanno le scarpe e le calze ai piu
veloci dischi che possono esistere sul mercato, che sia in lettura
quanto in scrittura, non scaldano niente non fanno sessun rumore.
Girano 24h/24 et 365j/365 senza batter ciglio.
sono intel X25 da 80 GB.
Giovine
2011-02-15 08:41:24 UTC
Permalink
Post by Sp4rrow
Scusa eh, da cio che stai dicendo si intuisce subito che non hai mai usato i
dischi
SSD, e non ne capisci una mazza.
Intuisci quel che ti pare, non me ne frega niente!!
Post by Sp4rrow
sono due anni che ho un server con 5 SSD montati in RAID 5
sul server e ti posso dire che gli fanno le scarpe e le calze ai piu
veloci dischi che possono esistere sul mercato, che sia in lettura
quanto in scrittura, non scaldano niente non fanno sessun rumore.
Ma non mi dire... sembrano quasi degli SSD....
sadness
2011-02-14 11:10:39 UTC
Permalink
Post by Giuseppe³
Il mio timore e' quello che prendano degli scossoni durante il
trasporto, nonostante l'imbottitura in cui li pongo, e che le testine
striscino i dischi e che poi, nel tempo, si degradino sino alla rottura.
Lo trovo alquanto improbabili, se vedi le specifiche i dischi sono in
grado di supportare (in condizioni non operative, insomma da spenti)
shock di una discreta entita', inoltre non pensare che i dischi nel
momento in cui viaggiano dalla fabbrica del produttore fino al
distributore e poi al negozio (e in caso poi fino a casa nostra) siano
trattati con i guanti e coccolati.

Se non ci giocano a calcetto giu' in Africa tenderei ad escludere il
problema, anche perche comunque si evidenzierebbe subito con dei settori
danneggiati o peggio.
Post by Giuseppe³
Continuo a ripetere di dare una soffiata ai sistemi ogni mesetto, ma che
poi venga fatto non ci metterei la mano sul fuoco. I due o tre dischi
che mi sono fatto portare indietro, e che poi sono riuscito a farmi
sostituire in garanzia, erano generalmente diciamo "puliti" ma non so se
sono stati puliti dopo lo smontaggio. Gli altri non e' conveniente
riportarli indietro.
Se hai accesso ai sistemi (e mi par di capire di si) perche non verifichi
la temperatura dei dischi ? a parte l'uso dei sensori che ormai sono
praticamente su tutte le schede madri da anni e che potrebbero darti un
idea della temperatura effettiva al interno dei case, puoi interrogare
direttamente i dischi via smart per capire come sono messe le cose,
quantomeno si inizia a ragionare con qualche "se" e qualche "forse" in
meno e potresti capire meglio qual'e' la situazione.

(hint, lmsensors, smartmontools, hddtemp, etc)
Post by Giuseppe³
Un'idea che mi e'venuta, leggendo queste risposte, e' quella di
sostituire i case dei PC con qualcosa di piu' grande e con ventole piu'
grandi e robuste.
Magari nel prossimo container possono trovare posto.
Intanto se hai gia avuto problemi con le ventole causa polvere mi
preoccuperei di far sparire tutte le ventoline minuscole eventualmenti
presenti (leggo su di quelle montate sui dischi) che generalmente vanno
piu soggette a problemi e son certo saranno il solito prodotto economico,
e mi preoccuperei di ventilare bene i case usando ventole di qualita' di
una certa dimensione, e curando _bene_ il flusso d'aria che gira al
interno del case.

Circa i dischi solid state .. mi sembra una spesa eccessiva, certo non
soffrirai problemi meccanici e generalmente non si pone il problema della
temperatura (scaldano molto meno) ma non mi sembra la via giusta per
risolvere il problema (certo se poi ci dici che non altre soluzioni non
se ne trovano e che i dischi continuano a morirti ogni 2x3 ..)
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
Giovine
2011-02-14 17:15:56 UTC
Permalink
On Mon, 14 Feb 2011 11:10:39 +0000 (UTC), sadness
Post by sadness
Circa i dischi solid state ..
non mi sembra la via giusta per
risolvere il problema
(certo se poi ci dici che non altre soluzioni non
se ne trovano e che i dischi continuano a morirti ogni 2x3 ..)
E dove sta scritto che questi dovrebbero durare di piu'? Se il
problema e' elettrico questi crepano anche prima dei dischi classici.
E poi non si puo' consigliare un SSD se non si sa che lavoro fanno
questi dischi.
sadness
2011-02-14 18:05:22 UTC
Permalink
E dove sta scritto che questi dovrebbero durare di piu'? Se il problema
e' elettrico questi crepano anche prima dei dischi classici. E poi non
si puo' consigliare un SSD se non si sa che lavoro fanno questi dischi.
Ma dovrei risponderti in modo sensato ?

Non mi pare di avergli detto che dovrebbero durare di piu' a prescindere,
ho detto piu' volte nei precedenti post di verificare bene le condizioni
di contorno in cui si trovano a lavorare i dischi, si suppone che vadano
escluse cause esterne quali alimentazione e altro PRIMA di intervenire in
un modo o nel altro (che sia montando dischi di fascia enterprise o
ficcare delle ssd).
Se il problema deriva da fattori meccanici o di temperatura e non vi sono
altre soluzioni le ssd possono sicuramente avere vita piu' lunga.

Ma poi che ca..o di lavoro dovranno farei mai i dischi di un gateway ?
Non ci arriva a consumarle le ssd, avesse parlato del file server capirei
pure ..

Non e' mia abitudine far notare queste cose ma a una _chiara_ richiesta
del op finora ci sono almeno due (ma facciamo tre) tuoi post palesemente
_inutili_.
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
Giuseppe³
2011-02-14 20:34:49 UTC
Permalink
Dai fate i bravi che siamo qui per divertirci, in fondo :)

Ciao
Giuseppe
Giovine
2011-02-15 08:40:00 UTC
Permalink
On Mon, 14 Feb 2011 18:05:22 +0000 (UTC), sadness
Post by sadness
E dove sta scritto che questi dovrebbero durare di piu'? Se il problema
e' elettrico questi crepano anche prima dei dischi classici. E poi non
si puo' consigliare un SSD se non si sa che lavoro fanno questi dischi.
Ma dovrei risponderti in modo sensato ?
Veramente puoi rispondere come piu' ti aggrada...
Post by sadness
Non e' mia abitudine far notare queste cose ma a una _chiara_ richiesta
del op finora ci sono almeno due (ma facciamo tre) tuoi post palesemente
_inutili_.
Opinione tua!
Giuseppe³
2011-02-14 20:33:32 UTC
Permalink
Post by sadness
Se hai accesso ai sistemi (e mi par di capire di si) perche non verifichi
la temperatura dei dischi ? a parte l'uso dei sensori che ormai sono
praticamente su tutte le schede madri da anni e che potrebbero darti un
idea della temperatura effettiva al interno dei case, puoi interrogare
direttamente i dischi via smart per capire come sono messe le cose,
quantomeno si inizia a ragionare con qualche "se" e qualche "forse" in
meno e potresti capire meglio qual'e' la situazione.
(hint, lmsensors, smartmontools, hddtemp, etc)
Ciao,
Ho provato ad installare al volo questi tools, ma devo avere qualche
problema con l'apt-get della Debian che non riesce a trovarli nei
repository. Non ho tempo di indagare sulle cause al momento.

Ho dato un'occhiata ai dischi enterprise con interfaccia sata II ed
effettivamente costano un polmone, per le mie esegnze me ne servono
quattro e verrei a spendere sui 1000 Euro, mi sa che rischio la
radiazione dall'associazione :) (Certo che 1200000 ore di mtbf.... :) ).

L'interfaccia sas e' installabile anche nelle normali mobo dei pc?
Che vantaggi offre? Un'interfaccia quanti dischi gestisce? Si possono
mettere in software raid?

Sulla questione hot swap, approndiremo da mercoledi' sera. La cosa
potrebbe essere interessante.

Adesso non posso piu' continuare in quanto domani sono in trasferta e
devo alzarmi prestissimo, quindi vado a nanna.
Ci sentiamo o domani sera se rientro ad un'ora decente oppure mercoledi'.

@Giovine: Non e' la spesa (che per dischi normali non e' che sia un
granche') ne il numero dei dischi rotti che mi frustra. La rottura piu'
grande e' l'invio dei pezzi di ricambio (a meno di non spendere un botto
con FedEx), il passare la dogana, portare i pezzi a destinazione e farli
cambiare. Per darti un'ordine di grandezza temporale, generalmente dal
guasto alla riparazione il tempo si misura in mesi (che in africa
sembrano corrispondere quasi alle nostre settimane). Inoltre la
configurazione della Debian e della Ubuntu e' stata fatta ad intervalli
da volontari intervenuti sul posto o via ssh che ne sapevano molto (e
quando dico molto e' molto) piu' di me al riguardo, per cui ho il
terrore di perdere la configurazione del dominio con le credenziali
degli utenti e la configurazione di moodle di cui so pochissimo.
Per quanto riguarda il gateway lo so gestire abbastanza per quello che
riguarda il firewall, il proxy, il dns server e il mail server, ma e'
sempre una rottura ripartire a creare i dischi, configurarli sul muletto
che ho qui a casa e poi spedirli anche partendo dal disco immagine che
mi sono creato.

Ciao e grazie a tutti quelli che hanno fatto le loro proposte.
Mi hanno dato qualche spunto su cui riflettere.

Giuseppe
sadness
2011-02-14 21:09:19 UTC
Permalink
Post by Giuseppe³
Post by sadness
(hint, lmsensors, smartmontools, hddtemp, etc)
Ciao,
Ho provato ad installare al volo questi tools, ma devo avere qualche
problema con l'apt-get della Debian che non riesce a trovarli nei
repository. Non ho tempo di indagare sulle cause al momento.
beh si puo' sempre fare a manina, in ogni caso:
http://packages.debian.org/lenny/lm-sensors
http://packages.debian.org/lenny/smartmontools
http://packages.debian.org/lenny/hddtemp
nel caso non dovessi risolvere con apt-get ..
Post by Giuseppe³
Ho dato un'occhiata ai dischi enterprise con interfaccia sata II ed
effettivamente costano un polmone, per le mie esegnze me ne servono
quattro e verrei a spendere sui 1000 Euro, mi sa che rischio la
radiazione dall'associazione :) (Certo che 1200000 ore di mtbf.... :) ).
Uhm, come dicevo della linea RE di Western Digital dovrebbero far parte
anche dischi piu abbordabili degli altri, cosi al volo vedo circa 80/90
euro per gli RE4 da 500Gb e poco oltre il centinaio da 1Tb, certo se inizi
a guardare i tagli da 2Tb la cosa diventa piu costosa.
Post by Giuseppe³
L'interfaccia sas e' installabile anche nelle normali mobo dei pc? Che
vantaggi offre? Un'interfaccia quanti dischi gestisce? Si possono
mettere in software raid?
Ti assicuro che i dischi sas costano _molto_ di piu' dei dischi sata
che hai visto (di certo non di meno) e per tagli molto piu piccoli.
E data la situazione eviterei di cercarne usati (che si trovano, ma
evitiamo), comunque un controller sas lo trovi in tutte le salse, pci,
pci-x, pci-e, quindi volendo si, e' installabile anche sui normali pc
(e nel usato non si spendono nemmeno cifrone, ma eviterei).

Tra l'altro per la particolare situazione mi sa' di un po' eccessivo
ricorrere al sas.
Post by Giuseppe³
Sulla questione hot swap, approndiremo da mercoledi' sera. La cosa
potrebbe essere interessante.
Non ho accennato al hot-swap visto che mi par di capire che si sta'
parlando di normali pc, e ci vedo alcune problematiche, in primis la
mancanza di un controller che supporti l'hot swap (e' previsto nelle
specifiche sata MA moltissimi controller non lo supportano) e subito dopo
la necessita' di avere un case che prevede alloggiamenti per i dischi hot
swap, in pratica ti devi comprare un server predisposto (o un enclosure
esterno) perche le soluzioni "posticce" che esistono per i pc di solito
sono poco affidabili e cosa piu importante sono spesso e volentieri
carenti dal punto di vista del raffreddamento dei dischi.

Insomma ho voluto evitare di mettere troppa carne al fuoco proponendo
cose che potrebbero peggiorare una situazione gia' critica.

(di certo ti faciliterebbe le cose avere un sistema che preveda dischi
hotswap e una scorta di un paio di dischi "spare" in loco)

Prima di pensare a modifiche dei sistemi, sostituzioni di dischi con
materiale enterprise, etc etc come gia' detto verificherei le condizioni
di lavoro dei sistemi, temperatura in primis.
Almeno si inzia a ragionare con dati certi in mano e potrai decidere come
meglio affrontare il problema in modo piu' scientifico.
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
Giuseppe³
2011-02-15 21:02:18 UTC
Permalink
Il 14/02/11 22:09, sadness ha scritto:
<cut>
Post by sadness
Prima di pensare a modifiche dei sistemi, sostituzioni di dischi con
materiale enterprise, etc etc come gia' detto verificherei le condizioni
di lavoro dei sistemi, temperatura in primis.
Almeno si inzia a ragionare con dati certi in mano e potrai decidere come
meglio affrontare il problema in modo piu' scientifico.
Ciao,
Sono riuscito ad installare smartmontools sul gateway.
Fortunatamente con mdadm sono riuscito a rimettere in sesto il raid
(speriamo che duri).

Penso che il problema sia proprio la temperatura.
Qusto puo' essere dovuto sia ai filtri di nuovo intasati e sia
l'altitudine come ha puntualizzato giustamente Marco (ricordo bene che i
primi giorni ci si stanca in un men che non si dica. Poi si prende il
ritmo locale e ci si fa l'abitudine :) ).

Questi i risultati di smartctl:

ltargw:~# smartctl --all /dev/sda
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family: Maxtor DiamondMax Plus 9 family
Device Model: Maxtor 6Y080M0
Serial Number: Y3PM7CDE
Firmware Version: YAR511W0
User Capacity: 81 964 302 336 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0
Local Time is: Tue Feb 15 22:47:25 2011 CAT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine
completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 182) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
No General Purpose Logging support.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 40) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0027 203 202 063 Pre-fail
Always - 18260
4 Start_Stop_Count 0x0032 253 253 000 Old_age
Always - 1089
5 Reallocated_Sector_Ct 0x0033 253 253 063 Pre-fail
Always - 4
6 Read_Channel_Margin 0x0001 253 253 100 Pre-fail
Offline - 0
7 Seek_Error_Rate 0x000a 253 252 000 Old_age
Always - 0
8 Seek_Time_Performance 0x0027 246 234 187 Pre-fail
Always - 46499
9 Power_On_Minutes 0x0032 209 209 000 Old_age
Always - 39h+17m
10 Spin_Retry_Count 0x002b 253 252 157 Pre-fail
Always - 0
11 Calibration_Retry_Count 0x002b 253 252 223 Pre-fail
Always - 0
12 Power_Cycle_Count 0x0032 251 251 000 Old_age
Always - 1042
192 Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always
- 0
193 Load_Cycle_Count 0x0032 253 253 000 Old_age Always
- 0
194 Temperature_Celsius 0x0032 253 253 000 Old_age Always
- 43
195 Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always
- 642
196 Reallocated_Event_Count 0x0008 253 253 000 Old_age
Offline - 0
197 Current_Pending_Sector 0x0008 253 253 000 Old_age
Offline - 0
198 Offline_Uncorrectable 0x0008 253 253 000 Old_age
Offline - 0
199 UDMA_CRC_Error_Count 0x0008 198 193 000 Old_age
Offline - 7
200 Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always
- 0
201 Soft_Read_Error_Rate 0x000a 253 251 000 Old_age Always
- 88
202 TA_Increase_Count 0x000a 253 252 000 Old_age Always
- 0
203 Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always
- 0
204 Shock_Count_Write_Opern 0x000a 253 252 000 Old_age Always
- 0
205 Shock_Rate_Write_Opern 0x000a 253 252 000 Old_age Always
- 0
207 Spin_High_Current 0x002a 253 252 000 Old_age Always
- 0
208 Spin_Buzz 0x002a 253 252 000 Old_age Always
- 0
209 Offline_Seek_Performnce 0x0024 202 198 000 Old_age
Offline - 0
99 Unknown_Attribute 0x0004 253 253 000 Old_age
Offline - 0
100 Unknown_Attribute 0x0004 253 253 000 Old_age
Offline - 0
101 Unknown_Attribute 0x0004 253 253 000 Old_age
Offline - 0

SMART Error Log Version: 1
Warning: ATA error count 403 inconsistent with error log pointer 5

ATA Error Count: 403 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 403 occurred at disk power-on lifetime: 14307 hours (596 days + 3
hours)
When the command that caused the error occurred, the device was in an
unknown state.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 77 8c d1 12 e9 Error: UNC 119 sectors at LBA = 0x0912d18c =
152228236

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 8c d1 12 e9 00 18:25:11.792 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:11.776 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:10.784 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:10.768 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:09.760 READ DMA

Error 402 occurred at disk power-on lifetime: 14307 hours (596 days + 3
hours)
When the command that caused the error occurred, the device was in an
unknown state.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 77 8c d1 12 e9 Error: UNC 119 sectors at LBA = 0x0912d18c =
152228236

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 8c d1 12 e9 00 18:25:10.784 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:10.768 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:09.760 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:09.760 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:08.736 READ DMA

Error 401 occurred at disk power-on lifetime: 14307 hours (596 days + 3
hours)
When the command that caused the error occurred, the device was in an
unknown state.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 77 8c d1 12 e9 Error: UNC 119 sectors at LBA = 0x0912d18c =
152228236

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 8c d1 12 e9 00 18:25:09.760 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:09.760 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:08.736 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:08.736 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:07.728 READ DMA

Error 400 occurred at disk power-on lifetime: 14307 hours (596 days + 3
hours)
When the command that caused the error occurred, the device was in an
unknown state.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 77 8c d1 12 e9 Error: UNC 119 sectors at LBA = 0x0912d18c =
152228236

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 8c d1 12 e9 00 18:25:08.736 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:08.736 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:07.728 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:07.712 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:06.656 READ DMA

Error 399 occurred at disk power-on lifetime: 14307 hours (596 days + 3
hours)
When the command that caused the error occurred, the device was in an
unknown state.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 77 8c d1 12 e9 Error: UNC 119 sectors at LBA = 0x0912d18c =
152228236

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 8c d1 12 e9 00 18:25:07.728 READ DMA
ec 00 00 95 d1 12 a0 00 18:25:07.712 IDENTIFY DEVICE
c8 00 80 8c d1 12 e9 00 18:25:06.656 READ DMA
c8 00 80 0c d1 12 e9 00 18:25:06.656 READ DMA
c8 00 80 8c d0 12 e9 00 18:25:06.656 READ DMA

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ltargw:~# smartctl --all /dev/sdb
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family: Seagate Maxtor DiamondMax 20
Device Model: MAXTOR STM380811AS
Serial Number: 5PS279EQ
Firmware Version: 3.AAE
User Capacity: 80 026 361 856 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Tue Feb 15 22:48:56 2011 CAT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine
completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 27) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 116 090 006 Pre-fail
Always - 115567922
3 Spin_Up_Time 0x0003 095 095 000 Pre-fail
Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age
Always - 672
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail
Always - 7
7 Seek_Error_Rate 0x000f 083 060 030 Pre-fail
Always - 223847384
9 Power_On_Hours 0x0032 097 097 000 Old_age
Always - 3060
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail
Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age
Always - 662
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always
- 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always
- 0
190 Airflow_Temperature_Cel 0x0022 054 045 045 Old_age Always
In_the_past 46 (Lifetime Min/Max 21/47)
194 Temperature_Celsius 0x0022 046 055 000 Old_age Always
- 46 (0 18 0 0)
195 Hardware_ECC_Recovered 0x001a 062 046 000 Old_age Always
- 39813316
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always
- 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age
Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always
- 1
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age
Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always
- 0

SMART Error Log Version: 1
ATA Error Count: 1
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 839 hours (34 days + 23 hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 1e 46 a0 01 e0 Error: ICRC, ABRT 30 sectors at LBA =
0x0001a046 = 106566

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 3f 25 a0 01 e0 00 00:00:09.217 READ DMA EXT
25 00 3f 27 80 01 e0 00 00:00:09.216 READ DMA EXT
25 00 3f 3f 00 00 e0 00 00:00:09.210 READ DMA EXT
25 00 3f 15 a4 01 e0 00 00:00:09.205 READ DMA EXT
25 00 3f 27 80 01 e0 00 00:00:09.205 READ DMA EXT

SMART Self-test log structure revision number 1

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ltargw:~#

Il disco sdb deve essere quello montato piu' in alto dei due.
Considerazioni su questi dati sono caldeggiate :)

Alla problematica degli scossoni, essendo i server sopra un tavolo
sollevata da tony, non ci avevo proprio mai pensato, ma effettivamente
potrebbe essere una cosa interessante da analizzare. Faro' fare delle
verifiche.

Se quindi volessi montare questi cassetti radianti da 5"1/4 dove li
posso reperire in tempi ragionevoli, visto che verso la fine del
prossimo mese c'e' una persona che si reca nelle vicinanze della scuola?

Ciao e grazie a tutti.
Adesso vado a dormire visto che e' dalle cinque di stamattina che sono
in giro :)

Giuseppe
sadness
2011-02-15 23:21:41 UTC
Permalink
Ciao,
Sono riuscito ad installare smartmontools sul gateway. Fortunatamente
con mdadm sono riuscito a rimettere in sesto il raid (speriamo che
duri).
Probabilmente non durera' a lungo a giudicare da cosa leggo piu' in basso.
Penso che il problema sia proprio la temperatura. Qusto puo' essere
dovuto sia ai filtri di nuovo intasati e sia l'altitudine come ha
puntualizzato giustamente Marco (ricordo bene che i primi giorni ci si
stanca in un men che non si dica. Poi si prende il ritmo locale e ci si
fa l'abitudine :) ).
Sarebbe interessante avere la lettura dei sensori di temperatura della
scheda madre per capire la temperatura del aria nel case, tanto per
capire se sei di fronte a un problema di scarsa/pessima circolazione di
aria nel sistema (generalmente ad eccezione di prodotti un po'
particolare i case commerciali sono pessimi da questo punto di vista,
magari ci mettiamo anche delle ventole posizionate male e un groviglio di
cavi al interno a peggiorare le cose)
5 Reallocated_Sector_Ct 0x0033 253 253 063 Pre-fail
Always - 4
quattro settori riallocati qui, sette sul altro disco, segno che i dischi
stanno cedendo entrambi, non significa che debbano farlo domani
(potrebbero anche vivere a lungo) ma un disco che inizia a riallocare
settori e' un disco su cui non terrei i miei dati a lungo.
194 Temperature_Celsius 0x0032 253 253 000 Old_age Always
- 43
La temperatura rilevata non e' altissima ma abbastanza vicina a valori di
guardia (di media sopra i 45 gradi c'e' una notevole riduzione della vita
del disco), l'altro disco e' direttamente in zona "rossa", non si puo'
dire con certezza se sia questa la causa dei problemi che lamenti ma
senza alcun dubbio ha un impatto negativo sulla vita dei dischi.
Il disco sdb deve essere quello montato piu' in alto dei due.
Considerazioni su questi dati sono caldeggiate :)
Come avrai gia' capito le temperature non scherzano, e il conteggio dei
settori riallocati non e' di buon auspicio per il futuro di questi due
dischi.
Tra l'altro il numero di errori di lettura riportati per il primo disco
e' impressionante (ok, possiamo vedere solo gli ultimi 5, ma dubito che
gli altri errori si riferiscano a problemi diversi) e fa' pensare che ci
siano piu' settori marci dei 4 gia' riallocati, insomma non promette bene.
Alla problematica degli scossoni, essendo i server sopra un tavolo
sollevata da tony, non ci avevo proprio mai pensato, ma effettivamente
potrebbe essere una cosa interessante da analizzare. Faro' fare delle
verifiche.
E' una possibilita' da verificare, se il tavolo e' stabile ed e' usato
unicamente per accedere ai due sistemi e' improbabile (impossibile non lo
scrivo, ma insomma) che si provochino cosi tanti scossoni da creare
problemi ai dischi stessi, certo se il tavolo zoppica e sopra ci ballano
e' un altra questione.
Se quindi volessi montare questi cassetti radianti da 5"1/4 dove li
posso reperire in tempi ragionevoli, visto che verso la fine del
prossimo mese c'e' una persona che si reca nelle vicinanze della scuola?
Vedremo se chi li ha proposti (sorry, non ricordo il nome/nick) ti sa'
indicare un fornitore, comunque ci sono una quantita' di device pensati
per raffreddare i dischi, dai piu semplici supporti che permettono
l'installazione di 3/4 dischi in 3 bay da 5.25 dotati di ventole 12x12
fino a dissipatori veri e propi con una discreta superfice alettata da
montare sopra il disco, un giretto su ebay se propio non trovi nulla ti
aiutera'.
Ciao e grazie a tutti.
Adesso vado a dormire visto che e' dalle cinque di stamattina che sono
in giro :)
Spero che i consigli ti possano tornare utili, mi sembra che alla fine
siamo piu' o meno tutti concordi a puntare il dito su problemi legati
alla temperatura (vedremo ora i commenti sulle temperature riportate
degli altri partecipanti alla discussione).

Se riuscissi a far posizionare tutto al interno di un rack dotato di
adeguata ventilazione e filtri ci sarebbero sicuramente dei benifici su
molti fronti (niente polvere, migliore raffreddamento, niente vibrazioni).
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
Giuseppe³
2011-02-17 18:56:51 UTC
Permalink
Ciao,
Post by sadness
Sarebbe interessante avere la lettura dei sensori di temperatura della
scheda madre per capire la temperatura del aria nel case, tanto per
capire se sei di fronte a un problema di scarsa/pessima circolazione di
aria nel sistema (generalmente ad eccezione di prodotti un po'
particolare i case commerciali sono pessimi da questo punto di vista,
magari ci mettiamo anche delle ventole posizionate male e un groviglio di
cavi al interno a peggiorare le cose)
ltargw:~# sensors
lm85-i2c-0-2e
Adapter: SMBus I801 adapter at c400
V1.5: +1.50 V (min = +0.00 V, max = +3.32 V)
VCore: +1.34 V (min = +0.00 V, max = +2.99 V)
V3.3: +3.30 V (min = +0.00 V, max = +4.38 V)
V5: +5.05 V (min = +0.00 V, max = +6.64 V)
V12: +12.12 V (min = +0.00 V, max = +15.94 V)
CPU_Fan: 1351 RPM (min = 0 RPM)
fan2: 0 RPM (min = 0 RPM)
fan3: 0 RPM (min = 0 RPM)
fan4: 0 RPM (min = 0 RPM)
CPU Temp: +51.0°C (low = -127.0°C, high = +127.0°C)
Board Temp: +44.0°C (low = -127.0°C, high = +127.0°C)
Remote Temp: +44.0°C (low = -127.0°C, high = +127.0°C)
cpu0_vid: +1.088 V

ltargw:~#

Ho trovato su ebay delle "bare" di alluminio che sono date per radiatori
per hd. Provero' a prenderne un paio visto che non costano una follia.

Mi scriveresti in privato a giuseppe chiocciola hp64000 punto net ?
Dovrei farti una domanda riguardo il ridimensionamento di un raid1
software sotto Ubuntu.
In pratica i dischi attuali sono dei Samsung da 400GB non piu' in
produzione. Uno si e' rotto. Ho recuperato due Maxtor da 500GB e vorrei
passare il raid dai 400 ai 500GB. Al momento non ho trovato nessuna
utility che permetta di allargare la partizione dati in modo da
recuperare i 100GB che avanzano. Avresti dei suggerimenti in merito?

Questi nuovi dischi provo a metterli dentro ai radiatori, vediamo cosa
succede.

Ciao
Giuseppe

tony pedi
2011-02-15 14:26:48 UTC
Permalink
Post by Giuseppe³
Concordo con sadness che a questo punto il problema della manutenzione
dei filtri sarebbe raddoppiato: pulizia filtri armadio + pulizia filtri
server. (I server, ho dimenticato di specificare, non sono per terra ma
sopra un tavolo) quindi un pochino al riparo dallo sporco piu' sporco.
ritengo ALTAMENTE probabile che possa essere questo il problema della
morìa dei dischi : sul tavolo sono forse soggetti a scossoni ????

per terra sarebebro più al riparo da moviemtni accidentali DURANTE il
funzionamento

anchese è pure probabile che il problema delal polvere potrebbe pure
risultare ancora più stringente
Alessandra R.
2011-02-14 02:45:03 UTC
Permalink
Post by Giuseppe³
Ciao
Scusate l'ot ma so che qui bazzicano molti responsabili di centri server.
La domanda e': che diavolo di marca/tipo di dischi montano i server
che restano accesi per 24 ore al giorno tutto l'anno?
Io ho due server in una scuola Africana, realizzati con dei normali
PC con ognuno due dischi in raid1 e come SO una Debian e una Ubuntu
6.6.
Uno dei server funziona da gateway del laboratorio di informatica
verso il modem satellitare, l'altro e' un file server e domain
controller dove vengono salvati i file dei vari utenti e le relative
credenziali.
Il gateway monta due dischi da 80GB e il file server due da 500GB
L'alimentazione di tutto il sitema e' filtrata da un UPS a doppia
conversione che sopperisce ai frequentissimi black out della rete
elettrica pubblica, quindi la sinusoide e la tensione sono stabili e
senza spilli di tensione.
La temperatura ambiente raramente supera i 30 gradi (siamo a
1800metri slm), l'unica cosa che rompe i maroni e' la polvere, rossa
finissima che entra in ogni posto delle macchine (e degli umani :) )
che a volte e' riuscita a far grippare anche i cuscinetti delle
ventole di raffreddamento dei PC.
Ebbene, mi succede che almeno una o due volte l'anno uno o piu'
dischi dei server, vadano a quel paese. Ho provato a montare dischi
Maxtor, Samsung, Segate, ma anche or ora ho ricevuto la temuta mail,
che il sitema mi invia automaticamente, che il raid del gateway sta
lavorando in modo degradato, cioe' uno dei due dischi e' andato a
quel paese. Il sever File system e' da piu' di due mesi che lavora
con un solo disco e proprio in questi giorni stavo organizzando la
spedizione dei pezzi di ricambio.
La cosa e' abbastanza noiosa, in quanto i tempi di spedizione
installazione sono lunghissimi, costosi, e sempre a rischio di
sparizione del materiale (giusto l'altro giorno sono venuto a
conoscenza del fatto che l'ultimo container inviato con un carico di
PC usati, e' stato razziato), ed in piu' mi tocca assistere l'addetto
alla "manutenzione" guidandolo passetto per passetto alla
sistemazione dell'hardware e del software. Inoltre non e' che gli
africani siano molto sensibili alle parole "manutenzione" e "backup".
Quindi, per avere un sistema con un MTBF (se serve: Minimum Time
Between Failure :) ) il piu' possibile alto, che marca e tipo di HD
mi converrebbe installare? Sul gateway, non fosse per il costo, sarei
tentato di installare dei dischi "solid state".
Tratto dall'elenco di compatibilità di un nas:

Business:
Ideal for: Mission-critical, highly reliable business environments, 24x7
MTBF: 1.2 million hours
Warranty: Typically 5 years
Manufacturer Model Number Size (GB)
Hitachi HUA722020ALA330 2000
Samsung HE103UJ 1000
Seagate ST32000644NS 2000
Seagate ST32000644NS 2000
Seagate ST31000524NS 1000
Seagate ST31000340NS 1000
Seagate ST3750330NS 750
Seagate ST3500320NS 500
Seagate ST32500310NS 250
WD WD2003FYYS 2000
WD WD2002FYPS 2000
WD WD1002FBYS 1000
WD WD7502ABYS 750
WD WD5002ABYS 500
WD WD3202ABYS 320
WD WD2502ABYS 250
WD WD7500AYYS 750 ?
WD WD5001ABYS 500
WD WD5000ABYS 500
WD WD4001ABYS 400
WD WD4000ABYS 400
WD WD3201ABYS 320
WD WD2502ABYS 250
WD WD1601ABYS 160
WD WD1000FYPS 1000 ?
WD WD7500AYPS 750
WD WD5000ABPS 500
WD WD2003FYYS 2000
WD WD1503FYYS 1500
WD WD1503FYYS 1500
WD WD1003FBYX 1000
WD WD6000HLHX 600

la scelta c'è, i prezzi.. pure ;)
..buona spesa.. :)

(MTBF=medium time between failures)

Ale
Giovine
2011-02-14 09:45:35 UTC
Permalink
On Sun, 13 Feb 2011 22:18:51 +0100, Giuseppe³
Post by Giuseppe³
Ciao
Scusate l'ot ma so che qui bazzicano molti responsabili di centri server.
La domanda e': che diavolo di marca/tipo di dischi montano i server che
restano accesi per 24 ore al giorno tutto l'anno?
Marca "qualunquemente" :-) La sicurezza te la da' il backup o la
ridondanza, non la marca dell'hard disk.... Anche perche' il singolo
pezzo uscito male puo' sempre esserci.
sadness
2011-02-14 11:15:31 UTC
Permalink
Post by Giovine
Marca "qualunquemente" :-) La sicurezza te la da' il backup o la
ridondanza, non la marca dell'hard disk.... Anche perche' il singolo
pezzo uscito male puo' sempre esserci.
Niente da dire circa il backup, ma parliamo di "continuita' del servizio"
visto che come e' stato detto non e' un sistema che ha a cinque minuti da
casa a cui puo' cambiare i dischi quando c'e' un problema e ripristinare
i dati nel arco di un paio d'ore, la cosa e' alquanto piu' complicata.

Quindi sarebbe gradito avere un sistema di dischi quanto piu' affidabile
possibile.

In generale "marca qualunquemente" in un ambiente enterprise non sta' in
piedi, e in generale non sta' in piedi in nessuna di quelle situazioni in
cui fermare i server per cambiare i dischi provoca un disservizio
importante.

E direi che la richiesta del op era ben chiara su questo.
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
Giovine
2011-02-14 17:12:19 UTC
Permalink
On Mon, 14 Feb 2011 11:15:31 +0000 (UTC), sadness
Post by sadness
In generale "marca qualunquemente" in un ambiente enterprise non sta' in
piedi, e in generale non sta' in piedi in nessuna di quelle situazioni in
Dipende da che tipo "enterprise" e', se e' quella (solitamente
pubblica) piena di fighetti neolaureati allora non mi stupisco se ci
trovo server grossi, rumorosi, marchiati a fuoco dalla ditta piu' in
voga del momento e chiaramente costosi.
Diversamente: minima spesa, massima resa.
Post by sadness
cui fermare i server per cambiare i dischi provoca un disservizio
importante.
E perche' li devi fermare, esiste l'hot swap e mica da poco....
Ti tieni dentro non 1 disco di ricambio, ma 3 della suddetta marca
"qualunquemente" allo stesso prezzo, e voglio vedere A) se e' vero che
si romperanno prima, e B) in ogni caso se la somma delle durate di
quei 3 non raggiunge o supera quella del disco
non_plus_ultra_extra_deluxe.
Post by sadness
E direi che la richiesta del op era ben chiara su questo.
La richiesta parte dal presupposto sbagliato che il disco economico si
rompei e quello costoso no, cosa che non sta ne' in cielo ne' in terra
(*). Dovrebbe invece capire perche' si rompono, e se non riesce a
capirlo, almeno limitare i danni usando dischi che costano poco
(perche' tanto si romperanno anche gli altri, non avendo capito il
PERCHE' si rompano).

Questa e' la mia opinione, poi ognuno s'attrezza come meglio crede!
sadness
2011-02-14 18:09:35 UTC
Permalink
Dipende da che tipo "enterprise" e', se e' quella (solitamente pubblica)
piena di fighetti neolaureati allora non mi stupisco se ci trovo server
grossi, rumorosi, marchiati a fuoco dalla ditta piu' in voga del momento
e chiaramente costosi. Diversamente: minima spesa, massima resa.
Vabbe eh, letto questo facciamoci due risate, inutile proseguire nella
discussione visti i presupposti.
--
member of the italian hobbyist DECnet network - decnet.ipv7.net
www.unsupported.info - img.unixantichrist.net
Fabrizio
2011-02-14 09:51:34 UTC
Permalink
Ciao Giuseppe,

a parte il discorso di manutenzione e pulizia antipolvere pensare a dei
dischi hot swap?
I costi salirebbero di sicuro ma almeno la manutenzione e il cambio dei
dischi si potrebbe fare "on the fly" senza interruzione del servizio ma
soprattutto lo può fare chiunque.
Io ho guidato un collega (che a malapena sapeva accendere il pc) a cambiare
un disco in un server per telefono in 5 minuti.

Ti cito anche una piccola esperienza personale, server HP proliant ML350 G4
di almeno 6 anni fa con 5 dischi SCSI da 36 Gb hot swap, in un rack senza
filtri e in ambiente molto polveroso, il tutto in funzione da 6 anni con
minima manutenzione.
Un paio di mesi fa abbiamo cambiato il rack con uno più grosso dal momento
che dentro andavano installati altri sistemi, ho sfruttato il fermo macchina
per fare pulizia e manutenzione del server.
Il backplane era coperto di polvere e i dischi pure, ho dovuto uscire
all'esterno per spuzzarlo con il compressore da tanta polvere c'era, tirare
fuori i dischi uno per uno e togliere la polvere, per non parlare poi del
processore e componentistica interna, dopo il compressore ho dovuto passare
tutto con un pennello e poi spruzzare ancora per rimuovere la polvere più
ostinata.
in tutto questo tempo ho sostituito un solo disco


Ciao Fabrizio
Post by Giuseppe³
Ciao
Scusate l'ot ma so che qui bazzicano molti responsabili di centri server.
La domanda e': che diavolo di marca/tipo di dischi montano i server che
restano accesi per 24 ore al giorno tutto l'anno?
Io ho due server in una scuola Africana, realizzati con dei normali PC con
ognuno due dischi in raid1 e come SO una Debian e una Ubuntu 6.6.
Uno dei server funziona da gateway del laboratorio di informatica verso il
modem satellitare, l'altro e' un file server e domain controller dove
vengono salvati i file dei vari utenti e le relative credenziali.
Il gateway monta due dischi da 80GB e il file server due da 500GB
L'alimentazione di tutto il sitema e' filtrata da un UPS a doppia
conversione che sopperisce ai frequentissimi black out della rete
elettrica pubblica, quindi la sinusoide e la tensione sono stabili e senza
spilli di tensione.
La temperatura ambiente raramente supera i 30 gradi (siamo a 1800metri
slm), l'unica cosa che rompe i maroni e' la polvere, rossa finissima che
entra in ogni posto delle macchine (e degli umani :) ) che a volte e'
riuscita a far grippare anche i cuscinetti delle ventole di raffreddamento
dei PC.
Ebbene, mi succede che almeno una o due volte l'anno uno o piu' dischi dei
server, vadano a quel paese.
Ho provato a montare dischi Maxtor, Samsung, Segate, ma anche or ora ho
ricevuto la temuta mail, che il sitema mi invia automaticamente, che il
raid del gateway sta lavorando in modo degradato, cioe' uno dei due dischi
e' andato a quel paese.
Il sever File system e' da piu' di due mesi che lavora con un solo disco e
proprio in questi giorni stavo organizzando la spedizione dei pezzi di
ricambio.
La cosa e' abbastanza noiosa, in quanto i tempi di spedizione
installazione sono lunghissimi, costosi, e sempre a rischio di sparizione
del materiale (giusto l'altro giorno sono venuto a conoscenza del fatto
che l'ultimo container inviato con un carico di PC usati, e' stato
razziato), ed in piu' mi tocca assistere l'addetto alla "manutenzione"
guidandolo passetto per passetto alla sistemazione dell'hardware e del
software. Inoltre non e' che gli africani siano molto sensibili alle
parole "manutenzione" e "backup".
Quindi, per avere un sistema con un MTBF (se serve: Minimum Time Between
Failure :) ) il piu' possibile alto, che marca e tipo di HD mi converrebbe
installare? Sul gateway, non fosse per il costo, sarei tentato di
installare dei dischi "solid state".
Opinioni?
Ciao
Giuseppe
Giovine
2011-02-14 09:51:56 UTC
Permalink
On Sun, 13 Feb 2011 22:18:51 +0100, Giuseppe³
Post by Giuseppe³
Ebbene, mi succede che almeno una o due volte l'anno uno o piu' dischi
dei server, vadano a quel paese.
Non e' per niente normale, no no! Ma di certo non dipende dalla marca
dell'hard disk per quanto scrausa che possa essere, dev'esserci
qualche altro problema.... Non e' che lavorano come se stessi facendo
il defrag 24ore al giorno? :-)
Marco XT
2011-02-15 09:03:43 UTC
Permalink
Post by Giuseppe³
La temperatura ambiente raramente supera i 30 gradi (siamo a 1800metri
slm), l'unica cosa che rompe i maroni e' la polvere, rossa finissima che
entra in ogni posto delle macchine (e degli umani :) ) c
Opinioni?
Ciao
Giuseppe
Ciao,
Penso che sia un problema di raffreddamento, a 1800mt con ben 30°C
l'aria è più rarefatta e la dissipazione del calore è meno efficiente.
A 100mt slm con 15° C la densità dell'aria è di 1,15 Kg/m3, nel tuo caso
siamo intorno agli 0,8 Kg/m3 !!! quindi hai una dissipazione di circa il
35% inferiore. Mettici pure la polvere... e addio HD.
Ti occorrerebbero dei cassetti per HD ventilati con alette in alluminio,
sono dei cassetti che hanno le dimensioni di una vano da 5,25 e
all'interno, circondato da ventole tanto alluminio, installi il tuo hd
da 3,5. In questo modo l'hdd trasmette il calore al grande dissipatore,
che viene raffreddato dalle ventole.
La quota di funzionamento è un parametro importante, provate ad usare un
moderno portatile a 5000mt per più di 10 minuti. :)

Saluti,
Marco
Continua a leggere su narkive:
Loading...