(Courriels de diversion: <oblige@grapheme-redoraient.com> <affacturer@relogerez-frise.com> <taira@placa-bas-fonds.com> <repu@graisserez-rattacheriez.com> <ciselent@allegeraient-labouriez.com> <accomplissent@suivantes-refroidisse.com> <catalyserait@attardez-ostracismes.com> <defectueuse@reinstallee-curiste.com> <approximation@inaugurions-charcuterait.com> <encollent@baba-tromperas.com> )


>>>>> "if" == icefield  <utilisateur-masqué@CULTe.org> writes:
  if> puis un code d'erreur généré par le programme powermax
  if> téléchargé sur leur site. Seulement, j'ai effectué les mêmes
  if> tests de détection de panne sur un disque dur (il suffit qu'un
  if> seul disque maxtor soit présent pour qu'il fonctionne), tout
  if> s'est bien déroulé, sans erreurs.

les disques durs modernes sont en effet très peu fiables (évolution
logique vu que la priorité des clients, et donc des fabricants, a été
le volume de stockage, plutôt que la fiabilité). Il est indispensable
de faire des sauvegardes (par exemple en achetant deux disques dont un
sert uniquement aux sauvegardes).

Toutefois, la plupart des disques récents ont des capacités d'auto
test qui leur permettent d'estimer leur durée de vie restante (en
fonction de mesures de bas niveau, tel que le taux d'erreurs CRC
constatés, le nombre de blocs défaillants etc). En suivant l'évolution
de ces diagnostiques, on peut être prévenu que le disque va défaillir,
et prévoir son remplacement. La norme utilisée pour l'interface de
diagnostique s'appèlle SMART; elle est plus ou moins standard entre
fabricants.

Il existe des outils sous Linux qui permettent de consulter ces
informations de diagnostique. Celui que j'utilise s'appèlle
SmartmonTools <URL:http://smartmontools.sf.net/>, paquetage
smartmontools dans Debian. Il donne des résultats du style

,----
| % sudo smartctl -a /dev/sda
| smartctl version 5.1-11 Copyright (C) 2002-3 Bruce Allen
| Home page is http://smartmontools.sourceforge.net/
| 
| Device: SEAGATE  ST318437LC       Version: 0105
| Serial number: 3FA08NLT00007211LSQ1
| Device type: disk
| Local Time is: Tue Jun 24 10:47:20 2003 CEST
| Device supports SMART and is Disabled
| Temperature Warning Disabled or Not Supported
| SMART Sense: Ok!
| 
| Error counter log:
|           Errors Corrected    Total      Total   Correction     Gigabytes    Total
|               delay:       [rereads/    errors   algorithm      processed    uncorrected
|             minor | major  rewrites]  corrected  invocations   [10^9 bytes]  errors
| read:       2516        0         0      2516       2516        170.183           0
| write:         0        0         0         0          0         79.861           0
| 
| Non-medium error count:        0
| 
| SMART Self-test log
| Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
|      Description                              number   (hours)
| # 1  Background short  Self test in progress ...   -   NOW                   - [-   -    -]
| # 2  Background short  Completed                   -  1365                   - [-   -    -]
| # 3  Background long   Completed                   -  1364                   - [-   -    -]
| # 4  Background short  Completed                   -  1364                   - [-   -    -]
| 
| Long (extended) Self Test duration: 815 seconds [13.6 minutes]
`----

La suite inclut un daemon destiné surtout aux serveurs, qui peut
exécuter les diagnostiques régulièrement pour chacun des disques, et
envoyer un courriel à l'administrateur lorsqu'il craint que le disque
va défaillir. Pour les stations de travail, on peut intégrer les
diagnostiques à la phase de boot.

  if> après plusieurs passages de e2fsck, je me retrouve avec un
  if> lost+found emplit de #numéros (les inodes je crois) dans chaque
  if> partition. Certains fichiers sont donc réaparus, mais leurs nom
  if> et emplacement sont inexacts, les répertoires sont nommés aussi
  if> avec #numéros, je n'ai plus qu'à rétablir les noms des fichiers
  if> à la main :\ HAAGHR !

classique: les erreurs du disque ont affecté une zone qui contenait
les metadonnées du système de fichiers (structure des répertoires et
correspondance entre numéro d'inode et données).

  if> Je trouve pas ça terrible, Y -aurait -il une sauvagarde à faire des
  if> correspondances numéros inodes / nom de fichier en vue d'une récupération
  if> de fichiers plus sûre et certaine ? (à part la sauvegarde sur bandes)

la corruption du disque aurait aussi bien pu affecter les données que
la structure du système de fichiers, et généralement on considère que
c'est plus grave comme erreur. Sauf à utiliser des solutions de RAID
(et même là c'est nécessaire), y'a pas d'alternative aux sauvegardes.

-- 
Eric Marsden                          <URL:http://www.laas.fr/~emarsden/>

--------------------------------------------------------------------
Les listes de diffusion occultes: <URL:http://www.CULTe.org/listes/>