Echec remplacement disque sur MD1000 (garantie dépassée)

Stockage

Stockage
Rejoignez les conversations sur produits Dell dédiés au stockage.

Echec remplacement disque sur MD1000 (garantie dépassée)

Cette question a été répondue par Dell-Stephane T

Configuration : serveur de fichiers (NFS, Samba ...) :
PowerEdge1950 + MD3000 (15 disques SATA) + MD1000 (15 disques SAS)
2 groupes de disques sur MD3000: RAID 5 (1 à 7 et 8 à 14) + secours (0)
1 groupe  de disques sur MD1000: RAID 5 (0 à 13) + secours (disque 14)

Historique des évènements:
- nombreux messages indiquant une panne imminente du disque 0 du MD1000
- on met hors service le disque 0 avec la commande SMcli:
  set physicalDisk[1,0] operationalState=failed;
- le disque de secours 14 se met automatiquement en service et
  la reconstruction du RAID commence ... (plusieurs heures d'attente)
- avec le Modular Disk Storage Manager MDSM (depuis un autre serveur)
  je constate que la reconstruction s'est bien déroulée.
  dans le "Recovery Guru" l'action de maintenance (retrait) est autorisée
- retrait du disque 0 (remplacé par un cache) c'est un
  Barracuda ES.2 SAS 1To 7200t/m : ST31000640SS
  (Remarque: d'autres disques du meme groupe sont des
  Constellation ES : ST1000NM0001 )
- je pensais avoir un disque d'avance mais c'est un SATA, donc demande
  de devis Dell pour disque équivalent, puis commande ...
  (nombreux jours d'attente).
- réception d'un disque Constellation ES.3 : ST1000NM0023

- d'après les informations lues dans l'aide en ligne du MDSM il suffit
  d'insérer le nouveau disque pour que se déclenche automatiquement
  une copie du disque 14 vers le 0 ; en fin de copie le 14 redeviendra
  le disque de secours.

Problème après insertion du nouveau disque en 0:
- la "status LED" du disque (à droite) ne s'allume pas, alors que
  l"activity LED" (à gauche) est vert fixe.
- en moins d'une minute la baie de stockage se plante :
  tous les disques du MD3000 s'éteignent;
  je n'arrive plus à atteindre la baie avec le MDSN (lancé sur un autre
  serveur que le serveur hote).
  Bref, gros soucis, obligé de retirer le disque 0 et redémarrer le PE1950
- maintenant tout remarche, mais il manque toujours le disque 0, et
  le MDSM indique que la matrice de stockage n'est pas optimale.

D'où les questions:
- Fallait-il faire quelque chose de particulier avant de mettre le disque ?
- pourquoi la diode status ne s'allume pas ?. Est-ce que cela
  signifie que le disque ST1000NM0023 envoyé par Dell n'est pas reconnu ?
- meme si c'est le cas, est-ce normal que la matrice de stockage
  se bloque ?

Je suis preneur de toutes suggestions des spécialistes MD1000, et les remercie.

Réponse vérifiée
  • Bonjour,

    si vous n'avez pas de serveur pour contrôler la version actuelle du firmware du nouveau disque, vous ne pourrez de toute façon pas le mettre à jour ou le downgrader, la baie ne supportant toujours pas ce disque malgré les mises à jour contrôleur.

    Il ne vous reste plus qu'a contacter votre commercial pour vous faire remplacer ce disque par une autre référence.

    Cordialement,
    Stéphane

Toutes les réponses
  • bonjour,

    pourriez vous me communiquer en privé le service tag de la MD3000?

    Cordialement,
    Stéphane

  • Bonjour,

    il est fort probable que le firmware du nouveau disque soit trop récent par rapport au firmware des contrôleurs de la baie ce qui à provoqué sont reboot en boucle et le fait que tous les disques de la baie ne soient plus accessible.

    il faudrait donc par étape :

    - s'assurer que tous vos VD sont en état optimal
    - mettre à jour le firmware des contrôleurs de la baie
    - consulter les notes de mise à jour du firmware de la baie pour vérifier la version "maximale" de firmware supportée pour le ST1000NM0023
    - mettre le nouveau disque dur dans un serveur pour déterminer la version actuelle de son firmware
    - si nécessaire downgrader ou upgrader(optionnel) le firmware du disque pour qu'il corresponde au maximum à celui attendu dans la note de mise à jour.

    Mettre le nouveau disque dans la baie pour que la reconstruction du disque 0 ai lieu et rende le disque 14 disponible comme disque de secours.

    Cordialement,
    Stéphane

  • Merci pour votre réponse.

    Effectivement le firmware des controlleurs RAID du MD3000 n'est pas à jour (07.35.22.61).

    Je vais donc commencer par faire des sauvegardes, puis suivre vos recommandations; ceci va prendre beaucoup de temps.

    Je reviendrai vers vous pour vous tenir informé du résultat.

  • Bonjour,

    Après avoir effectué des sauvegardes et stoppé le serveur hote, j'ai utilisé le MDSM depuis un autre serveur (donc en "out of band") pour :

    - vérifier que les disques virtuels sont en état optimal : OK

    - vérifier le micrologiciel du MD1000 =>  A04 : OK

    - mettre à jour le firmware des controlleurs RAID en 07.35.39.64 : OK

    - mettre à jour du firmware de la NVSRAM en N133X-735890-005 : OK

    Mais après insertion du nouveau disque il n'est pas reconnu (... idem précédemment).

    Je l'ai retiré et ai remis le serveur en production.

    D'après ce que vous avez écrit, il pourrait y avoir un problème de firmware du disque.

    Une étiquette sur le nouveau disque indique : FW : 0006

    et j'ai aussi trouvé un autre ST1000NM0023  (qui n'est pas non plus reconnu) avec FW : 0003

    Dans ce fichier trouvé sur votre site :

    A25_MD3000x_HDD_Firmware_ReadMe.txt

    la version est indiquée par des lettres + chiffres : GS13

    donc je ne comprends pas la correspondance avec ce qui est indiqué sur les disques .

    Pouvez-vous m'éclairer sur ce point , svp ?

  • Bonjour,

    Je ne pense pas que 0003 corresponde à la référence actuelle de votre disque (généralement codé sur 2 lettres et deux chiffres)

    Pour pouvoir vérifier le firmware de votre nouveau disque, le spécialiste stockage m'avait conseillé de brancher le nouveau disque dans un serveur pour pouvoir le consulter via OpenManage ou un DSET.

    Ensuite si le firmware de votre disque est trop récent, il va falloir le downgrader la la version indiqué dans le read me de la baie (apparement GS13). 

    Je reste à votre disposition.

    Stéphane

  • Bonjour,

    J'ai été occupé à d'autres choses, c'est pourquoi je réponds seulement maintenant.

    Je n'ai malheureusement pas d'emplacement 3.5 pouces de libre sur mes serveurs. Mais j'ai installé une carte SAS (LSI 9212) dans un PC sur lequel j'ai téléchargé le logiciel SeaTools de Seagate. Ceci a permis de voir les caractéristiques des disques ST1000NM0023

    - pour celui fournit par Dell (avec étiquette FW: 0006) SeaTools affiche les informations suivantes (entre autres):

    Révision du produit: 0006

    Numéro de série: Z1W5TMN4

    Numéro de version du firmware: 01130006

    Numéro de version Servo RAM: 2014C860

    Date de version: C860

    ...

    - pour l'autre disque (avec étiquette FW: 0003) :

    Révision du produit: 0003

    Numéro de série: Z1W0JF7B

    Numéro de version du firmware: 03290003

    Numéro de version Servo RAM: 2012C84C

    Date de version: C84C

    ...

    Donc il n'y a pas 2 lettres + 2 chiffres pour les firmware. J'avoue etre perdu dans ces histoires de version de firmware.

    Remarque : le ST1000NM0023 est bien présent dans le fichier

    A25_MD3000x_HDD_Firmware_ReadMe.txt  concernant le MD3000, mais pas dans la "Support matrix" du fichier pdf  Power Vault MD1000 service manual que j'ai ; il est vrai que celui-ci date d'avril 2010. Existe t'il une version plus récente ?

  • Bonjour,

    si vous n'avez pas de serveur pour contrôler la version actuelle du firmware du nouveau disque, vous ne pourrez de toute façon pas le mettre à jour ou le downgrader, la baie ne supportant toujours pas ce disque malgré les mises à jour contrôleur.

    Il ne vous reste plus qu'a contacter votre commercial pour vous faire remplacer ce disque par une autre référence.

    Cordialement,
    Stéphane