RAID5 array troubleshooten met Smart Storage Admin (ssacli)

Wanneer je op een HPE Proliant een VMware custom image van HPE hebt gezet, beschik je over de smartstorageadmin tooling.

De omgeving van steijvers.com was getroffen door een probleem met de schijfopslag. Ineens konden de servers niet meer gevonden worden op het raid5 array. Logicaldrive 1 (16.37TB, RAID 5): Failed

Aangezien ik via de Lights-Out poort problemen had om de console in beeld te krijgen (iets met browser updates en compatibiliteit met iLO) en toch de backups voor handen had, was de keuze om het array opnieuw aan te maken en de boel terug te halen uit de backup.

De fysieke disks waren namelijk healty, enkel de logical disk op het array was stuk.

Deze gehele situatie wijst nog maar eens op het belang van goede backups. Hierdoor was het eenvoudig om alles weer op de rit te krijgen.

Achteraf had ik me meer tijd kunnen besparen, toen ik tijdens het restoren aan het zoeken kwam ik erachter dat bij de het type raid controller (Smart Array P410) een sneller optie bestaat. Verwijder een van de disks voor 10+ seconden, en geef dan via de ESXCLI het onderstaande commando:

/opt/smartstorageadmin/ssacli/bin/ssacli ctrl slot=1 ld 1 modify reenable forced

Hiermee had ik de logicaldrive 1 wederom op status OK kunnen krijgen en waren alle VM’s meteen weer beschikbaar geweest.

Ook voor andere troubleshooting op je RAID controller kun je terugvallen op ssacli. Deze ssacli gaan we gebruiken om informatie op te halen, die je niet uit de iLO van je proliant kunt halen. Status Raid controller opvragen (detailed)

/opt/smartstorageadmin/ssacli/bin/ssacli ctrl slot=0 show detail

Status fysieke disks opvragen:

/opt/smartstorageadmin/ssacli/bin/ssacli ctrl slot=0 pd all show detail

Status logical disks opvragen:

/opt/smartstorageadmin/ssacli/bin/ssacli ctrl slot=0 ld all show detail

ADU report genereren:

/opt/smartstorageadmin/ssacli/bin/ssacli ctrl all diag file=/
tmp/ADUreport.zip ris=on xml=on zip=on

Dit ADU report is uitgebreid en ideaal om aan te leveren aan een HPE support om beroep op een carepack te doen.

zoek bijvoorbeeld op errors logged in het report