LSI 95xx Firmware verursacht Totalausfall - Starline Computer: Storage und Server Lösungen von erfahrenen Experten

Genau unsere Profession

Starline-Experten rotieren nach Störung auf Hochtouren

Controller Firmware verursacht Totalausfall

Eine kurze Geschichte über einen Support-Vorfall, der genau so abgelaufen ist. Zum Wohle des Kunden, haben wir jedoch den Namen entfernt.

Es war an einem Donnerstagabend gegen 21 Uhr, als unser Vertriebsmitarbeiter aus dem Enterprise Storage Solutions Team einen Anruf von seinem guten Kunden erhielt. Es war zwar lange nach Feierabend, aber bei dem guten Vertrauensverhältnis zu diesem Partner ging er natürlich ans Telefon.

Der aufgelöste Kunde berichtete von einem Ausfall in einem eminent wichtigen System: Nach einem Shutdown fand der Produktivserver die SSDs aus dem RAID-Set nicht mehr. Somit 100 Prozent Datenverlust. Supergau! Und zwar für den Kunden, das Systemhaus und auch für Starline. Schließlich haben wir den Ehrgeiz, stets optimalen Support für von uns gelieferte Systeme bereitzustellen.

Gewusst wie

Als erfahrenem Projektmanager war unserem Spezialisten sofort klar, dass es höchst unwahrscheinlich ist, wenn das beschädige RAID-Set durch den gleichzeitigen Ausfall mehrerer Datenträger hervorgerufen worden wäre. Der Fehler musste an einem zentraleren Punkt aufgetreten sein. 

Entwarnung gab bereits der eilig hinzugerufene Starline-Supporter Patrick Weber: Er war sich sicher, dass es sich aufgrund des Fehlerbildes nicht um defekte Laufwerke handeln könne. Der Techniker erwartete, dass sich die Failed-SSDs wieder auf „online“ umstellen und sich dann auch die RAID-Konfiguration reimportieren lasse.

Nach Hinzuziehen mehrerer Support-Experten beteiligter Firmen und dem Diskutieren weiterer Lösungsansätze wurde die Entscheidung zugunsten Patricks Plan getroffen. 

Und siehe da: SSDs, die auf Failed standen, schalteten sofort wieder auf online. Die Festplatten indes reagierten nicht so schnell, so dass hier eine der Hot Spares einspringen mussten. Eine halbe Stunde später jedoch liefen alle RAID-Sets wieder, worauf hin zunächst die DataCore-Virtualisierung folgte und im Anschluss auch die VMs booteten.

Um 23 Uhr war dann auch klar, dass es keine Datenverluste gab und das Gesamtsystem wieder regulär arbeitete. Zu guter Letzt bedankte sich der glückliche Kunde noch bei den Starlinern für ihr Engagement zur außergewöhnlichen Uhrzeit. 

Shutdown

Fazit: Betreuung gut, alles gut.

Wie es sich für einen verantwortungsvollen Distributor gehört, hat Starline selbstverständlich alle Kunden, die diese Controller/HBAs laut Bestellhistorie einsetzen, über dieses Problem informiert und bei der Bewältigung desselben unterstützt.

Epilog

Die Starline-Forensik konnte den Fehler schließlich am Testsystem reproduzieren: Bei dem ursächlich verantwortlichen Broadcom/LSI RAID-Controller konnte es vorkommen, dass er bei einem länger andauernden Shutdown seine Konfiguration verliert. (Das gilt übrigens für alle MegaRAID 95XX Controller sowie HBAs, die auf diesem Chip basieren.) Offenbar eine Unstimmigkeit in der Firmware des Controllers und des PSOC (Programmable System on Chip).

Als Workaround mit der alten Firmware gilt: Systeme mit diesen Controllern oder HBAs sollten niemals ganz heruntergefahren werden. Da dies in den meisten Konstellationen nicht praktikabel ist, sollten betroffene Systeme vorsorglich eine neue Firmware erhalten.

Broadcom empfiehlt die Firmware für MegaRAID-Controller auf mindestens 7.24, die HBAs auf mindestens P26 und den PSOC selbst auf Version 1.25 zu aktualisieren.

Zudem muss bei MegaRAID-Controllern das Profil angepasst werden, sofern nur SAS/SATA Speichermedien eingesetzt werden. (NVME/SAS/SATA-ProfilID (Standard): 30, SAS/SATA-ProfilID: 32).

Service Vorteile

Profitieren Sie von den Storage-Veteranen

user-check
Loyaler Partner

Unsere langjährigen Geschäftsbeziehungen belegen unsere Treue gegenüber Kunden und Lieferanten.

git-pull-request
Viel Erfahrung

Starline ist seit 1982 in der Branche tätig und beherrscht alle Spielarten rund um das Thema Storage. 

check-circle
Voller Service

Es ist ein Vor-Ort-Service oder Vor-Ort-Installation buchbar – auf Wunsch auch innerhalb von vier Stunden (24 x 7 x 4).

Mehr laden

Noch Fragen?

Kontaktieren Sie uns!

AF
Andreas Freisen
Vertrieb

Projektmanager aus dem Enterprise Storage Solutions Team – unseren Spezialisten für Großprojekte.