Storing klantenstorage en VM's

Storing klantenstorage en VM's

17-12-2014 12:26:01 - 19-12-2014 11:43:01
Status: opgelost

Er is zojuist een probleem opgetreden aan onze omgeving voor klanten-storage en klanten-VM's.

Dit probleem is in onderzoek bij onze engineers.

Volg de incidentmelding op onze website voor updates inzake dit incident.
Update geplaatst om 12:46
Bij een geforceerde failover naar de andere filer in het metrocluster is ook die filer onbereikbaar geworden. Daardoor was ook bit.nl onbereikbaar. Storingsmeldingen worden bij onbereikbaarheid van bit.nl op bit.org geplaatst. Eén van de filers is weer beschikbaar gekomen en daarmee ook bit.nl. De oorzaak en impact van de storing is nog in onderzoek.
Update geplaatst om 12:56
Engineers van BIT zijn aan het werk om alle diensten terug online te krijgen.
Update geplaatst om 13:00
Er wordt gesproken met NetApp TAC over deze storing. De meeste diensten, behalve windows webruimtes, zijn weer beschikbaar.
Update geplaatst om 13:04
Eén van de twee filers in het MetroCluster is beschikbaar, dat betekent dat de storage nog niet redundant beschikbaar is.
Update geplaatst om 13:27
Specialisten van de storageleverancier zijn gearriveerd en hebben samen met BIT engineers de oorzaak in onderzoek.
Update geplaatst om 13:37
Totdat duidelijk is wat de oorzaak is van de storing, zal het cluster niet redundant gemaakt worden. Dit zou namelijk kunnen leiden tot het opnieuw triggeren van de oorzaak. Alle diensten, behalve windows webruimtes, zouden weer beschikbaar moeten zijn. Neemt u contact met ons op als u nog problemen ervaart.

Update geplaatst om 14:09
Ook de windows webruimtes werken weer. Neemt u contact met ons op als u nog problemen ervaart.


Update geplaatst om 15:51
De leverancier heeft een eerste analyse van de crashdumps gemaakt en heeft geconcludeerd dat de storing niet hardware-gerelateerd is. Ook zien zij dat er geen relatie is tot de high availability functionaliteit. Daarom is zojuist de redundantie van het cluster weer ingeschakeld. Tevens heeft de leverancier een bug geïdentificeerd bij het oveschakelen tussen de twee filers die de storing op de tweede filer verklaart.


Update geplaatst om 17:30
Op dit moment is het metrocluster stabiel. In beide filers van het cluster is echter nog één disk met problemen. Hiervoor worden spare disks ingezet. Deze disks moet opnieuw in het cluster opgenomen worden, dit zal in totaal ongeveer 10 uur in beslag nemen. Tot die tijd zijn er géén problemen met de filers, er is alleen verminderde redundantie in ieder van de filers. Data wordt altijd op beide filers opgeslagen en is dus nog steeds redundant beschikbaar. Engineers van BIT blijven op lokatie totdat het metrocluster volledig in normale status is om snel te kunnen ingrijpen bij problemen.


Update geplaatst om 22:28
De oorzaak van het probleem is gevonden. Het probleem blijkt disk gerelateerd te zijn. Er zijn drie disken geïdentificeerd die vervangen moeten worden. We zullen de disken één voor één vervangen. We gaan echter na het vervangen van de eerste disk een aantal tests uitvoeren om er zeker van te zijn dat dit het probleem verhelpt én dat we er zeker van zijn dat het probleem niet nog een keer kan optreden.


Update geplaatst om 23:42
Na het vervangen van de eerste disk en de testen die we gedaan hebben blijkt dit helaas niet het gewenste resultaat te geven. We zijn nu weer in overleg met de leverancier en zoeken verder naar een oplossing voor dit probleem. 


Update geplaatst om 04:44
We hebben met NetApp Technical Support uitgebreid getroubleshoot. We zullen nu nog een aantal testen uitvoeren om zeker te weten dat we de oorzaak geïdentificeerd hebben. Zodra deze testen gedaan zijn zullen we onderhoud gaan uitvoeren. Wat de impact van dat onderhoud zal zijn zal in een nieuwe update worden aangekondigd.


Update geplaatst om 07:00
We hebben met NetApp Technical Support een plan opgesteld en dat wordt nu uitgevoerd. Uit alle testen blijkt nu dat we hiermee de problemen kunnen oplossen. Zodra alle handelingen en testen zijn doorlopen zullen we een nieuwe update plaatsen.


Update geplaatst om 08:12
Alle werkzaamheden om de volledige redundantie te herstellen, en alle benodigde controles om dit te bevestigen zijn succesvol geweest. Het NetApp MetroCluster is weer volledig redundant.


Update geplaatst om 11:16
Onze storage leverancier heeft alle logs geanalyseerd en heeft geen afwijkingen meer gevonden. Omdat we echter zeker willen weten dat het NetApp MetroCluster functioneert zoals het zou moeten (voor het geval van onderhoud / storing) zullen we de MetroCluster-werking gaan controleren. Hiertoe zullen we vrijdagochtend 19 december om 08.30 uur een spoedonderhoud gaan uitvoeren. Dat zal een "takeover / giveback" zijn van de vfilers van NetApp2. We verwachten geen impact, maar er is wel een verhoogde kans daarop. Dit spoedonderhoud zal nog apart van deze melding worden aangekondigd.


Update geplaatst om 19-12-2014 11:41
De takeover / giveback test van vanochtend is succesvol afgerond. Binnenkort verschijnt in de nieuws sectie op deze site een RFO.