Storing storage systemen

Storing storage systemen

20-10-2019 07:26:12
Status: opgelost

Sinds 06:19 uur ondervinden wij opnieuw problemen met de beschikbaarheid van onze storage systemen. Engineers zijn druk bezig de oorzaak van de verstoring te onderzoeken. Als gevolg hiervan is ons shared Linux hostingplatform verminderd beschikbaar en kunnen klanten die gebruik maken van shared storage van BIT problemen hieraan ondervinden.


Update geplaatst om 07.29
De instabiliteit op ons storage systeem is weer opgelost. Het systeem is weer online sinds 06:54 uur. Het is duidelijk dat we tegen een bug aan lopen op de Ceph MDS servers. Diensten die gebruikmaken van Cephfs ondervnden daar hinder van. Het is nog niet duidelijk waar de bug door veroorzaakt of door getriggerd wordt. Onze engineers doen nog onderzoek hiernaar. Onderzoek wordt bemoeilijkt doordat de bug niet optreed wanneer we debugging aan hebben staan, ook wel een Heisenbug genoemd.


Update geplaatst om 10.44
We gaan configuratie aanpassingen maken om te zien of we hiermee kunnen voorkomen dat we tegen de bug aanlopen, en indien dat toch gebeurd, dat we het filesysteem sneller weer online kunnen krijgen. Dit kan een negatieve impact hebben op de performance, en zal gedurende de tijd dat we met de aanpassingen bezig zijn resulteren in het niet beschikbaar zijn van het filesysteem.

Update geplaatst om 12.36
De wijzigingen zijn actief. We hopen hiermee de stabiliteit te verhogen. Er is impact op performance, maar deze lijkt vooralsnog acceptabel.


Update geplaatst op 21-10-2019 om 7.50
Helaas zien wij nu toch opnieuw problemen optreden met de beschikbaarheid van de storage systemen. Er worden verdere aanpassingen gedaan om de stabiliteit te verhogen.


Update geplaatst om 8.03
Om 7.54 uur was het platform weer stabiel.


Update geplaatst om 8.31
Helaas zien wij toch nog met enige regelmaat instabiliteit optreden. Engineers zijn nog steeds druk bezig om dit probleem verder te analyseren en waar mogelijk aanpassingen te doen die de stabiliteit verhogen.
Update geplaatst om 11.08
Rond 10.45 uur is er een fix, die ons door de Cephfs developers is geadviseerd, uitgerold op het cluster. Aangezien we het cluster onregelmatig instabiel zagen worden, is er nu nog geen absolute zekerheid dat deze fix de instabiliteit definitief voorkomt. Onze engineers blijven het cluster nauwgezet monitoren.
Update geplaatst om 17.25
De fix die door de Cephfs ontwikkelaars is aangedragen heeft de instabiliteit uit het cluster gehaald. Deze fix pakt echter de onderliggende oorzaak van het probleem niet aan. Er wordt op dit moment gewerkt aan een wijziging die ervoor zorgt dat duidelijk wordt wat de instabiliteit veroorzaakt. Daarna kan er aan de onderliggende oorzaak gewerkt worden. In een nog aan te kondigen spoedonderhoud zal deze wijziging uitgerold worden.

Het incident is opgelost. Heeft u vragen over dit incident, neem dan contact op met de afdeling Customer Care via +31 (0)318 648 688 of via support@bit.nl.