11-12-2007 12:32:35

Op zondag 9 december ontstond om 16.18 uur een storing in het access-netwerk van BIT. Deze storing had tot gevolg dat een aantal servers in de datacenters BIT-1 en BIT-2 gedurende ongeveer 40 minuten onbereikbaar waren. Tussen 17.00 en 18.30 uur zijn servers nog verminderd bereikbaar geweest.

De storing is veroorzaakt door één van de access-switches die gebruikt wordt om servers van klanten op aan te sluiten. Deze switches maken gebruik van het Spanning Tree Protocol (STP) om ervoor te zorgen dat de switches redundant aangesloten kunnen worden zonder dat er loops in het netwerk ontstaan. Eén van deze switches is zich om 16.18 uur incorrect gaan gedragen: foutieve STP-berichten werden naar de andere switches gestuurd. Deze berichten veroorzaakten wijzigingen in de topologie van het access-netwerk, waardoor netwerkverbindingen wegvielen.

Om 17:00 uur is de access topologie doorbroken. Dit had tot gevolg dat er minder redundantie was, maar ook dat er minder wijzigingen in de topologie mogelijk waren. Hierdoor werd het netwerk stabieler. Nadat wij het probleem geïsoleerd hadden tot één specifieke switch en wij deze rond 18:30 uur offline gehaald hadden, is de netwerktopologie gestabiliseerd en werkte internettoegang weer normaal.

Er waren al een aantal beveiligingsmechanismen ingebouwd om dergelijke problemen te ondervangen. Helaas is gebleken dat deze onvoldoende waren om het probleem te voorkomen. Wij zullen in de komende periode een aantal maatregelen nemen om herhaling te voorkomen en eventuele storingen beter op te vangen:

Mocht u vragen hebben naar aanleiding van deze storing, dan kunt u contact opnemen met onze afdeling Customer Care op 0318 648 688 of via support@bit.nl.