Achtergrond bij de netwerkstoring op 9 december

Achtergrond bij de netwerkstoring op 9 december

11-12-2007 12:32:35

Op zondag 9 december ontstond om 16.18 uur een storing in het access-netwerk van BIT. Deze storing had tot gevolg dat een aantal servers in de datacenters BIT-1 en BIT-2 gedurende ongeveer 40 minuten onbereikbaar waren. Tussen 17.00 en 18.30 uur zijn servers nog verminderd bereikbaar geweest.

De storing is veroorzaakt door één van de access-switches die gebruikt wordt om servers van klanten op aan te sluiten. Deze switches maken gebruik van het Spanning Tree Protocol (STP) om ervoor te zorgen dat de switches redundant aangesloten kunnen worden zonder dat er loops in het netwerk ontstaan. Eén van deze switches is zich om 16.18 uur incorrect gaan gedragen: foutieve STP-berichten werden naar de andere switches gestuurd. Deze berichten veroorzaakten wijzigingen in de topologie van het access-netwerk, waardoor netwerkverbindingen wegvielen.

Om 17:00 uur is de access topologie doorbroken. Dit had tot gevolg dat er minder redundantie was, maar ook dat er minder wijzigingen in de topologie mogelijk waren. Hierdoor werd het netwerk stabieler. Nadat wij het probleem geïsoleerd hadden tot één specifieke switch en wij deze rond 18:30 uur offline gehaald hadden, is de netwerktopologie gestabiliseerd en werkte internettoegang weer normaal.

Er waren al een aantal beveiligingsmechanismen ingebouwd om dergelijke problemen te ondervangen. Helaas is gebleken dat deze onvoldoende waren om het probleem te voorkomen. Wij zullen in de komende periode een aantal maatregelen nemen om herhaling te voorkomen en eventuele storingen beter op te vangen:

  • de switch die het probleem veroorzaakte is uit productie genomen. We gaan onderzoeken of het probleem software- of hardwaregerelateerd is. Afhankelijk van de uitkomsten hiervan bepalen wij of er verdere stappen nodig zijn op onze andere klantenswitches;
  • we zullen de Spanning Tree configuratie van de verschillende access-switches gaan aanpassen zodat dergelijke corruptie sneller geïsoleerd kan worden tot de problematische switch, zonder dat deze de topologie van het totale access-netwerk verstoort;
  • tijdens de storing was onze telefooncentrale gedurende enige tijd onbereikbaar. Wij zullen een aantal aanpassingen in onze telefooncentrale doen om ervoor te zorgen dat de beschikbaarheid van dit telefoonnummer verhoogd wordt;
  • we zullen onze interne procedures bij incidenten evalueren en waar mogelijk verbeteren;
  • we zullen onze monitoringsystemen uitbreiden om dergelijke problemen sneller te detecteren en te escaleren naar engineers;
  • we zullen de mogelijkheden om van buiten het BIT-netwerk wijzigingen uit te voeren bij dergelijke problemen vergroten. De toegang tot het netwerk voor onze engineers in het geval van storingen wordt verbeterd.

Mocht u vragen hebben naar aanleiding van deze storing, dan kunt u contact opnemen met onze afdeling Customer Care op 0318 648 688 of via support@bit.nl.

Meldingen