28-02-2008 12:31:46

In week 7 hebben zich een viertal korte storingen voorgedaan aan de switches in het core netwerk van BIT tussen Ede en Amsterdam. Tijdens deze storingen werden de verbindingen tussen de vier lokaties (BIT-1, BIT-2, SARA en Telecity 2) volledig belast, waardoor er packetloss ontstond op deze verbindingen en TCP sessies verbroken konden worden. Deze maximale belasting ontstond door een loop in het netwerk.

De Extreme switches die BIT gebruikt maken gebruik van het EAPS protocol om dergelijke loops in het netwerk te voorkomen. Dankzij EAPS wordt één van de vier paden in de ring tussen de switches onderbroken. Bij deze storingen werkte dit protocol echter niet correct met een loop als gevolg. Door handmatig een van de switchpoorten op de ring uit te zetten konden we de loop onderbreken waarmee het probleem direct opgelost werd.

Na uitgebreid onderzoek en overleg met onze leverancier bleek deze storing veroorzaakt te worden door een fout in de software van de switches. Door deze software fout kreeg het proces wat verantwoordelijk is voor het correct functioneren van EAPS te weinig CPU tijd als andere processen op hetzelfde moment veel CPU tijd nodig hadden, met als gevolg dat het onderbroken pad opengezet werd en er een loop ontstond.

Inmiddels hebben wij van Extreme nieuwe softwareversie ontvangen waarin deze softwarebug opgelost is. Deze software is tijdens een spoedonderhoud op vrijdag 15 februari op de switches geinstalleerd. Sinds deze softwareupgrade is het netwerk stabiel gebleven.