24-11-2014 09:10:36

BIT draait al weer een tijdje op "nieuwe" NetApp storage. Dat tijdje is inmiddels al weer
meer dan twee jaar. Hoog tijd dus dat we daar eens wat meer over vertellen. NetApp wordt door BIT al meer dan 10 jaar gebruikt voor alle productiestorage. Toen het tijd werd om voor vervanging te zorgen hebben we kritisch rondgekeken naar nieuwe storage oplossingen van verschillende leveranciers. Inmiddels waren er namelijk interessante alternatieven bijgekomen, zoals bijvoorbeeld storage systemen op basis van ZFS.

Uiteindelijk zijn we na grondig onderzoek weer op NetApp uitgekomen. Wat hierin de doorslag heeft gegeven is de betrouwbaarheid van de systemen. Het zijn robuuste filers die, mits goed onderhouden en gemonitord, zeer weinig downtime kennen en zich in de praktijk inmiddels bewezen hebben. Toch hebben we deze keer wel gekozen voor een andere inrichting van de filers. In plaats van één actief en één passief systeem, hebben we gekozen voor twee actieve systemen, in twee aparte, geografisch gescheiden datacenters (BIT-2 en BIT-1) in een Metro Cluster opstelling. Het grootste verschil ten opzichte van de oude setup is dat data verliezen nu nog moeilijker is. Nieuwe data wordt namelijk synchroon weggeschreven in plaats van met een vertraging. Daarnaast wordt de schrijfactie pas als ‘klaar’ bestempeld, als de partner filer hem in zijn (memory backed) NVRAM heeft. De data staat dus altijd in twee aparte datacenters opgeslagen. De data zelf staat op 15K SAS disks of op hybride opslag: 7.2K SATA disks met SSD cache, al naar gelang het best past bij het type workload.

Downtime is geen optie
Een ander groot voordeel ten opzichte van vroeger is dat we onderhoud nu zonder merkbare impact kunnen uitvoeren. De twee filers werken namelijk met elkaar samen. In geval van bijvoorbeeld onderhoud of een storing kan de ene filer de taken van zijn partner filer overnemen: een zogenaamde "take-over". In slechts een paar seconden worden de diensten van de partner filer overgenomen. Deze filer krijgt er als het ware een identiteit bij. Systemen die gebruik maken van deze (gedeelde) opslag merken hier niets van. Dit proces is compleet transparant. Vanaf het moment dat deze nieuwe storage bij BIT draait hebben we, vanwege onderhoud en waarbij een herstart van de filer nodig was, al minstens zes keer zo'n take-over procedure succesvol uitgevoerd. Het grote voordeel hiervan is dat we een storing als het ware nabootsen. Als er een echte storing optreedt weten we dat alles goed geconfigureerd is en kunnen we erop vertrouwen dat alles werkt zoals bedoeld. De bedoeling van deze setup mag duidelijk zijn: downtime tot het minimum beperken. Dat moet ook wel want alle diensten van BIT die gebruik maken van Shared Storage maken hier gebruik van. Tevens leveren we er "storage as a service" op en daarbij is downtime geen optie. Om maar te zwijgen over de vele Virtuele Machines die voor hun storage hiervan afhankelijk zijn.

Virtuele Filers
Ook qua beveiliging is er het nodige verbeterd. Zo maken we bijvoorbeeld gebruik van virtuele filers (vFilers) waarbij de diensten van BIT en klanten volledig van elkaar gescheiden worden.

Continuïteit
Het leveren van storage aan klanten geeft een grote verantwoordelijkheid. Dat betekent regelmatig installeren van benodigde patches en firmware op filers, shelves, disks, fibre channel switches/bridges, et cetera. Om de correcte werking van de storage te monitoren zijn speciaal hiervoor door BIT scripts ontwikkeld. Door het monitoren kunnen we snel detecteren of er onregelmatigheden zijn. Mede hierdoor, en door uitgebreide loganalyses, zijn we al diverse bugs op het spoor gekomen. In samenwerking met onze leveranciers worden deze bugs zo snel mogelijk verholpen zodat deze in de toekomst niet (meer) voor problemen kunnen zorgen. De engineers van BIT doen er dus alles aan om ervoor te zorgen dat de storage "gewoon" blijft werken.