‘Tijd van hardwarematige redundantie is echt voorbij’

Microsoft

De hyper-scale datacenters die grote web-bedrijven als Apple, Google en Microsoft momenteel bouwen, geven een interessant beeld van de toekomst. Ze zijn extreem gestandaardiseerd en regelen nagenoeg alles via software. Voorbij zijn daarmee ook de tijden dat ieder datacenter op hardwarematig wijze in zijn eigen redundantie voorzag. “We kennen in onze datacenters nu nog wel voorzieningen als UPS-systemen”, zo stelt Erik Jan van Vuuren (Azure Lead bij Microsoft Nederland), “maar die gaan de komende jaren ongetwijfeld verdwijnen.” Van Vuuren verzorgt een van de keynote-presentaties tijdens de komende editie van IT Room Infra.

Iedereen kent inmiddels wel de trends die de bouw van enorme datacenters noodzakelijk hebben gemaakt. Denk aan online gaming, de snelle groei van het gebruik van cloud-applicaties en online video. En dan moet het Internet of Things eigenlijk nog op gang komen. Een groeiend aantal aanbieders bouwt daarom hele series datacenters die dit soort applicaties ondersteunen. Wie echter tientallen datacenters bouwt, gaat ook goed kijken naar de werkwijze die hierbij het beste gevolgd kan worden. Klassieke ontwerp- en bouwmethoden kennen immers belangrijke nadelen. Het kost veel tijd, er worden vaak per datacenter specifieke ontwerpen gebruikt en het beheer van de opgeleverde faciliteiten vergt relatief veel mankracht. Dat is duur en maakt de kans op fouten onnodig groot.

Optimaliseren

Het moet dus anders. “Aanbieders als Microsoft investeren de laatste jaren dan ook veel geld in het optimaliseren van het ontwerp en de uitrol van datacenters Traditionele datacenters hebben minimaal een SLA van 99.999%, zo ook de Microsoft datacenters. Echter wordt het belang van de 5 negens steeds minder doordat redundantie in de software wordt gebouwd en toepassingen gebruik maken van multidatacenter oplossingen”, vertelt Erik Jan van Vuuren. Hij is Azure Lead bij Microsoft in Nederland en staat daardoor heel dicht bij de dienstverlening die het concern zijn klanten vanuit de cloud aanbiedt. “We zien dat die investeringen geleid hebben tot een aantal generaties van datacenters met een aantal opmerkelijke ontwikkelingen. Traditionele datacenters - wij spreken intern vaak van generatie 2 - kenden een beschikbaarheid van 99,999%. Dat was vastgelegd in een SLA (service level agreement). Die beschikbaarheid werd fysiek geregeld door een N+2-architectuur toe te passen. Alle belangrijke componenten en installaties werden hierbij dus dubbel uitgevoerd. Hierdoor konden we een Tier 3- of Tier 4-classificatie realiseren.”

“Bij generatie 3 zien we dat een datacenter al enigszins een commodity begint te worden. Er wordt gewerkt met gestandaardiseerde modules waardoor als het ware een datacenter-in-a-box ontstond. Het grote voordeel was schaalbaarheid. Door simpelweg containers bij te plaatsen, konden we heel snel extra capaciteit beschikbaar maken. Hierbij dachten we echter nog steeds in termen van datacentercapaciteit. En dat klopt natuurlijk niet. Want het product dat wij onze gebruikers aanbieden, is niet zozeer een datacenter, maar juist een service. Denk aan Office 365, maar ook aan online gaming of een SaaS-applicatie die via Microsoft Azure wordt geleverd.”

Geo-redundancy

Bij generatie 4 draait het om een aanpak die Van Vuuren ‘service geo-redundancy’ noemt. “We zijn heel anders naar redundantie gaan kijken. Twee dingen vallen hierbij op. Allereerst is het fenomeen ‘datacenter' nu een commodity geworden. We denken in groepen of clusters van datacenters - binnen Microsoft noemen we dat datacenter-regio’s - die gezamenlijk verantwoordelijk zijn voor het beschikbaar zijn van een service in een bepaalde geografische regio. Deze datacenters zijn softwarematig aan elkaar gekoppeld. Dit betekent dat de beschikbaarheid van een individueel datacenter ineens minder belangrijk is geworden. Vandaar dat de SLA’s waarmee we werken uit gaan van een gewenste beschikbaarheid die is gezakt van 5x9 naar 3x9 ofwel 99,9%. Een datacenter-regio bestaat bij Microsoft uit 16 datacenters. Een storing in één datacenter is natuurlijk nog steeds vervelend, maar doordat een groep van 16 datacenters heel nauw samenwerkt wordt de impact van zo’n storing op de totaal beschikbare capaciteit door de andere datacenters opgevangen. Anders gezegd: een storing in één datacenter zal geen invloed hebben op de beschikbaarheid of de prestaties van de service.”

Software-defined datacenter

Storingen worden dus binnen een groep van datacenters opgevangen en niet langer binnen iedere individuele faciliteit. Van Vuuren: “Nu zien we nog dat veel Microsoft-datacenters voorzien zijn van bijvoorbeeld eigen UPS-systemen. Er komt nu echter een volgende generatie aan - en dat is de tweede belangrijke ontwikkeling die ik wil aanstippen - waarbij dit niet langer noodzakelijk is. Alle redundantie wordt straks softwarematig geregeld. Noemt het maar het software-defined datacenter. Of misschien nog wel beter: software-defined datacenter-regio's of -clusters.”

Maar ook binnen individuele datacenters zien we belangrijke ontwikkelingen. Uit kostenoverwegingen, maar ook om een eenvoudige fail-over van een workload of applicatie van het ene datacenter naar het andere mogelijk te maken, is een verregaande standaardisatie ontstaan. Gezien de enorme investeringen die nodig zijn om voldoende capaciteit op te bouwen, wordt het ontwerp almaar verder aangepast. De kosten voor het aanschaffen van een datacenter - ze rollen bij Microsoft min of meer kant-en-klaar uit de fabriek - gaan hierdoor omlaag, maar dat geldt ook voor de gebruikskosten. Wie bijvoorbeeld de PUE-waarden ziet van de eerder genoemde datacenter-generaties, ziet dat deze zeer snel omlaag komen (zie figuur 1). Was bij een traditioneel datacenter met een PUE van 2 de IT-apparatuur verantwoordelijk voor de helft van het energiegebruik, tegenwoordig ligt de PUE bij Microsoft’s meest recente datacenter-ontwerpen tussen 1.07 en 1,19.

Figuur 1. De snelle verbetering van de PUE binnen Microsoft’s datacenters.

Open Compute

Van Vuuren: “Dat is het gevolg van drie belangrijke ontwikkelingen. Offline UPS-technologieën helpen om elektrische verliezen drastisch terug te dringen. We werken daarnaast met veel hogere temperaturen waardoor de kosten voor koeling - grotendeels op basis van vrije koeling - zich richting nul bewegen. En tenslotte passen we virtualisatie toe om de IT-belasting van datacenters te optimaliseren, waarbij we heel actief de vraag naar en de beschikbaarheid van energie beheren.”

Microsoft heeft in zijn nieuwste datacenters een situatie bereikt waarbij 71% van de energie die het datacenter gebruikt ook daadwerkelijk ten goede komt aan IT-systemen. Daarmee is het dus ook zaak om de prestaties van de IT-kant van het datacenter verder te verbeteren. Ook hier zien we dat hyper-scale datacenters steeds meer het heft in eigen hand nemen. Standaard servers en storage voldoen niet aan de eisen van dit soort datacenters ten aanzien van kosten per systeem, de beheersinspanningen die nodig zijn, maar ook niet als het gaat om prestaties. Daarom zien we bedrijven als Microsoft intern maar ook gezamenlijk via onder andere organisaties als Open Compute nieuwe ontwerpen bedenken waardoor per eenheid compute meer verwerkingscapaciteit beschikbaar komt en de kosten omlaag gaan.

Minimaliseren

“Binnen Microsoft zien we op dit gebied drie belangrijke ontwikkelingen. Allereerst werken we hard aan het optimaliseren van de configuraties waarmee we werken. Iedere systeemcomponent die niet strikt noodzakelijk is, wordt hierbij verwijderd. We beperken ook heel bewust de grootte per systeem. Dus denk aan het aantal cpu’s, slots en dergelijke per server. Daarnaast kijken we heel goed naar de power supplies. Als we die goed afstemmen op de daadwerkelijke behoefte, kunnen we belangrijke besparingen realiseren.”

“Daarnaast zien we tal van ontwikkelingen die bedoeld zijn om de efficiency verder op te voeren. We kiezen bij voorkeur voor componenten met een hoge efficiency. En bijvoorbeeld processoren die een laag energieverbruik kennen. Ook worden de ontwerpen van servers en storage-systemen nadrukkelijk afgestemd op hogere omgevingstemperaturen. Verder optimaliseren we power en koeling per rack of ITPAC (standaard module).”

Nieuwe technologieën

“Tenslotte proberen wij optimaal gebruik te maken van nieuwe technologieën. Denk aan flash memory, system-on-a-chip, nieuwe generaties energie-efficiënte CPU-cores en de mogelijkheden die geboden worden door ontwikkelingen als power capping. Dat laatste heeft natuurlijk weer alles te maken met het feit dat wij zeer actief beheer voeren over vraag en aanbod van energie in onze datacenters. Door voor bepaalde services of systemen actief de hoeveelheid energie die we beschikbaar stellen af te toppen, kunnen we besparingen realiseren maar hebben we bovendien op andere plaatsen weer meer energie beschikbaar.” In figuur 2 wordt een beeld geschetst van de manier waarop Microsoft naar het energieverbruik van datacenters kijkt.

Figuur 2. De huidige energy supply chain is allesbehalve efficiënt.

De komende jaren gaan we ongetwijfeld nieuwe generaties datacenters van Microsoft zien. Hierbij dient in de visie van Microsoft hyper-scale ook te leiden tot hyper-efficiency. Een paar van de ontwikkelingen die hierbij toegepast zullen worden, kan Van Vuuren al wel noemen (figuur 3). “Allereerst zullen we veel ontwikkelingen gaan zien ten aanzien van wat wij wel de energy supply chain noemen. Die is nu inefficiënt, waarbij onnodig veel energieverliezen optreden. Wij denken aan het concept van een dataplant, waarbij het opwekken van energie en het produceren van data - zeg maar: de IT-taak van het datacenter - met elkaar geïntegreerd zijn. Dat leidt tot veel minder verliezen - zowel energetisch als financieel - en levert een veel grotere efficiency op.”

Figuur 3. Nieuwe ideeën om de energy supply chain te verbeteren zullen tot veel minder energetische verliezen leiden.

Robbert Hoeffnagel