Google laat DeepMind koelinstallaties beheren

googlecbf009

AI zorgt voor 40% lager energieverbruik

Artificial intelligence wordt al geruime tijd toegepast om patronen te herkennen in grote hoeveelheden data. Daarbij kan het gaan om bijvoorbeeld het opsporen van fraude in bancaire transacties of het doorzoeken van logdata in een grote en complexe manufacturing plant. Google past AI nu ook toe in zijn datacenters. Het effect? Maar liefst 40% lager energiegebruik voor koeling.

Van hyperscalers als Facebook, Microsoft en Apple weten we dat zij veel geld investeren in het almaar verder verbeteren van de beschikbaarheid van hun datacenters. Dat doen zij

bijvoorbeeld via open source-projecten als Open Compute Project of Open19, een initiatief van LinkedIn. Maar ook de kosten houden zij scherp in de gaten. Logisch natuurlijk, want wie beschikt over tientallen datacenters met per faciliteit 100.000 of meer servers krijgt ook te maken met zeer forse bedragen voor bijvoorbeeld beheer en onderhoud.

PUE 1,12 verbeteren

Ook de dagelijkse operatie kost echter veel geld. Met name het energieverbruik mag zich dan ook al heel lang verheugen in een grote belangstelling van hyperscale datacenters. Door in eigen beheer IT-hardware te ontwikkelen, maar bijvoorbeeld ook eigen designs voor racks zijn dit soort multinationals al in staat gebleken het energieverbruik en dus de kosten die zij hiervoor moeten maken omlaag te brengen. Google haalt nu bijvoorbeeld in Europa al een PUE van 1,12.

Hierbij hebben de hyperscalers tot nu toe slechts mondjesmaat artificial intelligence toegepast. Daarin lijkt nu verandering te komen. DeepMind, een Britse dochteronderneming van Google, heeft inmiddels een blog gepubliceerd waarin men beschrijft hoe men de AI-technologie van dit bedrijf heeft ‘losgelaten’ op de koelinstallatie van een datacenter. Het idee hierachter is dat in de grote hoeveelheden logdata die een datacenter voortbrengt tal van patronen zitten die we tot nu toe vaak niet kennen. Door AI deze data te laten analyseren en patronen te laten opsporen, zouden wel eens interessante verbanden gevonden kunnen worden.

Gedrag bestuderen

De technologie van DeepMind is vooral bekend van de wedstrijden die men gespeeld heeft tegen Aziatische Go-spelers. Maar wie Google Photos gebruikt, heeft ook met deze technologie te maken. Foto’s die met een telefoon worden gemaakt, worden door de hiervoor ontwikkelde AI engine verbeterd, soms in animatieseries geplaatst, de mensen in de foto’s worden herkend en in categorieën geplaatst zodat we gemakkelijker alle foto’s van oma of van onze kinderen kunnen terugvinden.

Diezelfde technologie heeft Google nu ook gebruikt om het energieverbruik voor koeling in zijn datacenters verder te verlagen. En men rapporteert nu een gerust spectaculair te noemen resultaat: een verlaging met 40% van de hoeveelheid energie die nodig is voor koeling. Dat percentage is op zich al groot te noemen, maar laten we hierbij niet vergeten dat Google met zijn PUE van 1,12 natuurlijk al zeer goed scoorde op dit punt. Dat het gebruik van AI hier nog eens 40% vanaf haalt, is met name een teken dat het toepassen van AI in de technische infrastructuur van een datacenter - dus de power en koeling en dergelijke - wel eens een zeer goed idee zou kunnen zijn.

Drie problemen

Waarom zag Google hier kansen? Daar noemt men drie redenen voor:

  • De apparatuur die staat opgesteld in een datacenter beïnvloedt elkaar in veel gevallen op een complexe en vaak niet-lineaire manier. Traditionele en op wiskundige formules gebaseerde engineering-principes in combinatie met menselijke ervaring en intuïtie voldoet vaak niet om deze onderlinge interacties volledig te begrijpen en op waarde te schatten.
  • De gehele datacenter-infrastructuur is niet in staat om goed en snel in te spelen op veranderende omstandigheden binnen of buiten het datacenter. Denk hierbij bijvoorbeeld aan het weer. Google stelt dat het niet mogelijk is gebleken om verbanden te ontdekken die uitgewerkt konden worden in scenario’s om in te spelen op interne of externe veranderingen. Het is - zo stelt men - simpelweg niet haalbaar om voor iedere verandering in het weer een nieuw scenario op te stellen.
  • Ieder datacenter heeft - ook bij hyperscalers - een tot op zekere hoogte eigen architectuur en omgeving. Dit betekent dat zelfs als gewerkt zou worden met de hiervoor

    genoemde scenario’s, deze per datacenter weer aangepast en geoptimaliseerd zouden moeten worden. Dat wordt zeer lastig te beheren en draagt het risico in zich dat

    suboptimalisatie plaatsvindt waarbij de beheerders juist denken het maximale aan energiebesparing te doen, terwijl dit in werkelijkheid niet het geval is.

Teams van specialisten

Daarom is Google al twee jaar terug begonnen om een specifieke vorm van AI - machine learning genaamd - toe te passen in zijn datacenters. Hierbij zijn teams geformeerd van DeepMind-specialisten en datacenter-experts. Daarbij heeft men allereerst een framework ontwikkeld dat gebaseerd is op een aantal neurale netwerken die - zoals dat heet in AI-terminologie - zijn ‘getraind’ voor bepaalde operationele situaties in het betrokken datacenter. Dit framework helpt Google om veel beter dan voorheen te begrijpen wat er nu precies gebeurt in een datacenter en hoe de diverse systemen en de diverse gebeurtenissen op elkaar inspelen en elkaar beïnvloeden. En welke mogelijkheden hierdoor ontstaan om tot een verdere efficiency-verbetering te komen.

Screen-Shot-2018-09-14-at-15.49.11-615x265

Hierbij is nadrukkelijk gebruik gemaakt van historische data die sowieso al beschikbaar was. Wat dit project interessant maakt is dat - op basis van deze gegevens - de machine learning-technologie steeds beter leerde om voorspellingen te doen. Dit gebeurde aan de hand van een zogeheten PUE-model, dat aangeeft met welke gewenste PUE Google wil werken. Vervolgens is onder andere gekeken naar voorspellingen van de temperatuur op bepaalde locaties binnen het datacenter. Daarbij werd een uur vooruit gekeken. Hetzelfde geldt voor aspecten als druk. Deze voorspellingen zijn vervolgens gerelateerd aan het PUE-model, zodat aanpassingen in bijvoorbeeld de temperatuur op een bepaalde locatie geen ongewenste invloed heeft op de PUE die wordt nagestreefd. Figuur 1 geeft een voorbeeld van de resultaten van een dag testen met dit model.

Eerste resultaten

Het machine learning-systeem bleek uiteindelijk in staat om op consistente wijze een verlaging van 40% te realiseren van de hoeveelheid energie die nodig is voor koeling. Dit levert omgerekend een verbetering van de PUE op van 15%, zo claimt Google. Daarmee is tevens de laagste PUE gerealiseerd die de test-site ooit heeft gezien.

De ontwikkelde technologie zal de komende periode ook op andere ‘challenges’ in het datacenter worden toegepast, stelt Google tenslotte. Daarbij wil men onder andere kijken of het mogelijk is om de efficiency van de gehele power-infrastructuur te verbeteren, maar bijvoorbeeld ook om het gebruik van water terug te dringen.