AI en ML zorgen voor grotere warmteproductie in racks en kabinetten

jens-herrndorff-399248-unsp

Uit recente onderzoeken komt een duidelijke trend naar voren naar een almaar hogere warmte­productie in racks. Die ontwikkeling gaat de komende jaren een stevige impuls krijgen door de opkomst van AI en machine learning. De hiervoor benodigde IT-hardware produceert dermate veel warmte, dat voor de aanbieders van geavanceerde (vloeistof)koeling een stevige groei in het verschiet lijkt te liggen. De vraag is alleen wat de invloed van edge computing op deze trend zal zijn.

Het hangt er een beetje vanaf welk onderzoek we nemen, maar gemiddeld nadert een rack in een voor hosting gebruikte colo-faciliteit inmiddels de 7 tot 7,5 kW. Die groei zet de komende jaren door. Uit onderzoek van het Amerikaanse AFCOM blijkt bijvoorbeeld dat twee derde van de datacenters in de VS verwacht dat de gemiddelde power density per rack de komende tijd verder zal toenemen. Inmiddels geeft al bijna 1 op de 5 ondervraagde datacenter managers aan te verwachten dat zij op niet al te lange termijn op een gemiddelde van meer dan 10 kW per rack zullen uitkomen.

8-16 kW

Andere onderzoeken komen weer met net even iets andere getallen. Het lijkt echter een veilige inschatting dat we de komende 2 tot 3 jaar gaan doorgroeien naar gemiddeld 8 tot 16 kW per rack in - zeg maar - gewone data­centers. Al zitten we daarmee dus al een flink stuk hoger dan enkele jaren terug, voor veel datacenter managers levert dit een omgeving op die met redelijk traditionele koelingstechnieken nog te beheren valt. Is hier al sprake van een noodzaak van de inmiddels befaamde oplossingen voor vloeistofkoeling? Het antwoord hier is duidelijk: nee.

HPC, AI en ML

Anders ligt de situatie bij datacenters waar nieuwe applicaties worden gehost die meer in de richting van rekenintensieve toepassingen gaan. Denk aan vrij traditionele HPC (high-performance computing) applicaties waarbij grote reken- of simulatiemodellen worden doorgerekend. Daarnaast zien we meer en meer toepassingen die vallen in de categorie machine learning en AI. Het idee dat alleen Google en Facebook dit soort tools gebruiken klopt allang niet meer. Grote webshops, autofabrikanten, overheden die IoT-projecten ‘runnen’ en tal van andere organisaties passen inmiddels dit soort technieken toe. Vaak wordt hiervoor IT-hardware op basis van grafische processoren toegepast. In andere gevallen zijn speciaal ontwikkelde FPGA’s en ASIC’s aan boord te vinden. Dit soort apparatuur staat veelal in dezelfde faciliteiten opgesteld als min of meer klassieke servers. Hierdoor ontstaan flinke ‘hot spots’ binnen een verder redelijk standaard datacenter.

Warmteproductie

Waar moeten we wat warmteproductie betreft nu precies aan denken bij dit soort AI- en machine learning-omgevingen? Er blijkt een fors verschil te zitten tussen de zwaar gespe­cialiseerde AI-hardware die de hyperscalers inzetten en de wat - zeg maar - bescheidener machine learning-toepassingen van webshops en dergelijke. In het laatste geval wordt veelal standaard server-hardware gebruikt waaraan een uitbreidingskaart (ook wel off-loading card genoemd) wordt toegevoegd. Op deze insteekkaart bevindt zich de gespecialiseerde chip met geheugen- en communicatievoor­zieningen die het zwaardere en voor machine learning bedoelde rekenwerk verricht. Tot welk niveau van warmteproductie we met dit soort hardware gaan groeien is nog niet geheel duidelijk. Sommige analisten hebben het over 20 kW per rack. Waarvan men aangeeft dat het in principe nog altijd mogelijk is om dat weg te koelen met lucht, al worden de omstandig­heden ‘op zaal’ wel wat extremer door de enorme hoeveelheden lucht die dan nodig zijn.

20-25 kW per rack

De noodzaak om van lucht- naar vloeistof­koeling over te stappen ligt naar verwachting tussen 20 en 25 kW per rack. Daarmee zitten we ook meteen volop in het gebied van ‘full-blown’ AI- en machine learning-toepassingen. Bij dit soort toepassingen zal vaak gekozen worden voor wat inmiddels wel ‘warmwaterkoeling’ wordt genoemd. Door vloeistof zo dicht mogelijk bij de processor en andere hardware te brengen, kan indirect worden gekoeld. In andere gevallen wordt de IT-hardware simpelweg geheel in niet-geleidende olie gedompeld en is sprake van directe vloeistofkoeling. De koeling is dan enkel nog nodig om de temperatuur van de IT-hardware naar een niveau te brengen waardoor deze op maximaal vermogen kan blijven functioneren. Hierbij kunnen vloeistoffen met een relatief hoge temperatuur worden gebruikt.

Hoewel AI en machine learning aan een sterke groei bezig zijn, is het aantal toepassingen waarbij we boven het genoemde niveau van 20 kW uitkomen nog zeer beperkt. De fabrikanten van dit soort gespecialiseerde hardware zitten echter niet stil. Het gemiddeld aantal servers per rack dat AI- en machine learning-applicaties host zal de komende jaren stap voor stap groeien. Nu al zijn redelijk ‘gewone’ datacenters bekend waar racks staan opgesteld waarin 5 en soms zelfs al 10 AI/ML-servers per rack staan opgesteld. Weg te koelen warmte in zo’n omgeving? Al gauw 35 kW of meer per rack.

Impact van edge

Blijft deze curve de komende jaren dezelfde stijgende lijn volgen? Dat is nog maar de vraag. Veel zal afhangen van de vraag of de veel besproken trend naar edge computing inderdaad doorzet. Het verplaatsen van IT-capaciteit naar locaties die zich zo dicht mogelijk in de buurt van de gebruiker bevinden, is op zich een logische ontwikkeling. Zeker bij de zeer reken­intensieve toepassingen die we kunnen verwachten bij autonoom autorijden en dergelijke. Het zware rekenwerk dat hierbij komt kijken kan geen latency gebruiken en kan dus maar beter zeer dicht bij verkeersaders en -knoop­punten worden geplaatst. Dit zou kunnen betekenen dat een deel van het stevige AI/ML-rekenwerk voor dit doel uit de grote centrale datacenters verdwijnt en verplaatst wordt naar de edge.

Hoe snel die verwachting werkelijkheid zal worden, moeten we echter nog afwachten. Daarmee zitten we dus met twee vraagtekens:

  1. Hoe snel groeit de behoefte bij bedrijven en overheden aan stevige AI/ML-applicaties?
  2. Waar zullen deze applicaties worden geplaatst: centraal of in de edge?

Verwachtingen

Maar laten we ook een derde vraagteken niet vergeten. En dat is het punt van de almaar verder groeiende rekencapaciteit van smart­phones. Als veel rekenintensief werk voor VR, augmented reality, maar bijvoorbeeld ook fotobewerking via AI en machine learning op een smartphone kan plaatsvinden, dan haalt dat een stuk van de druk weg bij datacenters.

Daarmee kunnen we tot een voorzichtige voorspelling komen. De gemiddelde warmteproductie per rack zal de komende jaren blijven groeien. In min of meer klassieke datacenters zal het gaan om een bescheiden groei per jaar. Binnen faciliteiten waar ook meer en meer AI- en ML-applicaties worden gehost, zal de groei echter veel forser zijn. Ga er maar gerust vanuit dat dit soort datacenters de komende jaren richting 20 tot 25 kW en wellicht zelfs nog meer groeien.

Edge computing gaat zeker komen. De vraag is alleen hoe. Hebben we straks op ieder verkeersknooppunt een rack vol AI-hardware staan om autonoom rijdende voertuigen te ondersteunen? Of hebben we de edge straks vooral in onze hand? Waarschijnlijk gaan we allebei zien.

Dossiers
Lees ook
Oproep tot registratie en controle van highend AI chips kan grote gevolgen hebben voor datacenters

Oproep tot registratie en controle van highend AI chips kan grote gevolgen hebben voor datacenters

In een recent rapport van de Universiteit van Cambridge wordt gepleit voor het reguleren van de uitlevering van highend AI-chips. Het gaat onder meer om een voorstel om deze chips te taggen en te registreren, wat implicaties kan hebben voor de werking en toegankelijkheid van datacenters wereldwijd. Het rapport, getiteld "Computing Power and the Go1

NL AIC en Surf pleiten voor een eigen op AI gerichte datacenter-infrastructuur voor Nederland

NL AIC en Surf pleiten voor een eigen op AI gerichte datacenter-infrastructuur voor Nederland

Generatieve AI, maar ook andere AI-applicaties zijn van groot belang voor noodzakelijke innovaties in gezondheid en zorg, in de energietransitie, in klimaat en duurzaamheid, in mobiliteit, in veiligheid en vele andere gebieden, stellen NL AIC en Surf in een artikel op de website van NL AIC.

AI Platform Alliance van start om voor kunstmatige intelligentie geoptimaliseerde datacentersystemen te vereenvoudigen

AI Platform Alliance van start om voor kunstmatige intelligentie geoptimaliseerde datacentersystemen te vereenvoudigen

Ampere, een ontwerper van ARM-datacenterchips, heeft een belangrijke stap gezet in de wereld van kunstmatige intelligentie (AI) door de AI Platform Alliance te lanceren. Deze alliantie, bestaande uit negen bedrijven, heeft als doel de systeemcomplexiteit te verminderen en betere samenwerking en openheid te bevorderen.