AI en ML zorgen voor grotere warmteproductie in racks en kabinetten

jens-herrndorff-399248-unsp

Uit recente onderzoeken komt een duidelijke trend naar voren naar een almaar hogere warmte­productie in racks. Die ontwikkeling gaat de komende jaren een stevige impuls krijgen door de opkomst van AI en machine learning. De hiervoor benodigde IT-hardware produceert dermate veel warmte, dat voor de aanbieders van geavanceerde (vloeistof)koeling een stevige groei in het verschiet lijkt te liggen. De vraag is alleen wat de invloed van edge computing op deze trend zal zijn.

Het hangt er een beetje vanaf welk onderzoek we nemen, maar gemiddeld nadert een rack in een voor hosting gebruikte colo-faciliteit inmiddels de 7 tot 7,5 kW. Die groei zet de komende jaren door. Uit onderzoek van het Amerikaanse AFCOM blijkt bijvoorbeeld dat twee derde van de datacenters in de VS verwacht dat de gemiddelde power density per rack de komende tijd verder zal toenemen. Inmiddels geeft al bijna 1 op de 5 ondervraagde datacenter managers aan te verwachten dat zij op niet al te lange termijn op een gemiddelde van meer dan 10 kW per rack zullen uitkomen.

8-16 kW

Andere onderzoeken komen weer met net even iets andere getallen. Het lijkt echter een veilige inschatting dat we de komende 2 tot 3 jaar gaan doorgroeien naar gemiddeld 8 tot 16 kW per rack in - zeg maar - gewone data­centers. Al zitten we daarmee dus al een flink stuk hoger dan enkele jaren terug, voor veel datacenter managers levert dit een omgeving op die met redelijk traditionele koelingstechnieken nog te beheren valt. Is hier al sprake van een noodzaak van de inmiddels befaamde oplossingen voor vloeistofkoeling? Het antwoord hier is duidelijk: nee.

HPC, AI en ML

Anders ligt de situatie bij datacenters waar nieuwe applicaties worden gehost die meer in de richting van rekenintensieve toepassingen gaan. Denk aan vrij traditionele HPC (high-performance computing) applicaties waarbij grote reken- of simulatiemodellen worden doorgerekend. Daarnaast zien we meer en meer toepassingen die vallen in de categorie machine learning en AI. Het idee dat alleen Google en Facebook dit soort tools gebruiken klopt allang niet meer. Grote webshops, autofabrikanten, overheden die IoT-projecten ‘runnen’ en tal van andere organisaties passen inmiddels dit soort technieken toe. Vaak wordt hiervoor IT-hardware op basis van grafische processoren toegepast. In andere gevallen zijn speciaal ontwikkelde FPGA’s en ASIC’s aan boord te vinden. Dit soort apparatuur staat veelal in dezelfde faciliteiten opgesteld als min of meer klassieke servers. Hierdoor ontstaan flinke ‘hot spots’ binnen een verder redelijk standaard datacenter.

Warmteproductie

Waar moeten we wat warmteproductie betreft nu precies aan denken bij dit soort AI- en machine learning-omgevingen? Er blijkt een fors verschil te zitten tussen de zwaar gespe­cialiseerde AI-hardware die de hyperscalers inzetten en de wat - zeg maar - bescheidener machine learning-toepassingen van webshops en dergelijke. In het laatste geval wordt veelal standaard server-hardware gebruikt waaraan een uitbreidingskaart (ook wel off-loading card genoemd) wordt toegevoegd. Op deze insteekkaart bevindt zich de gespecialiseerde chip met geheugen- en communicatievoor­zieningen die het zwaardere en voor machine learning bedoelde rekenwerk verricht. Tot welk niveau van warmteproductie we met dit soort hardware gaan groeien is nog niet geheel duidelijk. Sommige analisten hebben het over 20 kW per rack. Waarvan men aangeeft dat het in principe nog altijd mogelijk is om dat weg te koelen met lucht, al worden de omstandig­heden ‘op zaal’ wel wat extremer door de enorme hoeveelheden lucht die dan nodig zijn.

20-25 kW per rack

De noodzaak om van lucht- naar vloeistof­koeling over te stappen ligt naar verwachting tussen 20 en 25 kW per rack. Daarmee zitten we ook meteen volop in het gebied van ‘full-blown’ AI- en machine learning-toepassingen. Bij dit soort toepassingen zal vaak gekozen worden voor wat inmiddels wel ‘warmwaterkoeling’ wordt genoemd. Door vloeistof zo dicht mogelijk bij de processor en andere hardware te brengen, kan indirect worden gekoeld. In andere gevallen wordt de IT-hardware simpelweg geheel in niet-geleidende olie gedompeld en is sprake van directe vloeistofkoeling. De koeling is dan enkel nog nodig om de temperatuur van de IT-hardware naar een niveau te brengen waardoor deze op maximaal vermogen kan blijven functioneren. Hierbij kunnen vloeistoffen met een relatief hoge temperatuur worden gebruikt.

Hoewel AI en machine learning aan een sterke groei bezig zijn, is het aantal toepassingen waarbij we boven het genoemde niveau van 20 kW uitkomen nog zeer beperkt. De fabrikanten van dit soort gespecialiseerde hardware zitten echter niet stil. Het gemiddeld aantal servers per rack dat AI- en machine learning-applicaties host zal de komende jaren stap voor stap groeien. Nu al zijn redelijk ‘gewone’ datacenters bekend waar racks staan opgesteld waarin 5 en soms zelfs al 10 AI/ML-servers per rack staan opgesteld. Weg te koelen warmte in zo’n omgeving? Al gauw 35 kW of meer per rack.

Impact van edge

Blijft deze curve de komende jaren dezelfde stijgende lijn volgen? Dat is nog maar de vraag. Veel zal afhangen van de vraag of de veel besproken trend naar edge computing inderdaad doorzet. Het verplaatsen van IT-capaciteit naar locaties die zich zo dicht mogelijk in de buurt van de gebruiker bevinden, is op zich een logische ontwikkeling. Zeker bij de zeer reken­intensieve toepassingen die we kunnen verwachten bij autonoom autorijden en dergelijke. Het zware rekenwerk dat hierbij komt kijken kan geen latency gebruiken en kan dus maar beter zeer dicht bij verkeersaders en -knoop­punten worden geplaatst. Dit zou kunnen betekenen dat een deel van het stevige AI/ML-rekenwerk voor dit doel uit de grote centrale datacenters verdwijnt en verplaatst wordt naar de edge.

Hoe snel die verwachting werkelijkheid zal worden, moeten we echter nog afwachten. Daarmee zitten we dus met twee vraagtekens:

  1. Hoe snel groeit de behoefte bij bedrijven en overheden aan stevige AI/ML-applicaties?
  2. Waar zullen deze applicaties worden geplaatst: centraal of in de edge?

Verwachtingen

Maar laten we ook een derde vraagteken niet vergeten. En dat is het punt van de almaar verder groeiende rekencapaciteit van smart­phones. Als veel rekenintensief werk voor VR, augmented reality, maar bijvoorbeeld ook fotobewerking via AI en machine learning op een smartphone kan plaatsvinden, dan haalt dat een stuk van de druk weg bij datacenters.

Daarmee kunnen we tot een voorzichtige voorspelling komen. De gemiddelde warmteproductie per rack zal de komende jaren blijven groeien. In min of meer klassieke datacenters zal het gaan om een bescheiden groei per jaar. Binnen faciliteiten waar ook meer en meer AI- en ML-applicaties worden gehost, zal de groei echter veel forser zijn. Ga er maar gerust vanuit dat dit soort datacenters de komende jaren richting 20 tot 25 kW en wellicht zelfs nog meer groeien.

Edge computing gaat zeker komen. De vraag is alleen hoe. Hebben we straks op ieder verkeersknooppunt een rack vol AI-hardware staan om autonoom rijdende voertuigen te ondersteunen? Of hebben we de edge straks vooral in onze hand? Waarschijnlijk gaan we allebei zien.

Dossiers
Lees ook

AI-hausse brengt volledig nieuwe hardware naar het datacenter

Van ChatGPT tot AutoGPT tot StabilityAI - in razend tempo verschijnen er nieuwe tools op het gebied van kunstmatige intelligentie. Voor wie al moeite heeft de snelheid van deze ontwikkelingen bij te houden, hebben we slecht nieuws: al die nieuwe AI-tools en -ontwikkelingen hebben een ware golf van in AI-hardware gespecialiseerde startups opgeleverd. Deze systemen - van gespecialiseerde chips tot racks voor geoptimaliseerde hardware - zullen binnenkort het datacenter gaan bevolken.

Nieuwe chips gaan enorm energieverbruik van datacenters met veel AI-applicaties afremmen

Nieuwe chips gaan enorm energieverbruik van datacenters met veel AI-applicaties afremmen

Het zal niemand ontgaan zijn: Artificial Intelligence is de afgelopen tijd enorm populair geworden. Enterprise en colocatie-datacenters merken dit dagelijks doordat interne of externe klanten steeds meer AI-applicaties draaien. Veel van deze toepassingen gebruiken echter zeer veel energie. Bedrijven als Nvidia hebben weliswaar veel aandacht bestee1

Altair rekenserver voor kant-en-klare data-analyses en meer inzichten

Altair rekenserver voor kant-en-klare data-analyses en meer inzichten

Altair introduceert een kant-en-klare oplossing voor data-analyses die klanten in staat stelt om eenvoudiger meer inzichten te krijgen. De Altair Unlimited appliance voor data-analyses is gebaseerd op Dell PowerEdge R750 servers en ontworpen om de toepassing van bedrijfsbrede datagestuurde strategieën te stimuleren. Deze speciale rekenserver helpt1