Wat gebeurt er nu echt in een rack? - deel 4

In de vorige afleveringen hebben we gekeken naar wat er in het rack gebeurt rondom de server. Dat is ook logisch, we richten in onze datacenters immers al onze aandacht op het bieden van een ‘prettige werkomgeving’ aan de gehuisveste IT-apparatuur. In deze aflevering kijken we of IT-apparatuur zelf ook een ‘mening’ heeft over ‘hoe lekker het zich voelt’ en hoe we daarvan op een veilige manier gebruik kunnen maken.

Experiment 4: Veilig uitlezen van server-inlaattemperaturen

Voordat we de onderzoeksvraag formuleren, is het goed om eerst eens het deksel van onze server op te lichten en ‘met de warmtebril op’ naar binnen te kijken.

De grootste warmtebronnen zijn de CPU’s in het midden van de server. Bij volle belasting zijn deze goed voor meer dan de helft van de

maximaal door het apparaat geproduceerde warmte. Twee power units produceren nog de nodige warmte en (oudere generatie) harddisks dragen ook hun steentje bij. Servers hebben meestal geen zware videokaarten geïnstalleerd.

Afbeelding 1

Een rij individueel geregelde fans zorgt ervoor dat er lucht door de server stroomt waar dat nodig is. Om dat te bepalen is de server op diverse plaatsen voorzien van temperatuursensoren. Die sensoren zijn er ook om te zorgen dat de server lokaal en als geheel, niet door oververhitting beschadigd raakt.

Afbeelding 2

Een sensor kan de computer niet zelf door gedrag beïnvloeden en dat is de temperatuur van de inlaatlucht. Daarom staan in de user manual van de apparatuur altijd eisen waaraan die moet voldoen. En uiteraard is dat de reden dat we aan klimaatbeheersing doen in datacenters.

Onderzoeksvraag

Fabrikanten hebben hun apparatuur dus voorzien van temperatuur­sensoren, waaronder één voor het meten van de temperatuur van de inlaatlucht. Misschien kunnen we die temperatuurmeting gebruiken voor het monitoren, of zelfs regelen, van de koeling van de datazaal. Daarvoor moeten we eerst een paar vragen beantwoorden:

  • Komt de temperatuurmeting van de inlaatlucht door de server overeen met de temperatuurmeting(en) buiten de server? [hetzelfde / lager / hoger]
  • Als de meting van de server afwijkt van de externe meting, ‘wie heeft er dan gelijk’? [meting extern / meting door server]
  • Kan de temperatuurmeting door de server daadwerkelijk gebruikt worden door de ‘climate guys’?

    [ Ja en gebeurt ook / Nee, technisch onmogelijk of complex /

    Nee, technisch mogelijk maar gebeurt in de praktijk niet]

Experiment en waarneming

Komt de temperatuurmeting van de inlaatlucht door de server overeen met de temperatuur-meting(en) buiten de server?

We hebben de temperaturenmetingen vergeleken tussen die van de inlaatsensor van de server en een analoge thermometer vlak voor de server. Bij (zoveel mogelijk) gelijkblijvende inlaattemperatuur hebben we de CPU-load laten oplopen met volledige belasting van 0 tot 24 CPU-kernen.

Afbeelding 3

Bij een inlaattemperatuur van 25°C geven de thermometer en de server-sensor aanvankelijk een gelijke waarde aan. Met het oplopen van de CPU-load gaat de server een lagere waarde aangeven voor de temperatuur van de inlaatlucht. Het verschil loopt op to 4°C.

Bij een inlaattemperatuur van 37°C zien we dat de server-sensor al begint met 5°C lager aangeven, dat met het belasten van de CPU oploopt tot een 7°C. In beide gevallen lijkt er een relatie te zijn met de fanspeed, c.q. de airflow.

Als de meting van de server afwijkt van de externe meting, ‘wie heeft er dan gelijk’? Het antwoord op deze vraag is niet met een technisch experiment te geven. In de discussie gaan we hier verder op in.

Kan de temperatuurmeting door de server daadwerkelijk gebruikt worden door de ‘climate guys’?

Afbeelding 4

Moderne servers beschikken allemaal over een hard- en softwarematig subsysteem voor monitoring en beheer op afstand: Out-of-Band management (OoB), ook wel Integrated Lights Out (ILO) genoemd. Beheer kan zo plaatsvinden via een fysiek gescheiden netwerk. Via een speciale ILO-poort kan via netwerkprotocollen en webbrowser, sensoren en systeemstatus worden gelezen.

Ook via het operating systeem en het normale netwerk kunnen dergelijke gegevens worden gelezen.

Uit navraag en eigen ervaren blijkt echter dat, met name bij co-location datacenters, bijna nooit toegang gegeven wordt aan degenen die het klimaat regelen in het datacenter, of dat informatie met hen wordt gedeeld.

Afbeelding 5

Discussie

Afwijking server sensor t.o.v. analoge thermometer

Twee temperatuurmeters zullen altijd wel wat van elkaar afwijken, maar het is merkwaardig om te zien dat de door de server zelf gemeten temperatuur van de inlaatlucht fors kan afwijken van de extern gemeten temperatuur. Een effect dat toeneemt met de hoogte van de inlaattemperatuur en met de toename van de air flow door de server. Dit effect is niet goed te verklaren. De sensor is niet defect, want kijkend naar alle andere temperatuursensoren, blijken die allemaal keurig ‘in range’, zelfs bij 37°C inlaattemperatuur en volle belasting van de CPU. We hoeven dit effect ook niet te verklaren, want de server is voor het datacenter gewoon een black box, of zou dat moeten zijn.

Wie heeft er gelijk?

Vertrouwen we op onze externe temperatuurmetingen in corridors en kasten, of durven/kunnen we vertrouwen op de metingen van de servers zelf? Omdat we de metingen van de server meestal niet hebben, zijn we vertrouwd geraakt met onze externe meetsystemen. Maar als we teruggaan naar de reden waarom datacenters bestaan, dan is dat om de IT-apparatuur ‘happy’ te houden. Dus als de temperatuur van de server OK is, dan is in feite al het andere niet meer relevant. Een dokter kijkt voor koorts ook niet op de kamerthermostaat, maar doet ‘iets’ met een thermometer bij de patiënt zelf…

Dus zelfs als de servermeting sterk afwijkt van de externe meting, dan heeft deze toch, per definitie, gelijk. Als de servermeting lager is, zoals bij onze server, werkt dat ook nog eens in ons voordeel: als de ruimte warm is, vindt de server het nog steeds koel. Of andere typen servers ook een dergelijke ‘afwijking’ naar beneden hebben, hebben we trouwens nog niet onderzocht, maar we vermoeden van wel.

De 37°C in het experiment is overigens hoger dan de toegestane waarde uit de user manual die 35°C of 30°C (zonder prestatieverlies) aangeeft. In ILO ligt de waarschuwingsgrens echter op 41°C en de ‘ciritical alarm’ waarde op 45°C. Daar zit dus ook nog eens een behoorlijke veiligheidsmarge.

Dit alles suggereert dat een server veel beter bestand is tegen oververhitting dan we denken. Dat gaan we volgende keer dan ook uitproberen.

Toegang tot de temperatuurmeting van de server

De reden dat de klimaatbeheerder van het datacenter geen toegang krijgt tot OoB/ILO, is dat er via dat kanaal niet alleen gelezen kan

worden , maar ook actief ingegrepen kan worden, onder andere het uitschakelen van de server: ‘geen toegang’ is de veiligste toegang’. Dat is natuurlijk jammer, want het veroordeelt het datacenter tot het inrichten van allerlei indirecte meetsystemen.

CoolSafe-oplossing

Om toch de servermetingen aan het datacenter ter beschikking te kunnen stellen, heeft WCooliT de CoolSafe bedacht. De CoolSafe-stick past in een USB-poort en maakt een wifi-netwerk waarvan de naam bestaat uit het ID van de server en de gemeten inlaattemperatuur. De CoolSafe-stick weigert contact via het wifi-netwerk en als ultieme beveiliging is van de communicatie-elektronica een ‘pootje’ afgeknipt, waardoor het onmogelijk is van buiten naar binnen te communiceren. Een eenvoudig en open script – geen gecompileerde software – voedt de CoolSafe-stick met de temperatuurmeting van de server.

Afbeelding 6

Het CoolSafe systeem bestaat uit een of meer Orchestrators die de wifi-netwerkjes uitlezen en zo de temperaturen verzamelen. Servers die ‘representatief’ of ‘kritisch’ zijn, worden met een CoolSafe-stick uitgerust. Het zal niet nodig zijn om alle servers van een stick te voorzien.

CoolSafe overbrugt zo de vertrouwenskloof tussen ICT-beheerders en datacenter-beheerders. Het maakt het mogelijk dat datacenters niet alleen reactief kunnen zijn op ‘alarmen’, mails en telefoontjes er over van de ICT-beheerders, maar actief het ‘welbevinden’ van de IT-apparatuur kunnen monitoren en vroegtijdig al maatregelen ‘ter voorkoming van’, kunnen nemen. Dat is voor de klant een hele zorg minder…

Conclusie

Het datacenter is ervoor bedoeld dat IT-apparatuur klimatologisch ‘binnen specs’ blijft. IT-apparatuur kan dat beter vertellen, dan de indirecte meetsystemen van het datacenter, ook al – of misschien wel omdat – de servermeting behoorlijk kan afwijken van de meting in de ruimte buiten de server. Om niet-technische redenen – security – krijgt het datacenter meestal geen toegang tot de servermetingen. Producten zoals de CoolSafe maken het mogelijk om zonder veiligheidsrisico de servermeetwaarden te delen met het datacenter. Het datacenter wordt zo een actieve partner in plaats van een reactieve.

In de volgende aflevering zoek we de grenzen van de server op, door deze ‘thermisch te killen’.

Mees Lodder en Willem van Smaalen, WCooliT

Dossiers