Zijn jullie bekend met comateuze zombie servers (2)?

dubb-logo350250Gisteren publiceerde we de reactie van Colt op een artikel van 19 augustus over comateuze zombie servers, het verschijnsel dat servers aanstaan, stroom en koeling verbruiken maar nergens voor worden ingezet. Vandaag komen de reacties van eerst Solcon en daarna ReasonNet aan bod.

 

Zijn jullie bekend met het verschijnsel comateuze zombie servers – dus servers die bijna niks doen?
Ja, zie ook de volgende vraag.

Treden jullie daar tegen op, en zo ja hoe dan?
Dit is voor Solcon geen groot probleem om 2 redenen:

  • Het DC van Solcon wordt voor eigen (Solcon) apparatuur gebruikt. Hier wordt strikt op gemonitord door een team van 18 engineers. En er zijn “strenge” procedures (oa ISO) van wat wel/niet in productie mag staan (feitelijk mag niets in productie gezet worden zonder dat dit in de monitoring staat). Er zijn dus bijna geen blinde vlekken. Als het al voorkomt dan gaat het om een enkele server, die als test/ontwikkeling is gebruikt en niet uit is gezet;
  • Het andere deel van het DC van Solcon wordt gebruikt door BETALENDE klanten. Het komt bijna niet voor dat klanten (maandelijks) betalen voor server(s) zonder hier iets mee te doen (is onze aanname).

Heb je enig idee hoeveel geld, ruimte, tijd je daarmee bespaart?
Nee maar het getal van 1 op 3 is erg hoog. Dit gaat eerder om minimaal 1 op 100 (en hoger).

Is het voor jullie klanten belangrijk te weten of servers wel worden benut?
Onze eigen servers beheren wij zelf, en de klant beheert zijn servers. Wij kunnen niet zien of de klant deze dan ook echt benut, wij gaan er van uit dat de klant die voor een server betaald deze ook gebruikt.

ReasonNet stuurde een zeer uitgebreide reactie.

Zijn jullie bekend met het verschijnsel comateuze zombie servers – dus servers die bijna niks doen?
Het artikel was me inderdaad al opgevallen, al dacht ik het eerder op een andere site gezien te hebben. Het is een interessante stelling die Michiel introduceert; met inderdaad een hele herkenbare situatie. Ik denk dat het goed is om onderscheid te maken in twee categorieën: gevirtualiseerde servers (VM’s) en fysieke servers.
Van gevirtualiseerde servers is het een bekend fenomeen dat ze ‘SPRAWL’ genereren, ze worden dermate eenvoudig aangemaakt dat het overzicht snel ontbreekt. Wat-doet-wat is vaak niet meer terug te vinden en zo’n server uitschakelen als deze ‘op het oog’ geen activiteit vertoont is toch ook wel weer een beetje spannend. Zowel vanuit mijn rol als consultant als provider kom ik deze situatie regelmatig tegen. Het op de juiste manier sizen van de virtuele of cloud infrastructuur is dan ook een regelmatig terugkerende taak.

Treden jullie daar tegen op, en zo ja hoe dan?
ReasonNet heeft geen belang bij nutteloos draaiende servers, ze veroorzaken nodeloze kosten bij onze klanten wat andere innovatieve projecten belemmert. ReasonNet stelt zich formeel op het standpunt dat het de klant dan liever adviseert om deze systemen uit te schakelen dan dat het ‘stiekem’ de omzet blijft behouden. Omdat het voor ons vanaf de buitenkant lastig te beoordelen is welke activiteiten een server uitvoeren bespreken de service level managers van ReasonNet maandelijks een capaciteitsrapportage met de klanten, hierin worden de overzichten besproken van de gebruikte capaciteit per datacenter | virtuele omgeving | applicatie groep. Hiermee voeren we dus regelmatig de discussie over de gebruikte capaciteit wat geregeld tot uitschakeling van onnodige servers leidt.

Dan heb je ook nog de fysieke servers; ik herken direct de stelling dat een groot deel (ik heb geen cijfers) nauwelijks activiteit heeft. Fysieke servers met slechts 5-10% CPU zijn eerder regel dan uitzondering. Deze systemen zouden het beste gevirtualiseerd kunnen worden en op kleinere virtuele hardware draaien. Omdat het hier infrastructuur in co-locatie betreft heeft ReasonNet geen informatie over het gebruik van deze systemen, we kunnen de klant daarmee dan ook niet adviseren. Onze klanten virtualiseren op dit moment massaal hun fysieke servers, dit gebeurt op het ReasonNet cloud platform, maar ook op eigen virtualisatie stacks van de klant. Ik verwacht dus wel dat dit probleem langzaamaan verplaatst naar de virtuele wereld.

Heb je enig idee hoeveel geld, ruimte, tijd je daarmee bespaart?
Over de kosten heb ik helaas geen data, anders dan dat stroom eerder 15-25 ct per kWh kost dan 10 ct. De genoemde 20,00 per kWh aan additionele kosten komt op mij een beetje over als een aanname maar ik ben het met de auteur eens dat deze kosten significant zijn. Ik som even een rijtje op:

  1. licentiekosten OS, middleware, applicatie
  2. kosten voor de backup
  3. kosten voor monitoring van de servers
  4. kosten voor generieke infrastructuur zoals netwerk, storage, rackhuur, enz.
  5. beheerkosten: manuren voor updates, patches, enz en als het ‘vergeten’ servers betreft wordt dit vaak overgeslagen en komen deze servers pas weer in beeld als ze gecompromiteerd zijn er een abuse melding binnen komt.
  6. nog meer?

Uit een onderzoek van Gartner waar ik bekend mee ben blijkt dat de kosten voor het operationeel houden van een applicatie (let-op applicatie) 42% van de aanschafprijs per jaar bedraagt (link).

ReasonNeter stelde ook nog deze oplossing voor:
Het antwoord op dit soort comateuze servers is het automatiseren van het infrastructuur beheer. Door infrastructuur componenten geautomatiseerd uit te rollen, te beheren en te registeren met tools als Puppet, Chef, Ansible, SaltStack of SystemCenter heb je een veel beter zicht op je infrastructuur. Ik ben dagelijks bezig om klanten te helpen een hogere mate van automatisering te bereiken. We besteden daar bijvoorbeeld in onze training hybride clouds veel aandacht aan.

Volgende week volgt nog een reactie van Dell. Als verkopers van hardware hebben zij namelijk ook een interessante kijk op het vraagstuk.