De huidige cloud architectuur kan nog wel verbeterd worden

Cloud wordt steeds vaker beschouwd als een commodity. Net als water uit de kraan verwacht de burger en ondernemer dat het er altijd is. Die verwachting is een deel van de propositie van bijna alle cloud aanbieders, zij schermen immers met uptimes en beschikbaarheden die het 24/7/365 lijken te suggereren en koppelen dat achteloos aan begrippen als veiligheid. Maar klopt die impliciete claim wel?

Die vraag is op ISP Today al een paar keer in verschillende vormen aan de orde geweest. Uptimes van 99,9999% zijn kritisch gepresenteerd. Over de analyses van Weolcan en anderen, zoals bij de Cloud Architect Alliance besproken zijn, hebben we verslag gedaan. Nu is het tijd voor een verwijzing naar een groter onderzoek over het onderwerp (PDF).

Het onderzoek in kwestie is eind vorig jaar op de ACM SOCC gepresenteerd en heeft als titel “why does the cloud stop computing”. Het is onderzoek van van twee teams: Haryadi S. Gunawi, Mingzhe Hao, and Riza O. Suminto van de universiteit van Chicago en Agung Laksono, Anang D. Satria, Jeffry Adityatama, Kurnia J. Eliazar van Surya University. De omvang van de teams is opvallend, de werkwijze die ze hebben gehanteerd is dat ook. 1247 artikelen in de pers in de vorm van 3249 links over 597 onvoorziene storingen tussen 2009 en 2015 zijn doorgeplozen en de cloud aanbieders die hier genoemd werden zijn onderverdeeld in 9 categorieën. Daarmee gaan ze al een stap verder dan de standaard indeling IaaS, PaaS en SaaS. Er is gekeken naar het soort toepassing en daarom zijn er bijvoorbeeld aparte categorieën voor mail, video, storage, social. In totaal heeft men zo 32 cloud diensten in kaart gebracht.

De eerste en mogelijk al belangrijkste observatie is dat de SPOF’s alom worden voorkomen door redundantie in te bouwen (logisch!), maar de fouten die zich voordoen ontstaan omdat de failure recovery chain te wensen overlaat. Of zoals het in het onderzoek wordt genoemd “Failover that Fails”. De tweede conclusie: van de 597 storingen zijn er 355 niet te verklaren, ze blijven voorzien van het label “onbekende oorzaak”. Een weinig bevredigende constatering. De 242 storingen die wel verklaard kunnen worden leiden tot conclusie nummer drie: met 16% staan upgrades bovenaan de lijst oorzaken voor falende cloud diensten. Om het begrip “falend” nog te duiden: in 59% van alle genoemde incidenten – dus ook die zonder bekende oorzaak – was sprake van een “full outage”. Echt verlies van data is bij 2% van de incidenten aan de orde geweest.

Conclusie van deze cijfers: Het goede nieuws is dat data en toepassingen in de cloud best veilig zijn als je kijkt naar het gering aantal incidenten waarbij data echt verloren is gegaan. Het minder goede nieuws: de aard van de failures laat vraagtekens zetten bij de opbouw en degelijkheid van heel wat en uiteenlopende cloud architectuur.

About the author

Avatar

ISP Today is het Nederlandstalige platform voor de Internet Service Providers in Nederland. We presenteren nieuws van redactionele kwaliteit met relevantie voor de Nederlandse ISP community. Internet Service Providers en met name de mensen daarachter staan centraal op ISP Today.