Steeds meer bedrijven willen ‘data driven’ worden. Het aantal initiatieven om data te verzamelen en analyseren groeit snel: het IoT (Internet of Things), AI (artificial intelligence), ML (machine learning), etc. Bovendien is er een grote behoefte om data uit verschillende bronnen en in verschillende clouds in samenhang te analyseren. Maar hoe verbind je de data in die verschillende silo’s? En welke datacenterstrategie past daarbij?
Data in veel verschillende clouds
Bedrijven hebben er door de populariteit van de cloud een belangrijke uitdaging bij gekregen: hoe verbind je de data in de verschillende clouds? Veel data zitten vast in SaaS-applicaties, denk maar aan de populariteit van Office 365 of Salesforce. Daarnaast zijn er steeds meer workloads die op een IaaS-infrastructuur draaien, bijvoorbeeld op Microsoft Azure of Amazon Web Services (AWS). En natuurlijk bevinden een groot deel van de data zich nog altijd on-premises of in een private cloud in een colocatiedatacenter.
Uitdagingen door versnippering van data
Deze versnippering van data leidt tot een aantal problemen, volgens Alexandra Schless, CEO van NorthC. “Men heeft niet altijd goed zicht op welke data waar staan. Ook niet als het gaat om privacygevoelige data van klanten of medewerkers. Die bedrijven hebben dus moeite om te voldoen aan de AVG.”
Ook kunnen IT-afdelingen nauwelijks garanderen dat alle (cloud)databases aan dezelfde hoge kwaliteits-, continuïteits- en security-eisen voldoen. Hoeveel organisaties maken bijvoorbeeld een back-up van Office 365?
Daarnaast zijn data vaak moeilijk uit hun silo’s te krijgen vanwege data gravity: het groeiende fenomeen dat data applicaties en diensten naar zich toetrekt, simpelweg omdat het eenvoudiger is om zo’n applicatie of dienst te verplaatsen naar waar de data zich bevinden, dan andersom.
Data lake in de cloud
Schless: “Deze drie aspecten brengen met zich mee dat analytics binnen een applicatie, bijvoorbeeld analyses op klantdata in Salesforce, prima werkt. Het wordt een uitdaging om de data uit je CRM-systeem te combineren met bijvoorbeeld de ERP-data die in een andere cloud staan. Je kunt wel de uitkomsten van de separate analyses combineren, maar niet de onderliggende datasets.”
Steeds meer bedrijven kiezen daarom voor een ‘data lake’: een centrale plek waar alle data ongestructureerd worden opgeslagen. Op die manier is het wél mogelijk om data uit verschillende bronnen samen te analyseren. Gezien de enorme hoeveelheden data in het data lake, ligt het misschien voor de hand om zo’n data lake in de cloud te zetten. En omdat je deze enorme hoeveelheden data niet makkelijk kan verplaatsen, breng je de analysetools onder in diezelfde cloud. Schless: “Wat veel bedrijven zich niet realiseren, is welke netwerkkosten zo’n strategie met zich meebrengt. Dit betekent immers dat je heel grote datasets naar het data lake moet transporteren. De vraag is of dat altijd is te onderbouwen door een goede businesscase.”
Edge computing als antwoord
Het is dan ook niet vreemd dat edge computing in opkomst is. Waarom zou je data die ergens ver weg van het centrale datacenter worden verzameld (door bijvoorbeeld IoT-sensoren) eerst voor verwerking naar een centrale locatie transporteren als dat ook lokaal kan? Bijvoorbeeld in een regionaal datacenter. Er is een aantal redenen om te kiezen voor lokale analyse in een regionaal datacenter. Ten eerste is voor real-time toepassingen latency een belangrijk criterium. Hoe dichter de data bij de bron worden verwerkt, hoe lager die latency is. Daarnaast blijven ook de netwerkkosten een stuk lager als data dicht bij de bron, in een regionaal datacenter, worden opgeslagen en verwerkt. Dit argument wordt steeds belangrijker omdat IoT in hoog tempo wordt uitgebreid met data-intensieve apparaten zoals bijvoorbeeld bewakingscamera’s. En tot slot is het vanuit wet- en regelgeving niet altijd wenselijk of zelfs mogelijk om data in een centrale cloud op te slaan. In veel gevallen eist de wet dat data in Nederland of ten minste binnen de EU blijven. Dit speelt bijvoorbeeld sterk in de zorg, waar organisaties gezien de aard van hun dienstverlening te maken hebben met zeer privacygevoelige data die de landsgrenzen niet over mogen.
Sommige data toch centraal analyseren
Tegelijkertijd blijft wel de wens bestaan om data uit verschillende bronnen te combineren. Daarom doen CIO’s (Chief Information Officer) en CDO’s (Chief Digital Officers) er goed aan om na te denken welke data wel en niet interessant zijn voor centrale verwerking. Welke data wil je ‘at the edge’ analyseren om daar direct actie op te ondernemen? En welke data wil je naar het data lake brengen omdat je deze kunt gebruiken om bedrijfsprocessen te optimaliseren of nieuwe functionaliteiten en diensten te ontwikkelen? Schless: “Als je een machine uitleest met IoT-sensoren, dan hoef je niet al die data centraal te verzamelen. De meeste data analyseer je ‘at the edge’, in de directe nabijheid. Alleen de uitkomsten van die data worden bewaard, de overige informatie heb je niet meer nodig. Maar als een machine vastloopt, wil je uit data de oorzaak van die storing achterhalen. Deze specifieke data wil je wél bewaren en centraal analyseren.
Denk na over het datacenterlandschap
De combinatie van cloud first en data first leidt ertoe dat bedrijven moeten nadenken over hun datacenterlandschap. Want enerzijds hebben ze nu eenmaal te maken met data in vele verschillende SaaS-, PaaS- en IaaS-silo’s. En anderzijds met data die je vanwege latency en netwerkkosten het liefst zo dicht mogelijk bij de bron opslaat en verwerkt. Dit vraagt om een andere datacenterstrategie. Het antwoord van NorthC op deze uitdaging is een regionaal, cloud- en carrierneutraal datacenter dat als connectiviteitshub snel en veilig de beide typen omgevingen aan elkaar koppelt en zo de spil is in het ecosysteem dat nu ontstaat.
Meer weten over de rol van cloud- en carrierneutrale datacenters in dit nieuwe landschap? Lees hier onze blog ‘Het regionale datacenter als connectiviteitshub’ of download het rapport ‘De impact van data gravity op IT’.
Wilt u meer tips, nieuws en kennisupdates van ons ontvangen?