Nya heta datalager 2(3)
Datalagrets framtid del 2(3) Utvecklingen
I del ett av denna serie behandlades datalagret bakgrund. I den andra delen fortsätter vi med förändringen som skett de senaste åren.
En förändringsdrivare är Big Data plattformarna inom Open Source. Datalagret får en utmanare med hadoop och dess filsystem HDFS. Med lågt pris, möjlighet att hantera stora datamängder, flexibilitet, stöd för olika data format utmanas det klassiska datalagret. Särskilt när det även innebär skalbarhet, säkerhet, bättre prestanda och möjlighet till realtidsanalys. Ett klassiskt problem med datalagret har ju varit dess batch-orienterade struktur.
Nästa utmanare blev nya typer av databaser. De alltid konsistenta databserna(RDBMS) svarade inte på den prestanda som krävdes av Facebook, Google och Amazon. Svaret blev Not Only SQL(NoSQL). Dessa databaser som körs enkelt på Hadoops analytiska plattform. Inte schema styrt och med ACID krav som 80-tals SQL-databaserna utan mer agila och flexibla och fria.
Dock blev den nya lösningen lätt komplex och ofta en spelplan för data scientists.
Som en konsekvens av detta utvecklades Apache Hive av några facebook anställda. Hive:s uppgift blev att automatiskt översätta SQL-liknande frågor till MapReduce jobb på Hadoop vilket underlättar för data analytiker att arbeta med datan. Facebooks rapporter har därefter ofta gjorts med hjälp av Hive.
Efter Apache Hive kom krav på ännu bättre prestanda. Apache Spark med strömmad och batchdata förbättrade prestandan i Hadoop. Spark har också stöd för machinelearning och graph algoritmer samt för semi-strukturerad data vilket har hjälpt dem till framgång.
Även facebook jobbade vidare med prestandakraven och skapade Presto som svar på Spark och som utmanare till gamla datalager. Presto använder inmemorytekniken för att speeda upp frågeställningarna vilket utvecklade Big data vidare. Presto är inte heller begränsat till Hadoop HDFS utan stödjer även traditionella RDBMS databaser med ANSI SQL.
Så både presto och Spark har stöd för BI-lösningar utan klassisk ETL.
Runt detta har det också utvecklats en mängd andra verktyg.
Under denna period ifrågasätts datalagret och dess ETL allt mer på ovanstående grunder.
Istället ersätts vissa delar av datalagret med en datalake.
Datalake innebär uppsamlar av data från sensorer, webben, apparna, social media och system på en lagringsplats. Där tillåts data scientists, data analytiker och andra skriva algoritmer eller transformeringar för att svarar på frågorna, göra prediktiva analyser och hitta mönster i datamängderna.
Datalake lösningarna klarar i många fall att ta emot data i realtid med replikering eller api-styrd realtidsintegration både i molnet eller on-prem. Detta gör att operationell och realtidsanalys lättare kan genomföras.
Vad är det då som är datalagrets framtid och vad är det som har gjort det hett igen? Läs del tre i denna serie.
Håkan Alsen
0738 47 28 00