Nya heta datalager 1(3)

Skriven av Håkan Alsén | Aug 14, 2018 10:00:00 PM

Datalagrets framtid del 1(3) Bakgrund

Många med mig har överrumplats av det förnyade intresset för datalager(data warehouse). Datalagret har sedan Qlikview lanserades varit ifrågasatt och är svårt att få riktigt lönsamt.

Men nu när data är det nya guldet och motorn i digitala företag så blir det centralt. Även när klassisk verksamhet satsar på analysavdelningar med datascientists och dataanalytiker blir dataarkitekturen och data management viktigare.

Det har också kommit mycket ny spännande datalagerteknik både i molnet och kring iot. Exempelvis har Data lakes blivit ett nytt tillägg i enterprise arkitekturen, ELT har ersatt ETL, datasharing i molnet har realiseras, Data Vault har förnyats, Warehouse automation har förenklat utvecklingen, graph databaser utvecklas vidare liksom nosql.

Robotics, AI med machinelearning är det nya heta och flyttar även det fokus mot data och korrekta datadrivna beslut.

Problem:

Datalagret kom till när man önskade ett renodlat stöd för utdata. Innan detta byggdes alla rapporter mer eller mindre direkt mot affärssystemen. Problemet var att den lösningen tog mycket kraft ur källsystemen och att det var svårt att skapa rapporter från flera källor som hanterade datat med olika nycklar. Kolumner i de legala systemen var också svårförstådda och mycket logik gjordes under huven eller i rapportprogrammen. Det var också jobbigt att låta all historik ligga kvar i de legala systemen särskilt när källsystemen uppgraderades och strukturen förändrades. Så man behövde en ny smartare lösning som också gav bättre prestanda både för rapportering och analys.

Lösning:

Viktiga drivkrafter för datalager har varit att frikoppla sig från källsystemet och skapa en ny gemensam struktur med hög prestanda och bra datakvalitet.

Inmon lanserade sin lösning med "corporate information factory" för datalager 1990 och Kimball sin dimensionsmodell 1996. I båda fallen extraherade man data från källsystemet och flyttar till en ny server som anpassats för analys. Efter att datan flyttats till den nya serven organiserades den om och transformeras till lägsta möjliga upplösning/granularitet. Datat normaliserades enligt Dates/Codd:s 3:dje normalform eller denormaliserades med faktatabeller och dimensionstabeller i stjärnor. På 2000-talet presenterades även en hybrid av dessa av Dan Linstedt. Denna nya datalager arkitektur fick namnet DataVault.

I datalagret skapas historik med den förändring som sker av data över tid. I de första datalagren med datumavstämning och/eller olika historiktabeller sedan med teknik såsom RCD(Rapid Changin Dimesnions) och SCD(Slowly Changing Dimension). Att hantera denna förändring smartare, enklare och agilt med hubbar, länkar och satelliter blev drivkraften för DataVault lösningen.

Utmaningar:

Utmaningen med datalager är och har varit att olika målgrupper både på strategisk, taktisk och operationell nivå ser på datat på olika sätt. En annan utmaning är och har varit att en del data har ägts av externa aktörer i s.k. blackbox lösningar där man inte delat med sig av datastrukturen. Andra problem är och har varit att vissa aktörer tar väldigt mycket betalt för att ge åtkomst till datat eller för att få möjlighet att använda datat.

Det finns också utmaningar med datalagret när stora förändring sker exempelvis då bolag köps upp, ändrar inriktning, utvecklas, delas eller avvecklas.

En annan invändning har också varit att det tar lång tid att ladda data och att man inte vet hur data har beräknats och bearbetas.

Det är också vanligt att det finns en lång kö av önskemål som det tar väldigt lång tid att genomföra samtidigt som det kostar väldigt mycket att underhålla den befintliga lösningen vilket kräver mycket teknik och verksamhetskompetens vilket i Sverige är svårt att få tag i.

Under vägen har det dessutom tillkommit en mängd nya datatyper från icke strukturerad data samt från sensorer och annan programvara med strömmande data samt från social media och internet vilket har försvårat lösningen. Dessa nya källorna har också skapat väldigt stora datamängder vilka i vissa lägen 90-tals arkitekturen har svårt att hantera.

Ny lösning på ovanstående:

Vad har då hänt som gjort att ovanstående frågeställningar kan hanteras på ett nytt sätt och gjort data warehouse great again?

Jag går igenom detta i del två i denna bloggpostserie.

Håkan Alsen

Hakan.alsen@knowit.se

0738 47 28 00

Visa hela inlägget