Blogg | Knowit

Självbetjänad ETL?

Skriven av Håkan Alsén | Oct 25, 2015 11:00:00 PM

Jag har länge engagerat mig i frågan kring självbetjänad BI eftersom jag har sett att dagens användare vill och kan göra sin analys själva.

Jag har också allt sedan Microsoft Access lanserades(1992) sett hur vissa användargrupper älskar att skriva egna frågor och skapa egna datamängder/dataset dvs både göra dataförberedelser(DW) och analyser(BI).

Och trots att IT har genomfört datalager både på avdelningsnivå och på företagsövergripande nivå(EDW) så har de personliga datatvätt(ETL) lösningarna överlevt och utvecklats.

Det som nu händer är att de nya lättanvända personliga ETL-produkterna även har utvecklats åt det företagsövergripande hållet och tillfört en mängd funktioner som på allvar utmanar de IT-drivna klassiska ETL-verktygen.

Ser man utmaningen med självbetjäningen i exempelvis Microsofts ETL-verktyg SSIS eller Oracle ODI eller IBM Datastage så har de inte det fokuset. Många önskar exempelvis att Microsoft lägger sitt självbetjänade ETL verktyg PowerQuery/M direkt i SSIS.

Och även om Microsoft SSIS eller Oracle(OWB) är gratis så blir utvecklingskostnaden förhållandevis hög i en så komplex produkt.

Självbetjäningsverktygen  har också utvecklas så att IT kan hämta tillbaka modellerna som är utvecklat av den enskilda användaren till det verksamhetsgemensamma datalagret(exempelvis Microsofts Tabular kub).

Så vad erbjuder då dagens självbetjäningsverktyg som inte de konventionella  IT drivna verktygen har?

De klassiska ETL verktygen har haft ett stort fokus på att flytta data från en strukturerad tabell till en annan strukturerad tabell samt koppla ihop data och justera den. Detta har sedan kopplats till olika arbetsföden(workflows).

De nya verktygen är helt uppbyggda kring dataflödet direkt istället för att först utveckla datamappningen. Detta att formatera om data, filtrera, koppla ihop eller anpassa data utifrån ett dataflöde gör de nya verktygen enklare och mer visuella. De visualiserar datat hela tiden och skapar förståelse för transformeringen av datat genom väldigt bra spårbarhet(audit). De nya verktygen har också bättre stöd för test med små datamängder, manipulera datat på olika nivåer samt visa relationer mellan olika variabler på ett effektivt sätt. Det är också lätt att kopiera olika delar och återanvända dem i exempelvis loopar.

Detta kan man göra utan att behöva känna till  detaljerade infrastruktur frågor och prestandakonfigureringar. Allt för att förenkla, spara tid och snabbare få fram kvalitetssäkrad data till sin analys. De nya grafiska flöderna(logiska modellerna) skapar också bättre dokumentation än de gamla verktygen.

Jag tycker ETL blir roligare och enklare när du direkt ser datat och direkt ser konsekvenserna av de operationer du använder.

De nya verktygen tillför också mer avancerad analys såsom machine learning, flödesbaserad programmering, spatial analys, regressionsmodellering, klusteranalys och användandet av statistikspråket R. För att inte talat om det geografiska stödet som omvandlar  ort, kommun, gatuadress till riktiga kartpositioner. Eller all inbyggd statistik från mosaik och annat som finns med för att jämföra med befolkningspopulation, inkomstklasser och annat utifrån position.

Detta gör att även Microsoft har utökat sitt partnerskap med nya självbetjänade dataprep leverantörer. http://www.pcworld.com/article/2990785/microsoft-links-power-bi-to-alteryx-for-deeper-analytics.html?utm_medium=referral&utm_content=(not-set)&utm_campaign=short_url&utm_term=(not-set)&utm_source=t.co

Så vill man ha bättre transparens, effektivare utveckling, bättre dokumentation och bättre delaktighet är självbetjänad ETL svaret!

Jag ser detta som en självklar väg framåt för oss alla! Kontakta mig för mer info kring priser som inte är så höga längre, arbetssätt och hur vi kan ta er verksamhet vidare inom detta område.

/Håkan Alsén

hakan.alsen@knowit.se

0738 47 28 00

För Microsoft nördarna finns mer info här: http://www.jenunderwood.com/2015/10/30/alteryx-kit-for-microsoft/