Skip to content

Big Data: Datalager i molnet med Amazon Redshift

På Knowit Decision använder vi olika molnlösningar både för våra kunder och för oss själva. Huvudskälet till detta är oftast pris/prestanda och att det är så enkelt att starta upp tjänsten.

Andra skäl kan vara tillgänglighet, man betalar enbart för användning, enkel tillgång till standardSQL, kolumnbaserad teknik, klustring och säkerhet. Frågan från många är dock om detta verkligen fungerar för datalager?

Molnkunderna idag använder oftast Microsoft Azure eller Amazon. Både Amazon och Microsoft har lanserat datalager i molnet (Redshift, SQL Datawarehouse). Amazon Redshift används idag som en mer etablerad datalager lösning av Tableau och andra analysverktyg(De som klarar PostGreSQL). Tableau använder live uppkopplingar mot molnlösningar såsom Amazon på samma sätt som man gör mot kuber(SSAS). Microsofts är mer i sin linda då SQL Datawarehouse i Azure fortfarande är i betaversion.

I molnet kan du självklart själv installera din databas, din tableau server eller ditt ETL verktyg. Använder man som i mitt exempel Amazon Redshift så får man en del av detta inkluderat i timpriset. Dessutom dess avancerade klustring vilket prestandaoptimerar lösningen.

För att ladda upp datat till Amazon kan man skicka csv filer direkt dit eller använda olika ETL verktyg. För Amazon Redshift används Attunity CloudBeam, birst, hapyrus, dataduck, snaplogic, talend, alteryx, pentaho eller informatica vanligtvis eftersom de har inbyggda stöd för detta. Vill man använda Oracles eller Microsofts ETL verktyg så finns det olika lösningar att köpa exempelvis  ZappySys connector för SSIS.

Vad gäller ETL så finns det även en del lösningar för att fånga förändringar(change data capture(CDC) )  i realtid såsom Attunity Replicate med Cloudbeam.

Amazon rekommenderar att man har en stagingarea på Redshift innan man hanterar updateringar av tabellerna i molnet eftersom merge(upsert) kommandot saknas i Redshift PostgreSQL. Andra saker som än så länge saknas är index, vissa constraints, functions och procedures. Detta ersätts i redshift med sortkeys, distkey och att tabellen analyseras. Så det är bra att ha en syntetisk nyckel både i dimensionerna och i faktatabellerna här för att få bra prestanda. Som alltid vad gäller utvecklingen kommer detta säkert att förändras och utvecklas framöver.

När nu datalager, ETL och lagring i molnet har blivit möjligt, enkelt och prisvärt så finns det allt färre anledningar att ha egen it-avdelning med driftstekniker, dbaer och annat samt infrastruktur med egna licenser, servrar och komplicerad teknik som måste fungera 24/7.

För Big Data ser jag molnet som en förutsättning för att mer oplanerat kunna analysera, testa samband och ladda upp stora datamängder utan att behöva ta serverkostnad och licenskostnaden.

Vill du veta mer om detta besök vårt seminarie http://www.knowit.se/Event/Goteborg/Framtiden-for-nya-innovativa-affarsmojligheter/

Varmt välkomna

/Håkan Alsén

http://computersweden.idg.se/2.2683/1.640534/amazon