Big data representerer en revolusjon innen kultur, beslutningsprosesser og strategi – ikke bare i teknologi.
Selv om mange snakker om «big data», betyr egentlig big data datasett som er så store og komplekse at de er vanskelig å håndtere med konvensjonelle verktøy.
Gartners definisjon
Avhengig av hvem du spør vil du få forskjellige definisjoner på hva big data er. Det enkleste er å forholde seg til Gartners definisjon med «3V-er»:
- Stort volum (volume).
- Stor variasjon av informasjon (variation).
- Raskt endrende (velocity).
Basert på den definisjonen er altså big data store og varierte mengder data som er i stadig endring.
Vanlig data vs big data
I praksis er forskjellen på «vanlig data» og «big data» avhengig av organisasjon og person. For små bedrifter kan selv noen få gigabytes med data være «big», mens hos Facebook eller Google snakker man gjerne om petabytes og milliarder av rader med data.
I tillegg til størrelse, kan data også forekomme i to hovedkategorier:
- Strukturert
- Ustrukturert
Mens strukturert data typisk er det man finner organisert på en predefinert måte i en database, er ustrukturert data «alt mulig» annet som bilder, lydfiler, filmer, e-post, dokumenter, regneark, og annen data som ikke er organisert.
Antagelser fra flere hold tilsier at andelen ustrukturert data er rundt 70-90% av all data. Data-mining, tekstanalyse, tagging og annen bruk av metadata er eksempler på hvordan man kan få orden på ustrukturert data.
Dagens BI-løsninger avhenger i stor grad av at data er strukturert; big data er gjerne ustrukturert og vil kreve andre løsninger for å kunne omdannes til verdifull informasjon. Mens BI-løsninger gjerne tilbyr deskriptiv statistikk, tilbyr big data eksplorativ og kausal statistikk.
Store muligheter
Det er likevel kanskje ikke datamengden eller datatypen som er det store med big data, men mulighetene som nå finnes for å både aggregere og bearbeide enorme datamengder. Dette skyldes mulighetene til samhandling og sammenkobling via internett kombinert med stadig økende prosesseringskraft.
Med big data kan mengden data være nærmest ubegrenset, så dersom man skal lete etter nåla kan det være lurt å gjøre høystakken litt mindre – altså begrense seg. Uansett omfang og type, big data handler om å fange, behandle, lagre, søke, dele, overføre, analysere og presentere (populært omtalt som “visualisere”) informasjon. For å lykkes med dette behøver man blant annet å gjøre vurderinger med hensyn til underliggende teknologi, kompetanse og ressurser man har til rådighet og ikke minst hva slags innsikt man ønsker.