Hvor stort er egentlig Big Data?

Fire kjennetegn ved Big Data

Big Data

Begrepet "Big Data" brukes flittig i forskjellige sammenhenger. Men hva er det? Big Data kan defineres med fire kjennetegn: stort volum, stor variasjon, mange variabler og stor sannferdighet.

 

Når mengden av data gjør at de tradisjonelle måter å samle inn og behandle data ikke lenger strekker til, står man vanligvis overfor Big Data.

 

Hvor stort er Big Data?

Når man snakker om Big Data, snakker man også om bytes, og her har utviklingen kraftig dyttet på oppfatningen og forståelsen av Big Data.

For ti år siden snakket man for eksempel om at datasett på et visst antall gigabyte var store. I dag er det ikke uvanlig å behandle datasett på både petabyte og exabyte.

Nå har Big Data nådd et omfang og en størrelse at det er vanskelig å forstå mengden informasjon. For eksempel flyttet Microsoft 150 petabyte data, da de flyttet all informasjon fra Hotmail til Outlook.

Én petabyte er 1.000.000.000.000.000 byte.

Det tilsvarer datamengden til 239.400 DVD-plater (4,38 GB) eller 4,7 milliarder bøker på 200 sider. 150 petabyte tilsvarer nesten 36 millioner DVD-plater.

 

Fire karakteristika for Big Data

Overordnet kan man trekke frem fire karaktertrekk for Big Data: High Volume, High Variety, High Variability og High Veracity eller på norsk: stort volum, stor variasjon, mange variabler og stor sannferdighet. 

  • Stort volum beskriver datavolumet som skal håndteres. Som begrepet antyder, det dreier seg om store datamengder, så mye at ofte har ikke en vanlig datamaskin nok datakraft til å håndtere datamengdene.
  • Stor sannferdighet betyr at når store datamengder samles inn på svært kort tid. Dette skaper en risiko for at feilaktig eller unøyaktig datamateriale samles inn. Derfor er det viktig at virksomheter får på plass prosesser som samler opp og skiller ut ubrukelig data.
  • Stor variasjon betyr at det er så mange forskjellige datatyper at det kan være vanskelig å kategorisere alle. Dokumenter, videoer, bilder med mer inngår ofte i Big Data. Alle datatyper inneholder brukbare informasjoner, men hver datatype krever sin egen analyse- og behandlingsmetode.
  • Mange variabler knyttesofte til med "variasjon" nevnt over, men det er vanskelig å få fatt på den fulle meningen til "mange variabler". Forenklet betyr det at datameningen endres sammen med sammenhengen meningen settes i.


Forskjellen mellom "stor variasjon" og "mange variabler" kan illustreres som et besøk hos en baker som selger 10 forskjellige slags brød. Det er "variasjon". Tenk deg at du går til den samme bakeren tre dager på rad og kjøper samme type brød. Selv om det er det samme brødet, smaker det hver dag litt annerledes fordi det er små endringer i oppfatningen av brødet, og hvor og hvordan du spiser det. Det er "variabler".

 

Hva kan Big Data brukes til?

Hvis litt data er godt, må Big Data være kjempegodt. I teorien er også de fleste enige om at evnen til å behandle store mengder data også gir store muligheter.

Ifølge Magasinet Finans kan Big Data for eksempel brukes til:

• Kredittvurdering

• Avsløring av svindel

• Målrettet markedsføring

• Konkursforutsigelser

• Kredittkortgodkjenninger

 

Den danske Erhvervsstyrelsen, et direktorat under Erhvervsministeriet (Næringsdepartementet), satte i 2013 fokus på Big Data i rapporten "Big Data som vækstfaktor i dansk erhvervsliv – potentialer, barrierer og erhvervspolitiske konsekvenser".

Denne rapporten og flere internasjonale analyser viser at Big Data har store muligheter og Big Data-baserte selskaper klarer seg bedre enn andre selskaper.

Derfor er det også viktig at næringslivspolitikken forholder seg til Big Data og at man diskuterer politisk hva som kan gjøres for å styrke bruken av Big Data.

 

Data har først verdi når de analyseres og brukes

Offentlige og private danske virksomheter, som de norske, samler i dag inn mer data om forretningen, driften, innbyggerne, kundene og så videre enn noen gang før. Likevel greier mange organisasjoner ikke å utnytte dataene godt nok.

Derfor, for å vise vekstmulighetene som ligger i de gjemte og glemte dataene, har blant andre IBM, EG, Teknologisk Institutt og Dansk Industri gått sammen prosjektet DataForBusiness.org.

Prosjektet går blant annet ut på å stille bedriftene en rekke spørsmål rundt bruken av data. Svarene legges deretter inn i et verktøy som gir bedriftene innsikt i sitt datapotensiale og sammenligner bedriften mot over 500 andre selskaper. På toppen gir prosjektet tilgang til planer og rådgiver som kan ta bedriften til neste trinn.

Det tar cirka 20 minutter å besvare undersøkelsen på DataForBusiness.org – også norske selskaper kan delta. Dermed får man et raskt overblikk over hvordan bedriften gjør det og innsikt i hvilke områder man kan bruke informasjonen man allerede samler inn bedre.

 

Imens vokser datamengden

Mens forskerne, IT-selskapene og ikke minst ledelsen i offentlige og private virksomheter forsøker å sirkle inn og utnytte fenomenet Big Data, vokser mengden data sekund for sekund.

Annet hvert år fordobles verdens samlede datamengde. Ifølge Dell Technologies vil det digitale universet i 2020 være ti ganger større enn det var i 2014.

Cisco anslår at verdens samlede datamengde i 2020 vil være 6,2 zettabyte.

Her kan du se en kort video om Big Data: https://youtu.be/TzxmjbL-i4Y.

 

Datamengder

En byte er bygd opp av 8 bits. En bit er en verdi, enten 0 eller 1 (på eller av). Èn karakter, for eksempel “a” er 1 byte.

Kilobyte = 1.024 byte. Tilsvarer to-tre avsnitt tekst.

Megabyte = 1.024 kilobyte eller 1.048.576 byte. Tilsvarer fire bøker på 200 sider.

Gigabyte = 1.024 megabyte eller 1.073.741.824 byte. Tilsvarer 4.473 bøker på 200 sider.

Terabyte = 1.024 gigabyte eller 1.099.511.627.776 byte. Tilsvarer 233 DVD-er på 4,38 GB.

Petabyte = 1.024 terabyte eller 1.125.899.906.842.624 byte. Tilsvarer 239.400 DVD-er på 4,38 GB.

Exabyte = 1.024 petabyte eller 260 byte. Tilsvarer 245.146.535 DVD-er på 4,38 GB.

Zettabyte = 1.024 exbyte eller 270 byte. Tilsvarer 251.030.052.003 DVD-er på 4,38 GB.

Yottabyte = 1.024 zettabyte eller 280 byte. Tilsvarer 257.054.773.251.740 DVD-er på 4,38 GB.