Big Data

Big Data

De senere årene har Big Data innen online annonsering vært det store nye. Eller det som en gang skal bli det store nye.

Men hva er egentlig Big Data? Hvor står vi i dag? Og hvordan vil Big Data påvirke hverdagen vår i fremtiden?

Begrepet Big Data

Begrepet Big Data kommer fra IT-bransjen og beskriver datasett som vokser seg så store at de vanskelig lar seg håndtere med tradisjonelle databaseverktøy. Vanskelighetene forbundet med Big Data omfatter innsamling, lagring, søk, deling og visualisering innen datasettet.

Og vi snakker om ekstreme mengder data, faktisk så store mengder at det gjerne må hundre- eller tusenvis av servere til for å prosessere et datasett.

Big Data handler i all hovedsak om å ta i bruk enorme datamengder innen Business Intelligence (BI), slik at man kan komme opp med mer eller mindre virksomhetskritisk informasjon.

Donasjon av prosessorkraft

I januar 1996 startet forskeren George Woltman prosjektet «The Great Internet Mersenne Prime Search», også kjent som GIMPS.

GIMPS er et samarbeidsprosjekt innenfor det man kaller «volunteer computing», hvor privatpersoner kan la datamaskinen sin arbeide med databehandling av større datasett når datamaskinen ikke allerede er opptatt med andre oppgaver. Hver enkelt bidragsyter vil i det skjulte behandle sin egen del av datasettet, og samlet sett vil alle bidragene kunne utgjøre en stor forskjell.

Målet med GIMPS var å finne Mersenne-primtall, perfekte tall som det per i dag bare er funnet 48 av, hvorav alle som er oppdaget siden november 1996 (14 tall) kan krediteres GIMP-prosjektet. Per 12. desember 2013 bidrar 873 779 prosessorer i GIMPS.

Lignende prosjekter pågår også innen andre fagfelt, blant annet medisin.

En dag i fremtiden vil kanskje kreftgåten løses av din PC mens du står ved kaffeautomaten på jobb?

Big Data og kommersiell virksomhet

Samarbeidsprosjekter som GIMPS dreier seg hovedsakelig om allmennyttig forskning, og det kan være vanskelig å tro at man kan få til en slik dugnad innenfor kommersiell virksomhet, hvor målet selvsagt er mest mulig profitt. Men for all del, lager man en Justin Bieber-skjermsparer som kan prosessere data i bakgrunnen skal man ikke se bort i fra at det lar seg gjøre.

Selv om Big Data gjerne har sitt utspring i forskningsmiljøer har det nå også funnet frem til næringslivet.

eBay

Alex Liang, director of data and data infrastructure hos eBay, kunne i mai 2013 fortelle om deres arbeid med Big Data på konferansen «Teradata Big Data Analytics» i Sydney.

eBay
Foto: Kazuhisa OTSUBO (CC BY 2.0)

eBay har mer enn 50 000 produktkategorier og selger varer for mer enn 3500 USD hvert eneste sekund (21 500 NOK). Hver eneste dag får eBay inn rundt 100 terabytes med nye data, noe som fikk de til å ta i bruk sine Big Data-plattformer i 2011.

- For eBay handler data om verdi, og hvis du ikke kan få noen verdi ut av Big Data burde du heller ikke bruke ressurser på det, fortalte Liang.

3 500 000 000 000 rader

Men å få noen verdi ut av dataene viste seg å være en utfordring for eBay: Deres integrerte analyseverktøy hadde allerede mer enn 100 000 dataelementer, 90 petabytes med lagrede data og tabeller med 3500 milliarder rader. I tillegg var det 12 000 interne brukere av deres Business Intelligence, med vidt forskjellige behov.

eBay rullet derfor ut tre forskjellige plattformer med hver sin spesifikke analyseoppgave. En plattform tar for seg Business Intelligence for kjernevirksomheten, en annen plattform adferdsanalyse for selve nettsidene og en tredje plattform forfalskninger og bildeklassifisering.

- Vi møter stadig aggressiv konkurranse fra andre nettsteder, så data er det største fortrinnet eBay har. Hvert forretningsinitiativ er basert på data, kunne Liang slå fast.

Sammenheng mellom bildekvalitet og salgspris

Et eksempel på informasjon som eBay har fått ut av Big Data er sammenhengen mellom bildekvalitet og salgspris. Tom Fastner, en kollega av Alex Liang, fortalte nylig at de ville undersøke denne sammenhengen nærmere, så de flyttet et par petabytes med bilder fra bildeserverne deres over til en av Big Data-plattformene.

Da dette ble prosessert fikk de ut strukturert informasjon om blant annet hva varene ble solgt for og hvor mange som kikket på de forskjellige produktene. Dette beviste at det var en klar sammenheng mellom bildekvalitet og salgspris. Nå brukes denne kunnskapen til å opplyse og veilede både eBay og deres selgere om hva som må til for å få de beste salgsresultatene.

Windermere Real Estate

Eiendomsmeglerforetaket Windermere Real Estate, basert i Seattle, har 300 kontorer og 7000 agenter i det nordvestlige hjørnet av USA.

Noe av det viktigste når man kjøper en bolig er, selvfølgelig, beliggenhet. Og da gjerne også i forhold til arbeidsplassen sin. Selv har jeg pendlet mellom Lier og Oslo i 8 år, så jeg vet hvor stor del av livet dette kan utgjøre.

Å beregne kjøreavstand mellom to destinasjoner, og også kjøretid basert på gjeldende fartsgrenser, er noe som har blitt brukt i årevis. Ikke akkurat «rocket science».

Men i mars 2013 lanserte Windermere en ny tjeneste som viste bedre estimater for hvor lang tid det tar å tilbakelegge en kjørerute med bil. De lisensierte et verktøy fra selskapet Inrix som gir et estimat, time for time gjennom hele døgnet, på hvor lang tid det tar å kjøre mellom boligen som selges og en valgfri adresse (eksempelvis arbeidsplassen).

- Hvis vi kan eliminere innvendinger tidligere i prosessen, betyr det at vi kan sikre et salg mye raskere, sa York Baur, CEO i Windermere Solutions, eiendomsmeglerforetakets teknologiske datterselskap.

Peter's new in-dash system
Foto: Kevin Lim (CC BY-NC-SA 2.0)

Beregningene til Inrix baserer seg på data fra over 100 millioner sjåfører over hele verden med navigasjonssystemer som anonymt rapporterer tilbake deres posisjon og hastighet. Dette kombineres med sensorer langs veiene og andre kilder, og resultatet blir rimelig gode estimater på hvor lang tid du bruker til jobb midt i rushtrafikken.

Nye data kommer inn kontinuerlig, for så å bli analysert og kompilert inn i en historisk database som oppdateres hver 90. dag.

Eksempelet nedenfor viser kjøretiden mellom en tilfeldig bolig i Seattle og hovedkontoret til Microsoft. Standard veibeskrivelse fra Google Maps opplyser om at kjøreruten tar 21 minutter, mens prospektet fra Windermere gir et mer nyansert bilde: Mens det tar 20 minutter å kjøre hjem rundt lunsjtider, tar det 28 minutter i rushtiden på ettermiddagen. I USA består et vanlig årsverk av 260 arbeidsdager, så 7-8 minutter ekstra kjøretid hjem fra jobb utgjør årlig 30-34 timer.

Inrix Drive Time

Big Data innen online annonsering

Etter at Big Data har blitt et «buzz word» i digital markedsføring har markedsførere og tredjeparter som annonsenettverk og teknologileverandører gått mann av huse for å samle inn data. Ikke alle har kommet dit at de har klart å knekke koden for hvordan de skal bruke disse dataene, men alle er enige om at dette er den nye oljen og at det vil gi en verdi i det lange løp.

Best å være på den sikre siden

Ved siden av studiene mine arbeidet jeg hos den lokale kjøpmannen i hjembygda, en god gammeldags kremmer i slutten av 60-årene som hadde arbeidet i familiebedriften hele sitt voksne liv. Han så inntektspotensiale i hver eneste lille ting, og selv om dette ikke var KIWI var det «ei krone her og ei krone der» som var leveregelen.

1. januar 2003 kom rusbrus i butikkhyllene, til stor ståhei i media. Disse små glassflaskene var det ikke pant på, men folk leverte de likevel i panteautomatene.
- Hva om det innføres pant på disse flaskene en gang i fremtiden? tenkte kjøpmannen. Så fra januar 2003 kom det en ny arbeidsoppgave på agendaen i den lokale butikken: Rusbrusflasker skulle heretter ned i esker for så å bli oppbevart på en låve et sted i bygda, i påvente av en eventuell panteordning. Jeg vet ikke hvordan det er med panteordning for rusbrusflasker i dag, men kjøpmannen pensjonerte seg uansett tre år senere uten å ha fått uttelling for «investeringen» sin, mens butikken havnet i eierskapet til en av de større dagligvarekjedene.

Det er noe av det samme vi ser innenfor online annonsering i dag. Data samles inn i enorme mengder, for å eventuelt komme til nytte ved en senere anledning. Og det er selvsagt fornuftig, siden Big Data i stor grad dreier seg om å se på historiske data.

Målet er relevans og målretting

Med fremveksten av World Wide Web og sosiale medier hvor det legges opp til 1:1-kommunikasjon, samtidig som tradisjonelle massemedier med 1:∞-kommunikasjon har mistet mye av sitt momentum, har det skjedd et skifte innen markedsføringen.

Der man tidligere endte opp med å markedsføre smale produkter for det brede publikum, kan man i dag målrette annonser mot smalere målgrupper i mye større grad. Det er ikke lenger nødvendig å skyte spurv med kanon.

For å få til dette må man kjenne konsumentenes kjøpsmønster, hvor de handler, hvor mye de handler for, hvilke behov de har og hvordan de benytter fritiden sin.

Kombinerer man Big Data og målrettede annonser kan du vente deg en annonse for en lokal hundekennel fordi du leste deg opp om valper på Dyrebar.no i fjor vinter, leste magasinet «Ditt Bryllup» på Klikk.no i sommer, søkte etter romantisk ferie for to tidligere i høst og sjekket været for Maldivene på Storm.no. For et sted må jo kjæledyret være når matmor og matfar er på bryllupsreise?

Kampen om dataene

Med Big Data kommer et annet hett tema frem fra skyggenes dal: Personvern.

«Brukeren i gata» har historisk sett ikke vært særlig opptatt av personvern på nettet, og myndighetene har ikke fulgt med i timen. Men nå begynner begge å innse at noe er i ferd med å skje.

Cookieloven

Danske Ekstra Bladet opplyser om deres bruk av cookies

Hvor mye informasjon om ditt liv og leven skal du egentlig gå med på at andre lagrer om deg? Temaet har allerede vært oppe til diskusjon i forbindelse med den mye omstridte «cookieloven» i regi av EU, som for Norges del ser ut til å ville bety mer skjerpede krav til informasjon overfor forbruker. Du kan allerede se dette hos nettsteder rundt om i Europa, hvor det tydelig opplyses om at nettstedet benytter cookies og hva dette innebærer for deg og ditt personvern.

Tredjeparter

Publisister har også blitt mer bevisste på hvilke eksterne tredjeparter de vil slippe til på sine nettsider. En tredjepart kan jo sette en cookie som samler inn verdifulle data, data som du helst ville beholdt eksklusiviteten til og kapitalisert på for egen maskin.

Satt på spissen kan man se for seg hva et annonsenettverk kunne utrettet om de fikk sneket inn et lite trackingscript, gjerne så uskyldig som et transparent bilde som måler 1x1 piksel, på et nettsted som Altinn. - Jaså, du leverer flyttemelding til folkeregisteret? Da kanskje du er i målgruppen for vår seneste kampanje for dette flyttebyrået?

Det som kanskje er mer skremmende er tanken på at du sannsynligvis deler mer personlig informasjon på tjenester som Facebook og Gmail, og i motsetning til Altinn består deres forretningsmodell i nettopp det å bruke informasjon om deg til å vise målrettede annonser.

Svend Asbjørn Sylling, 13. desember 2013

Bloggen fra Sylling Hardcode