Onze digitale contouren

Het ligt zo lekker in de mond: Big Data. Elke keer als wij het zeggen, weten we dat we deze verzamelterm eigenlijk niet zo mogen gebruiken. Maar het floept er toch zomaar uit. Elke keer gaat de discussie weer over wanneer het big data te noemen en wanneer niet. Is er een andere term, bijvoorbeeld harde data of smart data? Of moeten we er gradaties in brengen bijvoorbeeld Big Big data, Medium Big data en Small Big data?

Even snel terug naar de oorsprong. Alles is terug te brengen naar bytes en Big Data zoals we het er nu over hebben zijn eigenlijk projecten richting metabytes, waar we het een aantal jaren geleden nog hadden over megabytes. Data kan nu onbeperkt opgeslagen worden, wat een aantal jaren geleden nog wel een beperking was (ik bespaar jullie de verwijzing naar de floppy disk) en data zal mede hierdoor exponentieel kunnen toenemen:

Schermafbeelding 2015-12-04 om 10.25.37

Natuurlijk wordt deze toename vooral veroorzaakt door onze online sporen die we meer en meer achterlaten.

Strikt genomen moet Big Data voldoen aan de 3 V’s (Volume, Velocity en Variety) en wordt er onderscheid gemaakt tussen structured- en unstructured data. We staan nu op rond de 5 zettabyte per jaar. Dit betekent in 1 seconde (Internet Live Stats, March 30, 2015):

  • 1,841 Tumblr posts
  • 1,918 Instagram photos uploaded
    8,885 Tweets
  • 48,187 Google searches
  • 98,404 YouTube videos viewed
  • 2,383,324 Emails

Een behoorlijke wildgroei aan die data. Daarom zie je af en toe nog steeds de krampachtige spreuk verschijnen: Big Data is like teenage sex, everybody talks about, nobody knows what it is, of zoiets. Vaak neergelegd door de klassieke onderzoekers die data genereren via claimed responses en/of neurotools, met de kritiek op gebrek aan causaliteit van de big data. En zo lang we de term big data te pas en te onpas blijven gebruiken als verzamelterm, is dit misschien ook wel zo.

Toch zijn de grote organisaties zoals de  T-Mobile’s, Ikea’s en AH’s stevig bezig hun datasystemen te structureren en er is nu al een tekort aan data-scientisten. Dit zijn de bedrijven die al extra “Always on” zijn met hun bonuskaarten, apps, gps, social media afdelingen etc. en op deze manier directe data genereren vanuit verschillende gekoppelde bronnen. Door hier en daar een vragenlijst eruit te gooien over verdere achtergronden en drivers van hun klanten, kunnen zij het profiel van alle klanten binnen een gezonde foutmarge verder extrapoleren op basis van gedragsdata en socio- demographics. Iedereen lijkt op dit gebied over elkaar te struikelen om een hap uit de grote taart te nemen en een voorsprong te halen uit big data, of in ieder geval hierop niet achter te blijven.

Customer journey

Zo weten zij het gedrag en de drivers van de klanten (misschien ook al van  niet- klanten)  keurig in kaart te brengen en weten zij optimaal hun marketing er op af te stemmen. Iedereen kent inmiddels het voorbeeld van de vader die een mailing over zwangerschap binnen kreeg voor zijn 17-jarige dochter. Hierover een klacht indiende bij de supermarkt die dit verzonden had en erachter kwam dat zijn dochter inderdaad zwanger was. De marketeers van de Amerikaanse supermarkt wisten door het aankoopgedrag van haar dochter al eerder dat zij zwanger was dan haar vader.

Online exploitanten gebruiken de online sporen middels cookies  om de optimale banner op te laten poppen, niet alleen van het juist merk met juiste type model. Algoritmes werken inmiddels al zo snel dat ook de de banner met de juiste boodschap op het juiste moment in het beeldscherm op kan poppen. Maar what is all the rush about? de banners worden tegenwoordig dubbel geblokt via banner blindness (irritatie) en de ad-blockers. Dus de vraag is of al deze analyses wel een hoger doel dienen als het niet door de 1e cruciale fase van aandacht komt. Maar dat is weer een andere discussie. TBC in volgende post zullen we maar zeggen.

Onze online “sporen” worden ook gebruikt om ons optimale content aan te bieden, midden in de sweet spot. Netflix doet dit bijvoorbeeld door titels te adviseren op basis van gebruikers met vergelijkbaar kijkgedrag. Kijk hier hebben wij als argeloze gebruiker wel weer baat bij. Tot zover worden vooral marketeers nog best vrolijk van dit verhaal. Zij kunnen direct de customer journey aflezen zonder er ook maar naar te hoeven vragen en kunnen dit verder optimaliseren. Al zit hier ook nog een discussie aan vast dat je niet alleen uit data uit het verleden kan putten, je moet ook durven te experimenteren om de funnel daadwerkelijk te verbeteren.

Ons recht op privacy

Dan komen we meer in de duistere zone. Wat als bedrijven de data die ze binnenkrijgen niet meer voor zichzelf houden en verkopen aan externe data handelaren. Dan komen we in een meer schimmig gebied. Is het onze schuld als we bij PayPal de kleine lettertjes niet hebben gelezen en al onze persoonlijke data op straat komt te liggen en verder wordt verhandeld? Dan ontstaat ineens een groter plaatje. In plaats van anonieme data in te zetten om ons de juiste reclame boodschap voor te schotelen, wordt ons profiel stukje bij beetje verder ingevuld door ik weet niet eens door wie. In ieder geval een organisatie die er veel geld voor over heeft om alle verschillende data op te kopen om profielen van miljoenen, misschien wel miljarden mensen steeds verder in te vullen. Waarschijnlijk als investering om over een paar jaar voor veel meer geld de data weer door te verkopen.

Dit proces is momenteel gaande en het is redelijk beklemmend dat er achter de schermen de contouren van jouw digitaal profiel steeds scherper aan het worden zijn, zonder dat je weet door wie en waarom.