Generic

Duidelijkheid over onduidelijkheid, is dat duidelijk?

Share this post:

Door Frank van der Wal

Big Data is hot. Maar wat verstaan we precies onder Big Data, of Data in het algemeen?

De meesten van ons hebben meegemaakt dat data louter in de vorm van gegevens in databases bestond. Data die keurig in databases wordt opgeslagen, noemen we gestructureerde data. De structuur zit hem in het keurslijf dat de database oplegt. Het voordeel van deze opslagmethode is dat elke geauthoriseerde gebruiker of applicatie fijntjes bij de data kan.

Toen kwam ongestructureerde data. Dit is grofweg alle data die niet in een database zit. Dat zijn webpages, mail, pdf’s, tekstbestanden, en ja, zelfs spreadsheets. Daar heb ik al wat wilde discussies over gevoerd met mensen die niet konden begrijpen dat een spreadsheet ongestructureerde data is. “Alles staat toch netjes in cellen, rijen en kolommen?” Waar. Maar toch wordt het door de techniek als ongestructureerd beschouwd. Er is een specifieke applicatie (het spreadsheet-programma) nodig om de data te kunnen benaderen. Bovendien zitten er macro’s en opmaakcommando’s in, wat niet meer te vergelijken is met de gestructureerdheid van gegevens in een database.

Los van het type data onderscheiden we een aantal ‘V’s’. De eerste ‘V’ is van Volume, de ongebreidelde groei. Beide type data groeien, maar het de ongestructureerde data groeit veel sneller dan de gestructureerde data. Denk maar eens aan Twitterberichten en updates op facebook en via Whatsapp. Volgens de laatste schatting zou er in 2020 maar liefst 35 ZettaByte aan data zijn. Dat is een 35 met 21 nullen.

De tweede ‘V’ staat voor Variety, de verschillende soorten van data (gestructureerd en ongestructureerd). Met name de ongestructureerde data is heel erg divers. Van spreadsheets naar Whatsapp, van sensordata naar streaming video, van GPS naar mobile device. Die variëteit is een lastig aandachtspunt.

De derde ‘V’ staat voor Velocity. De wereld verandert snel van een batch-georiënteerde gegevensverwerking naar real-time. Over het algemeen zie je de snelheid van gegevensverwerking toenemen. Wie kijkt er nog naar tweets van een maand, een week of zelfs maar een dag geleden?

Dit schetst al een aardig beeld van Big Data. Big in die zin dat de drie V’s ervoor zorgen dat het niet meer in één oogopslag te behappen valt. En data is een zeer groot bedrijfsasset. Het loopt van de infrastructuur tot en met de meest geavanceerde en bedrijfskritische analyses. En het stopt niet met slechts drie V’s. Er komt een vierde aan, Veracity, dat waarheidsgetrouw betekent.

Dat is lastig te begrijpen: hoe kan data nou niet meer betrouwbaar zijn?

De waarheid in de harde databasesystemen kan geflankeerd of zelfs overtroefd worden door de stroom aan data van ongestructureerde en dubieuse aard, zoals bijvoorbeeld data uit social media. Toch selecteren bedrijven hun toekomstige medewerkers mede op hun social media profiel. Hoe betrouwbaar is dat? IBM heeft eens uitgerekend dat in 2015 80 procent van de wereldwijde data uit onbetrouwbare bronnen komt. 80 procent! Voor een groot deel gegenereerd uit sensoren. IBM schat in dat tegen die tijd er zo’n 15 miljard sensoren zijn en we stoelen ons op de mening dat alle data uit sensoren een slecht waarheidsgehalte heeft. Voor een ander groot gedeelte wordt die 80 procent uit social media geput.

 Het is een indrukwekkende en spannende tijd voor alles wat met die data te maken heeft. IBM heeft zich in de afgelopen jaren aardig gemanifesteerd op het gebied van Information Management. Vele, vele overnames, en terecht. Binnen IBM Research spelen projecten om de onzekerheid te kunnen tackelen, wat de volgende grote uitdaging wordt. En dat is zeker. Toch?

More stories

Is regulation enabling or hindering innovation in the financial services industry?

Anne Leslie, Cloud Risk & Controls Leader Europe, IBM Cloud for Financial Services Europe’s financial services sector is in the throes of wide scale digital transformation – a transition being accelerated by the growing adoption of digital solutions and services to help keep up with the demands of digitally savvy consumers. While there can be […]

Continue reading

The Digital Operational Resilience Act for Financial Services: Harmonised rules, broader scope of application

The Digital Operational Resilience Act – what and why As part of the European Commission’s Digital Finance Package, the new Digital Operational Resilience Act, or in short DORA, will come into force in the coming period. The aim of DORA is to establish uniform requirements across the EU that improve the cybersecurity and operational resilience […]

Continue reading

Banking on empathy

Suppose you’re owning a small boutique wine shop and have gone through two difficult years because of the Covid-19 pandemic. As the pandemic seems to be on its way back, it is time to revitalize the shop. And this causes direct a huge challenge: the wine stock needs to be replenished but you have used […]

Continue reading