Big Data is hot. Als je de twee woorden bij Google intypt, krijg je 5,8 miljard ‘hits’, variërend van trainingen en analyses tot definities en toepassingen. Maar Big Data wordt ook overschat en er blind op varen is soms zelfs ronduit gevaarlijk. Daarvoor waarschuwt jurist en filosoof Mireille Hildebrandt. “Bedrijven moeten zelf leren nadenken. Hebben ze een probleem dat met Big Data toepassingen kan worden opgelost? Of gaan ze achter die data aan, omdat iedereen dat doet?”
Mireille Hildebrandt heeft het druk. Heel druk. Ze is net terug uit Parijs, werkt de nodige conference calls weg vanuit haar kantoor in Brussel en vertrekt dan weer naar Den Haag om als key note speaker bij het Big Data Debat van het Verbond van Verzekeraars op te treden. “Ik heb ooit tegen een collega gezegd dat ik de gangen op Schiphol beter ken dan de gangen op het werk. Dat is een grapje hoor. Ik werk normaal gesproken in Nederland en België, maar zit ook veel in Parijs en Londen. We gaan het toch niet over de Brexit hebben hé?”
Dit is het vijfde gesprek in een nieuwe reeks. Een reeks van interviews met een belangrijke stakeholder over een actueel thema. In deze In gesprek met … komt Mireille Hildebrandt aan het woord.
Hildebrandt is onderzoekshoogleraar Interfacing Law and Technology aan de Vrije Universiteit in Brussel en deeltijd hoogleraar Smart Environments, Data Protection and the Rule of Law aan de Radboud Universiteit. Ze houdt zich bezig met het functioneren van de rechtstaat in cyberspace en is een groot voorvechter van privacy.
In 2018 heeft de Europese Onderzoeksraad haar een beurs (2,5 miljoen euro) toegekend,
waarmee ze gaat onderzoeken wat de gevolgen zijn van de digitalisering van het recht door kunstmatige intelligentie en blockchain. Alle informatie over dat onderzoek (Counting as a Human Being in the Era of Computational Law) is te vinden op cohubicol.com.
Eerdere interviews zijn verschenen met Marjolein ten Hoonte (over de arbeidsmarkt), Hans de Moel (over het klimaat), Theo Kocken (over pensioen) en Edgar Karssing (over solidariteit).
“Ik was in 2002 gedetacheerd bij de Vrije Universiteit in Brussel toen we werkten aan een project om de verantwoordelijkheden van de diverse wetenschappen uit te diepen. Een deelproject betrof de inzet van Big Data en de diverse correlaties die daaruit worden afgeleid. Ik ben daar verder ingedoken en allerlei projecten gaan begeleiden. Al snel merkte ik dat Big Data technieken – die eerst datamining heetten, later overgingen in machinaal leren en inmiddels kunstmatige intelligentie worden genoemd – ontwrichtend kunnen werken voor het recht. Neem het voorbeeld van een slimme koelkast. Wie is er aansprakelijk als er wat fout gaat? Een van de softwareleveranciers, de maker van de hardware, degene die verschillende software-onderdelen integreert en assembleert met de hardware? Degene die de koelkast heeft geleverd? De gebruiker? Ik was nieuwsgierig wat kunstmatige intelligentie en robotica betekenen voor de toewijzing van causaliteit en ben steeds meer de samenwerking op gaan zoeken met informatici om beter te begrijpen hoe data-gestuurde systemen werken. Dat leidde uiteindelijk tot mijn leerstoel in Nijmegen (Smart, Environments, Data Protection and the Rule of Law) bij de informatici. Daar werk ik intussen al weer ruim acht jaar.”
“Het heen en weer gaan tussen computerwetenschappen, het recht en de filosofie is heel spannend en interessant. Ik merk aan mijn studenten in Nijmegen dat computerwetenschappers heel snel kunnen denken over complexe dingen. Net als een rechter of een jurist weet dat rechterlijke uitspraken verstrekkende gevolgen hebben, omdat het recht een systeem is waar iedere aanpassing doorwerkt in andere delen van het rechtssysteem, weet een computerwetenschapper dat als zij ergens iets kleins bijstelt dat doorwerkt in andere delen van het computersysteem. Een jurist en een computerwetenschapper hebben veel gemeen, meer dan de meeste mensen denken.”
“Dat is een uitspraak van de bekende techniekhistoricus Kranzberg. Laat ik een voorbeeld geven om uit te leggen wat hij bedoelt. Stel dat jij een pistool thuis hebt. Als je dat pistool in je hand hebt, is dat niet per definitie negatief, want je hoeft er niks mee te doen. Maar, je kunt er wel meer mee dan met een mes, omdat dat een andere reikwijdte heeft. Dat is ook niet per se positief. Als wij als samenleving besluiten om pistolen te gaan produceren, dan ontstaan andere er verwachtingspatronen en andere machtsverhoudingen en in die zin heeft technologie een normatieve invloed. Als je dat doortrekt naar kunstmatige intelligentie, dan is het niet zo interessant om daar voor of tegen te zijn. Belangrijker is te onderzoeken wat er verandert als een samenleving het op grote schaal inzet en zich in toenemende mate afhankelijk maakt van die inzet. Welke nieuwe risico’s lopen we als samenleving en worden die misschien anders verdeeld?”
“Er zijn er twee die om voorrang strijden. De eerste is het aantasten van onze grondrechten, bijvoorbeeld privacy. Ik ben momenteel met een casus bezig over een hartritme-app. Die App wordt ontwikkeld op Facebook, met software van Facebook en het zou zo maar kunnen dat de gegevens van de gebruiker rechtstreeks naar Facebook gaan. Dat weet de gebruiker niet, die ziet alleen de interface van de App, maar heeft geen idee wat er allemaal aan de achterkant gebeurt. Stel dat Facebook toegang heeft tot jouw hartslag en allerlei koppelingen met andere gegevens kan maken. Probeer je voor te stellen wat daaruit kan worden afgeleid en aan wie dat soort profielen kunnen worden doorverkocht. Ik moet er al een halve dag op studeren om enig zicht te krijgen op welke gegevensstromen welke partijen bereiken, laat staan dat een gemiddelde consument zich kan weren en zich op haar grondrecht kan beroepen.
Het tweede risico is wat mij betreft net zo groot en heeft vooral te maken met de betrouwbaarheid en de veiligheid van toepassingen van machinaal leren. Er zijn veel gezondheids-Apps in omloop en van sommige weten we al dat die uitermate onbetrouwbaar zijn. Ik zou de betrouwbaarheid van die hartritme App wel eens getest willen zien. De gegevens die via zo’n app ‘vrijkomen’, kunnen immers bij diverse partijen terechtkomen die op basis daarvan mogelijk beslissingen nemen. Dat kan zelfs leiden tot fysiek gevaar. Dat geldt uiteraard ook voor andere toepassingen van kunstmatige intelligentie, omdat vaak niet duidelijk is of die wel betrouwbaar zijn.”
“Jazeker. Op dit moment hangt er een sfeer alsof we alles kunnen met data, maar het kan zelfs fysiek gevaarlijk zijn als data-gestuurde toepassingen als heilige graal worden binnengehaald. Met name in de medische zorg, bij zelfrijdende auto’s en bij andere kritische infrastructuur. In Europa hebben we gelukkig goede regelgeving, met name dankzij de AVG (Algemene verordening gegevensbescherming), die harde eisen stelt aan de verwerking van persoonsgegevens en aan geautomatiseerde beslissystemen. Maar het zou goed zijn om ook als het niet om persoonsgegevens gaat veel meer voorzorg te betrachten bij de inzet van data-gestuurde infrastructuur. Bijvoorbeeld door te eisen dat wie toepassingen van kunstmatige intelligentie in de markt wil zetten het onderzoeksontwerp vooraf moet registeren (inclusief alle aanpassingen). Bij het op de markt brengen van medicatie is dat niet voor niets een voorwaarde. We moeten in Europa niet bang zijn om achter te lopen in vergelijking met China en de VS. Hardlopers zijn doodlopers. Als je kritische infrastructuur (bijvoorbeeld slimme energienetwerken) teveel laat afhangen van systemen die nog niet goed zijn getest, dan is dat levensgevaarlijk. Voor personen, maar ook voor de samenleving als geheel.”
“Als je daarmee bedoelt dat we onrealistische verwachtingen hebben van data, is het antwoord zeker ja. Veel data is ‘low hanging fruit’. Vaak wordt data gebruikt die gemakkelijk of goedkoop beschikbaar is in plaats dat wordt geïnvesteerd in de data die nodig is (en die mogelijk überhaupt niet beschikbaar is). Een andere denkfout is dat als je maar heel veel data hebt, mogelijke fouten vanzelf worden weg gefilterd. Dat is echt onzin.”
"Veel data is lowhanging fruit"
“Omdat sommigen denken dat data gelijk staat aan feiten. En dat is niet zo. Wij leven in de werkelijkheid, niet in data. Als je data productief wilt maken voor de werkelijkheid, moet je die data eerst bewerken en daarna een hele serie ontwerpkeuzes maken (die deels in de sfeer van de hogere wiskunde liggen). Mogelijk kom je dan tot relevante patronen, maar de kans is veel groter dat je met zogenaamde ‘spurious’ correlaties gaat werken, die nutteloze of onjuiste verbanden leggen. Er moet veel meer en beter worden getest, zowel wiskundig als empirisch. En dan kan blijken dat in negen van de tien gevallen data-gestuurde applicaties geen toegevoegde waarde hebben.”
“Omdat ze de eerste vraag al niet stellen: moet ik wel met Big Data werken? Het werkt nu vaak andersom. De consultant komt binnen en zegt: ‘toon me je data, dan zal ik daar de toegevoegde waarde uit halen.’ Bedrijven moeten zich afvragen: heb ik een probleem en kan dat worden opgelost met data? Of ga ik naar rechts, omdat iedereen naar rechts gaat? Dat is sowieso niet zo slim, want dat leidt per definitie niet tot een competitief voordeel. Als iedereen al naar rechts gaat, kan het verstandig zijn om even af te wachten. Of juist naar links te gaan.”
“Als je in een markt slim voor de dag wilt komen, kun je beter doen wat niemand doet. Iemand die alleen durft wat anderen al doen, kan misschien beter geen bedrijf beginnen.”
“Ik ken een leuk voorbeeld. Het gaat om een vijf sterren hotel in een skiresort in Oostenrijk. Zij hadden smartcards voor hun hotelkamers, totdat ze drie keer achter elkaar met een ransomware-attack te maken kregen. Ze moesten elke keer 1.500 euro betalen om hun systeem weer van het slot te halen. De kamers waren tijdens zo’n attack niet toegankelijk. Gasten konden er dus niet in, maar ook niet uit. De eerste keren betaalde het hotel, maar na de derde keer zochten ze naar een meer duurzame oplossing. De meest eenvoudige? Ze hebben het smartcard-systeem afgekoppeld en iedere gast weer een gewone sleutel gegeven. Want het kan best leuk zijn om via een smartcard te weten hoeveel mensen om 12.00 uur op hun kamer zitten of naar welke televisiezender het meeste wordt gekeken, maar wat schiet je er per saldo mee op?”
“Dat is te simpel, maar vraag je altijd eerst af welk probleem je wilt oplossen en denk vanuit dat probleem. Misschien kom je in confrontatie met de uitkomsten van onderzoek in bedrijfsdata wel nieuwe problemen of kansen tegen, maar kijk ook dan goed naar de mate waarin dat probleem zich in de werkelijkheid voordoet (dat is niet hetzelfde als in de data). Wij lopen op de universiteit bijvoorbeeld tegen verschillende software-applicaties aan. Systemen waarin je als medewerker declaraties indient of vakantie aanvraagt. De meeste medewerkers vinden die software heel gebruikersonvriendelijk. Voor de gegevens die je moet invoeren, is soms net weer geen vakje beschikbaar. Dan moet je de helpdesk bellen, die uiteindelijk vaak aanraadt om je gegevens dan maar in het verkeerde vakje toe te voegen. Dat vakje is dan eigenlijk een sluiproute, waardoor het systeem informatie verkeerd opslaat. En terwijl het bestuur denkt zeer precieze data-overzichten te krijgen, gaat die vlieger helemaal niet op. Zo houden we met zijn allen steeds meer data-fantasieën in de lucht. Want dit is een voorbeeld van de universiteit, maar het had net zo goed over een willekeurig bedrijf of een zorginstantie kunnen gaan. Medische dossiers zijn hier geen uitzondering. Het gebeurt overal. We vertrouwen er veel te veel op dat de data die we genereren betrouwbaar is.”
“Jazeker. Ik kan me persoonlijk niet meer voorstellen dat ik niet even kan googelen. Dat zit ingebed in ons leven. Ik doe het, jij, maar ook een kind van 5 dat wil weten of het wel waar is wat de juf zegt. Probleem is dat die technologie ons veel kansen biedt, maar ook veel risico’s oplevert. Als jij een filmpje op YouTube bekijkt, zie je aan de zijkant al allerlei andere filmpjes opdoemen. Het is bekend dat het algoritme wordt getraind om meer advertentie-inkomsten te genereren. Minder bekend is dat jij steeds extremere content krijgt aangeboden om je op YouTube te houden. Dat heeft niemand met opzet zo bedacht, maar dat is wel wat het algoritme teweegbrengt. Ik vind het zorgwekkend dat onze toegang tot kennis wordt beheerst door een algoritme dat commercieel wordt geëxploiteerd. Google is fantastisch, maar het algoritme dat voor iedereen bepaalt wat relevant is, is bedrijfsgeheim.”
"Google is fantastisch, maar het algoritme is een bedrijfsgeheim"
“Verzekeren is gebaseerd op een onzeker voorval. Als er genoeg data zijn, kun je dat onzekere voorval reduceren tot een gepersonaliseerde risico-inschatting. Maar als iedereen een gepersonaliseerde premie moet betalen, zakt de grondslag voor verzekeren weg en moet de sector opnieuw nadenken over de verhouding tussen verzekeren, sparen, aansprakelijkheid en belasting heffen. Mensen die op grond van hun gepersonaliseerde risico een heel hoge premie moeten betalen, zullen dat mogelijk niet op kunnen brengen en terugvallen op sociale zekerheid of sparen. En mensen die heel weinig hoeven te betalen, zullen concluderen dat ze het risico wel zelf kunnen dragen.”
“Als ik daar het antwoord op had, was ik nu rijk. Ik geloof eerlijk gezegd niet dat een geheel gepersonaliseerde voorspelling mogelijk is. Ik denk wel dat de sector opnieuw naar het eigen verdienmodel zal moeten kijken, omdat de verhouding tussen sparen, verzekeren, aansprakelijkheid en belastingheffing anders wordt op het moment dat risico-inschattingen steeds meer worden geïndividualiseerd. Het verzamelen en inzetten van gedragsdata kan heel interessant zijn, mits dat op verantwoorde wijze gebeurt. We moeten daar met andere woorden behoedzaam mee omgaan. Als wij niet willen dat Big Tech of de overheid in onze badkamer meekijkt, dan moeten we daar van tevoren over nadenken. Niet achteraf. Ik zou er graag voor willen pleiten dat we wat meer met beide benen op de grond blijven staan. Ook verzekeraars moeten zich niet bang laten maken en zich zeker niet laten opjutten door onrealistische data-gestuurde fantasieën.”
“Dat hangt af van het niveau waarop de verzekeraar opereert (business-to-business of business-to-consumer), maar in algemene zin zou ik ervoor zorgen dat mensen niet worden vervangen door algoritmes. Ik zou investeren in domeinexpertise en persoonlijke omgang met de klant. En ik zou ervoor zorgen dat mijn mensen leren wat algoritmes wel en niet kunnen en hoe ze de teugels stevig in handen kunnen houden.”
"Verzekeraars moeten zich niet bang laten maken"