Wouter Hoeffnagel - 18 september 2025

CWI ontwikkelt methode voor identificeren van gevoelige gegevens in VN-datasets

Humanitarian Data Exchange (HDX) is het openbare dataplatform van de Verenigde Naties, die meer dan 19.300 datasets bevat uit 254 crisisgebieden wereldwijd. Het platform wordt gebruikt voor de coördinatie van humanitaire hulp. Toch kunnen sommige gegevens risico’s met zich meebrengen als ze onbedoeld openbaar worden, zoals locaties van ziekenhuizen in conflictzones of persoonsgegevens. Een nieuwe methode ontwikkeld door een onderzoeksteam van het Centrum Wiskunde & Informatica (CWI) helpt gevoelige informatie op te sporen in de datasets van dit platform.

CWI ontwikkelt methode voor identificeren van gevoelige gegevens in VN-datasets image

De datasets omvatten uiteenlopende gegevens, bijvoorbeeld over personen, gebouwen en locaties. “Organisaties zetten deze op het dataplatform zonder zich te realiseren dat bepaalde data schadelijk kunnen zijn als ze in verkeerde handen terechtkomen”, legt onderzoeker Madelon Hulsebos uit, die verbonden is aan de Database Architectures groep van CWI. “Denk bijvoorbeeld aan de coördinaten van ziekenhuizen in oorlogsgebieden, die daardoor een doelwit kunnen worden. Dit soort data moet er dus worden uitgefilterd.”

AI analyseert contextuele gevoeligheid

Eerder onderzoek van Hulsebos liet zien dat kunstmatige intelligentie patronen kan herkennen in gestructureerde datasets. Samen met AI-masterstudent Liang Telkamp ontwikkelde ze twee mechanismen die data op gevoeligheid beoordelen. Daarbij introduceerden ze het concept contextueel gevoelige data: informatie die niet per definitie persoonsgebonden hoeft te zijn, maar schadelijk kan zijn afhankelijk van tijd, locatie of situatie.

Gevoelige data zijn meer dan alleen persoonsgegevens. Bepalend is of de informatie in verkeerde handen schade kan veroorzaken”, licht Hulsebos toe. “Ook kan gevoeligheid tijdgebonden zijn: misschien waren bepaalde gegevens 5 jaar geleden niet gevoelig, maar in deze tijd wel. Of plaatsgebonden: de coördinaten van een ziekenhuis in Nederland zijn minder gevoelig dan die van een ziekenhuis in Gaza. De context van een dataset is dus heel belangrijk.”

Regels gekoppeld aan datasets

Voor een van de mechanismen gebruikten de onderzoekers VN-richtlijnen over databeheer, waarin staat welke informatie wel of niet gepubliceerd mag worden. AI-modellen, waaronder Large Language Models zoals GPT-4 en open-source varianten als Qwen, analyseerden de datasets aan de hand van deze regels. Zo kon automatisch worden bepaald of een dataset gevoelige gegevens bevatte.

De methode moet helpen om humanitaire data veiliger te delen, zonder dat organisaties handmatig elke dataset hoeven te controleren. Hulsebos: “We zagen dat ons LLM-gedreven mechanisme vele malen beter werkt dan een tool van Google die de VN gebruikten. Zo detecteerde Google DLP 63 procent van de gevoelige persoonsgegevens, terwijl ons systeem tot 94 procent kwam.” Door het meegeven van de VN-richtlijnen over gevoelige data, werden de LLM’s bovendien een stuk nauwkeuriger. Het aantal vals-positieven halveerde daardoor.

Inmiddels heeft de VN besloten om de mechanismen in zijn dataplatform te integreren. In oktober zal Hulsebos hierover een presentatie geven tijdens een VN-bijeenkomst in Barcelona.

Andere toepassingen

“Het mooie van deze mechanismen is dat ze ook buiten de VN toepasbaar zijn, bijvoorbeeld op cloudplatforms waar enorme hoeveelheden data worden gedeeld, van bedrijfsgevoelige financiële gegevens tot overheidsdata”, zegt Hulsebos. “Veel publieke data-portals leveren input voor de training van AI-modellen. En ook daar wil je geen gevoelige informatie aantreffen.”

Meer informatie is hier beschikbaar.

Hitachi Vantara Kakushin Forum BW 2 Axians BN BW september oktober 2025
Gartner BN tm 12-11-2025 - 1

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!