Onze wereld wordt steeds meer aangestuurd door data en kunstmatige intelligentie (AI). Grote hoeveelheden hoogwaardige data zijn daarom steeds belangrijker, ook voor de ontwikkeling van AI-modellen. Maar wat gebeurt er als er onvoldoende data beschikbaar is? En hoe kunnen we onze privacy blijven beschermen? Synthetische data bieden een veelbelovende oplossing voor deze uitdagingen. Volgens Gartner zullen AI-modellen tegen 2030 grotendeels worden getraind met synthetische data, een trend waarop techbedrijven inspelen met grote investeringen. 

Synthetische data bootsen de statistische eigenschappen van echte datasets na, zonder privacygevoelige informatie te bevatten. Grote taalmodellen (LLM's), zoals GPT-4, maken het genereren van synthetische data sneller, efficiënter en goedkoper dan traditionele, op regels gebaseerde methoden.  Echter, wanneer LLM’s data genereren, bestaat het risico dat statistische eigenschappen niet volledig behouden blijven. Dit komt doordat deze modellen de neiging hebben om veelvoorkomende patronen uit de originele data te versterken, terwijl zeldzamere patronen kunnen worden verzwakt.

De nieuwe Europese AI-wetgeving (AI Act) speelt in op deze ontwikkelingen door transparantieverplichtingen in te voeren voor AI-systemen die data genereren. Denk bijvoorbeeld aan het watermerken van door AI-gegenereerde afbeeldingen. In deze blog leggen wij uit hoe deze transparantieverplichtingen praktische problemen op kunnen lossen voor AI-ontwikkelaars, waarom deze essentieel zijn in het opbouwen van meer vertrouwen en hoe ze ons kunnen beschermen tegen misbruik. Zo kunnen we verantwoord en effectief omgaan met AI-ontwikkelingen en de potentie van synthetische data maximaal benutten. 

Kansen en uitdagingen

Bij het ontwikkelen van toepassingen voor specifieke doelgroepen of sectoren is er vaak onvoldoende relevante data beschikbaar. Synthetische data, bijvoorbeeld gegenereerd door LLMs, kunnen een oplossing bieden voor deze datatekorten. Daarnaast creëren synthetische data ook mogelijkheden op het gebied van privacy en veiligheid. Zo kunnen synthetische data in de gezondheidszorg worden ingezet om waardevolle inzichten te bieden aan dokters en onderzoekers, zonder de vertrouwelijkheid van patiëntgegevens in gevaar te brengen. Op het gebied van cyberbeveiliging maken synthetische data het mogelijk om aanvalsscenario’s te simuleren, penetratietests uit te voeren en beveiligingsmaatregelen uit te testen. In de financiële sector helpen synthetische data bij het modelleren van financiële trends, zonder hierbij persoonlijke gegevens te gebruiken.

Toch zijn er ook uitdagingen. Onderzoekers waarschuwen voor problemen zoals kwaliteitsverlies en versterking van bias. Een opvallende zorg is het fenomeen model collapse, recent beschreven in Nature. Dit treedt op wanneer AI-modellen herhaaldelijk worden getraind op synthetische data, gegenereerd door eerdere AI-modellen. Dit leidt tot een afname in variatie in de data, en uiteindelijk tot verlies van kwaliteit. Data poisoning, het kwaadaardig manipuleren van trainingsdata met synthetische gegevens (een snel opkomende dreiging sinds de komst van LLMs), kan dit proces nog verder versnellen.

AI Act: transparantieverplichtingen voor AI-gegenereerde data

De AI Act benadrukt het belang van kwaliteit, transparantie en risicobeheer bij het gebruik van synthetische data. De wet onderstreept de meerwaarde van synthetische data op het gebied van privacy: voor hoog-risico AI-systemen wordt het, waar mogelijk, verplicht om synthetische data te gebruiken bij de detectie en correctie van bias. Daarnaast verplicht Artikel 50 (‘Transparantieverplichtingen voor aanbieders en gebruiksverantwoordelijken van bepaalde AI-systemen') aanbieders en ontwikkelaars van AI-systemen die synthetische inhoud genereren, om deze data in machine-leesbaar formaat te markeren.  De AI Office ontwikkelt een Code of Practice om de praktische naleving van deze vereisten te ondersteunen. 

Reacties op de transparantieverplichtingen uit AI Act

De reacties op de transparantieverplichtingen zijn overwegend positief: transparantie is een essentiële stap naar verantwoorde AI en bevordert het vertrouwen in AI-systemen, zoals ook blijkt uit de jaarlijkse door KPMG uitgevoerde Algoritme Vertrouwensmonitor.  Echter roepen de verplichtingen ook zorgen op, gericht op de implementatie, interpretatie en voorgestelde oplossingen. Hoewel de AI Act primair gericht is op de bescherming van fundamentele mensenrechten, stellen de transparantieverplichtingen dat synthetische content machine-leesbaar moet zijn. Hierbij lijkt menselijke herkenning buiten beschouwing te blijven. Daarnaast moeten de markeringen interoperabel en toepasbaar zijn op verschillende soorten content. Dit brengt technische uitdagingen met zich mee. Tot slot is een belangrijk punt van zorg dat kwaadwillende actoren watermerken vaak kunnen verwijderen of omzeilen. Dit ondermijnt de effectiviteit van watermerken als middel om synthetische content herkenbaar te maken en roept vragen op over de praktische toepasbaarheid ervan.

Risico’s beperken

Hoewel de transparantieverplichtingen uit de AI Act duidelijke standaarden vereisen en technische uitdagingen moeten worden aangepakt, geloven wij dat ze belangrijke stap in de goede richting bieden om synthetische data op een verantwoorde en effectieve manier in te kunnen zetten. De transparantieverplichtingen helpen namelijk bij het beperken van verschillende risico’s die komen kijken bij het gebruik van synthetische data. 

Ten eerste kunnen de transparantieverplichtingen helpen bij het beperken van veiligheidsrisico’s van synthetische data. Door crypotografische technieken of digitale watermerken kan de herkomst en authenticiteit van synthetische data worden gegarandeerd. Markerings- en detectietechnieken kunnen helpen bij het tegengaan van synthetische desinformatie en data poisoning aanvallen, omdat hierdoor sneller kan worden ingegrepen wanneer er synthetische inhoud wordt gedetecteerd. 

Het markeren van door AI gegenereerde gegevens zou ook bij kunnen dragen aan het voorkomen van model collapse. Door beter onderscheid te maken tussen authentieke en synthetische data, kunnen ontwikkelaars van AI-modellen beter bepalen welke gegevens wél en niet geschikt zijn voor training. Dit leidt tot de selectie van betrouwbaardere en kwalitatief hoogwaardige datasets, wat de prestaties van AI-modellen ten goede komt.  

Daarnaast geloven wij dat het detecteren van synthetische data kan bijdragen aan meer transparantie, integriteit en vertrouwen in ons informatie-ecosysteem. Want hoewel het gebruik van synthetische data, mits goed ontworpen, kan helpen om bias te verminderen, kan het ook juist ethische problemen veroorzaken. Denk aan datasets met een gebrek aan diversiteit of een versterking van bestaande bias. Zonder duidelijkheid over welke data synthetisch is en welke niet, wordt het reguleren en waarborgen van kwaliteit van datasets lastiger. De voorgestelde technieken kunnen daarom zorgen voor meer verantwoording en transparantie. 

De toekomst van synthetische data

De komende jaren zal de rol van AI – en daarmee de vraag naar data van hoge kwaliteit – alleen maar groter worden. Daarom is er een juiste balans nodig tussen het gebruik van authentieke en synthetische data, waarbij risicomanagement van cruciaal belang is om de voordelen te benutten. Wij geloven dat synthetische data de potentie heeft om innovatie te stimuleren en betrouwbare AI-ontwikkeling te ondersteunen. Dit kan worden bereikt door verantwoordelijke praktijken te omarmen en transparantie te waarborgen met duidelijke eisen en normen.