Je wordt gebeld en hoort de stem van een goede vriend die je vertelt dat hij tijdens zijn vakantie in Mexico is vastgezet na een verkeersongeval; hij vraagt je om snel geld over te maken om zijn borgtocht te betalen. Maar is het eigenlijk wel echt? Dat is tegenwoordig niet meer gegarandeerd, mede door de snelle ontwikkelingen rond voice cloning.
Voice cloning maakt gebruik van geavanceerde technieken zoals Deep Learning en Kunstmatige Intelligentie (AI) om een stem te repliceren op basis van audio-opnames van de originele stem. Dit biedt tal van nieuwe mogelijkheden, maar ook uitdagingen. De toepassingen van voice cloning variëren van het nabootsen van de stemmen van acteurs en beroemdheden voor films en commercials, tot het creëren van een digitale versie van de stem van mensen die hun stem hebben verloren door ziekte of letsel. Echter, voice cloning- tools en -technieken worden ook steeds vaker gebruikt voor frauduleuze activiteiten. Volgens een recente studie van McAfee heeft een kwart van de wereldwijd ondervraagde volwassenen ervaring met een voice cloning-aanval. Hierbij is één op de tien persoonlijk doelwit geweest en zegt 15% dat iemand die zij kennen is getroffen. Hierbij verloor 77% van de slachtoffers geld. Een relevant risico dus. Een goede reden om hier dieper in de technieken achter voice cloning te duiken, de risico’s, de mogelijkheden voor misbruik, en de methoden die beschikbaar zijn om voice cloning te herkennen.
Technieken achter voice cloning
Voice cloning is gebaseerd op geavanceerde AI-technieken en neurale netwerken die zijn getraind om menselijke stemmen na te bootsen. Slechts 30 seconden aan hoge kwaliteit stemopname is al voldoende om een Deep Learning-model te trainen. Hoe meer gegevens het systeem heeft, hoe beter het kan nabootsen. In de afgelopen jaren hebben deze modellen enorme verbeteringen doorgemaakt, waardoor de nagebootste stemmen steeds moeilijker van de echte te onderscheiden zijn en er bovendien minder opnamemateriaal nodig is om een stem op acceptabele kwaliteit te kunnen klonen.
Bronmateriaal van een stem wordt geanalyseerd om verschillende kenmerken van de stem te identificeren en te extraheren, zoals toonhoogte, snelheid, accent en intonatie. Met behulp van geavanceerde AI-technieken worden deze kenmerken gebruikt om een model te trainen dat de stem kan repliceren. Eenmaal getraind, kan het model nieuwe spraak genereren die klinkt alsof deze afkomstig is van de originele spreker. Twee van de meest gebruikte technieken zijn de volgende:
- Text-to-Speech (TTS)-synthese
TTS is een geavanceerde technologie die geschreven tekst omzet in gesproken woord. Hoewel nieuwe oplossingen worden ontwikkeld waarin ook intonatie, ritme, melodie en emotie van de spreker kunnen worden nagebootst in de gegenereerde tekst, zijn de meeste van deze modellen hier nog niet toe in staat, waardoor TTS vooralsnog leidt tot een wat kunstmatig resultaat dat nog goed als gegenereerde stem kan worden herkend. - Voice conversion (Speech-to-Speech)
Voice conversion richt zich op het aanpassen van een bronstem naar een doelstem. Hierbij wordt eerst een opname met de gewenste tekst gemaakt met een andere stem en vervolgens wordt uit het model van de na te bootsen stem de opgenomen tekst aangepast naar de na te bootsen spreker. Omdat intonatie, ritme, melodie en emotie uit de bronstem worden overgenomen, kunnen met deze techniek redelijk realistische stemmen worden ontwikkeld.
Risico’s en misbruik van voice cloning
Het misbruik van voice cloning neemt sterk toe. Dit komt onder meer doordat de tools die hiervoor nodig zijn steeds eenvoudiger te bedienen zijn en gratis – of tegen zeer lage kosten – ingezet kunnen worden. Een voorbeeld van een veelgebruikt platform hiervoor is Elevenlabs. Enkele vormen van misbruik zijn:
Identiteitsdiefstal: Cybercriminelen kunnen gekloonde stemmen gebruiken om zich voor te doen als iemand anders en zo gevoelige informatie verkrijgen of financiële transacties uitvoeren. Enkele voorbeelden die recent gepubliceerd zijn:
In een incident gebruikten criminelen de stem van de CEO van een Duits moederbedrijf dat eigenaar is van een Brits energiebedrijf om miljoenen euro's te stelen. De aanvallers slaagden erin om de stem van de CEO na te bootsen en zo een medewerker te misleiden om een grote som geld over te maken.
Begin 2020 kreeg een filiaalmanager van een Japans bedrijf in Hongkong een telefoontje van een man wiens stem hij herkende: de directeur van zijn moederbedrijf. De directeur had goed nieuws: het bedrijf stond op het punt een overname te doen, en dus moest hij toestemming geven voor enkele overdrachten ter waarde van $ 35 miljoen. De manager, die ervan overtuigd was dat alles legitiem was, begon de overboekingen uit te voeren. Wat hij niet wist, was dat hij slachtoffer was van een uitgebreide zwendel, waarbij fraudeurs ‘deep voice’-technologie hadden gebruikt om de stem van de directeur uit een toespraak te klonen.
Een veelvoorkomende vorm van oplichting is de ‘vriend in nood’-scam, waarbij criminelen de stem van een familielid of vriend nabootsen om dringend geld te vragen voor een vermeende noodsituatie. Dit overkwam in 2023 een moeder uit Arizona, die ervan overtuigd was haar 15-jarige dochter aan de telefoon te hebben na het opnemen van een oproep van een onbekend nummer. Haar dochter zou gekidnapt zijn en er moest $ 1 miljoen voor haar vrijlating worden betaald.
Desinformatie en nepnieuws: Voice cloning kan ook worden gebruikt om desinformatie te verspreiden. Door stemmen van bekende figuren, zoals politici of beroemdheden, na te bootsen, kunnen kwaadwillenden geloofwaardige nepnieuwsberichten of valse uitspraken creëren. Dit kan leiden tot verwarring en wantrouwen onder het publiek.
Zo is in januari 2024 een incident gemeld waarbij een stembericht, dat afkomstig leek te zijn van president Joe Biden, oproepen deed aan kiezers om zich te onthouden van stemmen in de voorverkiezingen van New Hampshire. Deze boodschap bleek gegenereerd te zijn door middel van Kunstmatige Intelligentie (AI).
Reputatieschade: Als een gekloonde stem van een zogenaamde vertegenwoordiger van het bedrijf wordt gebruikt om schadelijke of valse informatie te verspreiden, kan dit ernstige schade toebrengen aan de reputatie van het bedrijf. Dit kan leiden tot verlies van klantvertrouwen en marktwaarde.
In september 2023, enkele dagen voor een cruciale nationale verkiezing in Slowakije, begon een schijnbaar belastende audioclip te circuleren op sociale media. Een stem die klonk als de leider van de Progressieve Partij, Michal Šimečka, beschreef een plan om de stemming te manipuleren, deels door leden van de gemarginaliseerde Roma-bevolking om te kopen. Er werd snel ontdekt dat de clip nep was, maar veel gebruikers keken niet verder en bleven verontwaardigde reacties plaatsen in de veronderstelling dat de clip echt was.
Herkenning van voice cloning
Om de risico’s van voice cloning te beperken, is het cruciaal om technieken te ontwikkelen die gekloonde stemmen kunnen herkennen. Enkele van de methoden die hiertoe momenteel worden onderzocht en gebruikt zijn:
Akoestische Analyse: Deze methode analyseert de akoestische kenmerken van een stem, zoals toonhoogte, tempo en timbre. Hoewel gekloonde stemmen vaak zeer overtuigend zijn, kunnen subtiele verschillen soms door geavanceerde analyse worden gedetecteerd. Door bijvoorbeeld het frequentiespectrum van een stem op te splitsen en te analyseren, kunnen onderzoekers onregelmatigheden opsporen die typisch zijn voor AI-gegenereerde stemmen. Echte menselijke stemmen hebben bepaalde karakteristieke patronen en energieverdelingen over verschillende frequenties, terwijl gesynthetiseerde stemmen vaak onnatuurlijke patronen vertonen.
Machine Learning-modellen: Net zoals AI wordt gebruikt om stemmen te klonen, kan het ook worden gebruikt om ze te herkennen. Machine Learning-modellen kunnen worden getraind op datasets van gekloonde en echte stemmen om kenmerken zoals spectrale eigenschappen en prosodische karakteristieken (aspecten van spraak die te maken hebben met het ritme, de intonatie en de toonhoogte) te identificeren die wijzen op manipulatie.
Watermerken: Een andere benadering is het gebruik van audio-watermerken, waarbij een onhoorbaar signaal in een opname wordt ingebed om de authenticiteit ervan te verifiëren. Dit kan helpen bij het identificeren van originele opnames versus gekloonde stemmen. Lees dit artikel voor meer informatie.
Zeven tips om geen slachtoffer te worden van voice scams
Voice cloning is een krachtige technologie met zowel grote voordelen als aanzienlijke risico’s. We dienen te wennen aan de nieuwe realiteit waarin we ervan uit moeten gaan dat we voice- en videocalls niet zonder meer kunnen vertrouwen. Het is duidelijk geworden dat voice cloning niet langer slechts een theoretische mogelijkheid is, maar een reële bedreiging vormt. Om de impact van voice cloning te beperken, is het belangrijk na te denken over het inzetten op zowel technologische oplossingen als op bewustwording en training van medewerkers. Hieronder geven we zeven tips die zullen helpen in het verlagen van het risico.
- Bel terug als je een telefoontje ontvangt van iemand die beweert een familielid, vriend of collega te zijn. Hang op en bel terug naar het bekende nummer van die persoon. Gebruik niet het nummer dat je tijdens het gesprek hebt ontvangen.
Stel vragen die alleen de echte persoon zou kunnen beantwoorden. Dit kunnen persoonlijke vragen zijn die niet algemeen bekend zijn, zoals details over een recente ontmoeting of een gemeenschappelijke ervaring. Je kan ook vooraf een codewoord afspreken dat in een dergelijke situatie genoemd moet worden om de identiteit te bevestigen.
Gebruik videogesprekken als je twijfels hebt over de identiteit van de beller. Stel voor om over te schakelen naar een videogesprek. Dit maakt het voor oplichters moeilijker om zich te verbergen achter een gekloonde stem.
Wees voorzichtig met het delen van persoonlijke informatie. Zorg ervoor dat je je persoonlijke informatie beschermt en niet zomaar deelt, vooral via de telefoon.
Deel geen persoonlijke informatie op sociale media of openbare platforms die door oplichters kan worden gebruikt om geloofwaardige gekloonde stemmen te ontwikkelen.
Wees voorzichtig met het delen van bevestigingscodes of tijdelijke wachtwoorden die je via sms of e-mail ontvangt. Deel deze codes nooit telefonisch, zelfs niet met personen die beweren van een officiële instantie te zijn.
Informeer familieleden, vooral ouderen die mogelijk minder bekend zijn met nieuwe technologieën, over de gevaren van voice cloning en hoe ze zich kunnen beschermen.