Wanneer doe je genoeg tegen witwassen?

17-06-19 / Mathyn Scheerder en Diederick Levi

Triodos moet meer doen tegen witwassen‘, ‘Poortwachter ING hield zijn ogen gesloten‘, een kleine greep van krantenkoppen die de laatste tijd in het nieuws waren. Banken zouden volgens de toezichthouder niet genoeg doen om witwassen te voorkomen. Maar wanneer is het “genoeg”? Waar let de toezichthouder precies op? In dit artikel belichten we hoe we AI modellen objectief kunnen beoordelen en benchmarken. Deze AI modellen kunnen we mogelijk inzetten om fraude en witwassen tegen te gaan door de effectiviteit van de modellen juist af te stellen

De eisen die de toezichthouder aan banken stelt zijn afkomstig vanuit de Wet ter voorkoming van witwassen en preventie financiering terrorisme, afgekort de Wwft. Hierin staat onder andere dat financiële instellingen verplicht zijn een klantenonderzoek in te stellen voordat zij een (zakelijke) relatie met de klant aan kunnen gaan. In onze vorige blogpost beschreven we hoe Artificial Intelligence (AI) kan helpen bij dit klantenonderzoek. Tijdens de relatie met de klant is de financiële instelling verplicht de transacties te monitoren en ongebruikelijke transacties te melden bij de toezichthouder. Het hele proces van on- tot off-boarding is schematisch weergegeven in de afbeelding hieronder.

Wat precies een ongebruikelijke transactie is, staat beschreven in de Wwft met een objectieve en subjectieve indicator. De objectieve indicator houdt bijvoorbeeld in dat alle transacties met hoog-risico landen, zoals Panama, Jemen en Syrië, gemeld of voorkomen moeten worden. Deze lijst met landen laat weinig ruimte voor interpretatie. De subjectieve indicator is uitdagender: deze luidt dat alle transacties gemeld moeten worden waarbij voldoende aanleiding is om er van uit te gaan dat deze transactie verband houdt met witwassen of financiering van terrorisme. Deze regel is onderhevig aan interpretatie. De bank zal vast moeten stellen wanneer een transactie ongebruikelijk en dus mogelijk verdacht is. De bank moet hier slimme systemen voor inzetten aangezien het controleren van alle transacties een onbegonnen zaak is. In onze eerste blogpost gaven we aan op welke wijze AI hierbij kan helpen en waarom dit volgens ons een geschikte oplossing is.

Wij zien AI als een hulpmiddel bij het opsporen van ongebruikelijke transacties. Modellen kunnen heel goed voorspellen in welke mate een transactie ongebruikelijk is, variërend van 0 tot 100%. Vervolgens kan de keuze gemaakt worden om data-transacties boven een bepaald percentage handmatig te inspecteren. Een expert kan vervolgens bepalen of de transactie ook daadwerkelijk ongebruikelijk is. Als dit het geval is, wordt deze bij de Financial Intelligence Unit gemeld, die vervolgens onderzoekt en bepaalt of een transactie ook verdacht is. Dit eerder genoemde percentage noemen we ook wel de threshold. Leggen we deze threshold te laag dan zullen (te) veel transacties bekeken moeten worden, waaronder veel transacties die uiteindelijk niet ongebruikelijk blijken te zijn. In data science omschrijven we dit met het begrip Precision: de verhouding van transacties die daadwerkelijk ongebruikelijk zijn ten opzichte van het aantal gecontroleerde transacties. Deze Precision zal omhoog gaan als we de threshold verhogen. Omdat we transacties bekijken met een hogere kans op het ongebruikelijk zijn, zullen hier automatisch meer transacties in zitten die daadwerkelijk ongebruikelijk zijn. Precision kunnen we ook beschrijven als de moeite die de bank moet doen om een ongebruikelijke transactie te vinden. Hoe hoger dit getal, hoe minder moeite een bank moet doen om een enkele verdachte transactie te vinden.

Echter, als we de lat te hoog leggen dan missen we mogelijk ongebruikelijke transacties die door het model aangemerkt waren met een lagere kans op ongebruikelijk zijn. Dit is een ander concept in data science: de Recall. De Recall is het percentage gevonden ongebruikelijke transacties ten opzichte van het aantal ongebruikelijke transacties dat de bank had kunnen vinden. Hoe lager dit getal is, hoe minder ongebruikelijke transacties gevonden zijn. Hoe hoger de threshold dus gelegd wordt, hoe beter de Precision, maar hoe slechter de Recall. Deze wisselwerking tussen de twee concepten is te zien in onderstaande afbeelding. Te zien is dat de Recall lager wordt als de threshold omhoog gaat en de Precision hoger (tot op zekere hoogte).

In bovenstaande afbeelding is te zien dat als we de threshold heel laag leggen, de Recall heel hoog is en we dus alle ongebruikelijke transacties vinden. Dit is logisch uit te leggen: als je alle transacties handmatig controleert dan zul je ook alle ongebruikelijke transacties vinden, de Precision zal dan echter heel laag zijn. We kunnen zeggen dat het onmogelijk is om met AI alle ongebruikelijke transacties te vinden, zonder dat alle transacties handmatig gecontroleerd worden: er zullen concessies moeten worden gedaan. Het model behorend aan bovenstaand figuur bijvoorbeeld. Deze is in staat om transacties zo te filteren dat 1 op de 10 transacties die door een expert nagekeken wordt ook daadwerkelijk ongebruikelijk is. Hierbij zullen we wel de concessie moeten doen dat we slechts 60% van alle ongebruikelijke transacties in de dataset op kunnen sporen. Willen we dit percentage omhoog brengen dan zal de ratio 1 op 10 ook omhoog gaan en zullen de experts dus meer transacties handmatig moeten controleren voordat ze een ongebruikelijke transactie vinden. Vergelijk dit met het volgende maatschappelijke probleem: stel dat we 80% van de criminaliteit in Nederland kunnen oplossen voor 1 miljard euro. Is het, het dan waard om 5% meer criminaliteit op te lossen voor nog eens 1 miljard? Het zal immers veel complexer zijn om deze 5% criminaliteit op te lossen. We zullen ons moeten afvragen of deze extra investering voldoende toegevoegde waarde biedt voor de maatschappij en of het überhaupt mogelijk is om de volledige 100% op te lossen.

Hoe kunnen we deze kennis inzetten in praktijk? De wetgever geeft in de Wwft niet aan welk percentage van alle ongebruikelijke transacties moet worden gevonden. De bank moet zelf een verdedigbare keuze maken tussen deze Precision en Recall en is verantwoordelijk voor het genomen risico bij een te lage Recall. In praktijk is het helaas wel ingewikkeld om de echte Recall en Precision van een aanpak te vinden. De Recall kan alleen berekend worden op een kunstmatige dataset, waar we van tevoren weten of een transactie wel of niet ongebruikelijk is – van alle niet door het model aangemerkte echte transacties is onmogelijk na te gaan of dit ongebruikelijke transacties waren. Ook de echte Precision van een model is op dit moment voor banken onbekend: banken krijgen weinig tot geen feedback vanuit de  toezichthouder of aangemelde transacties daadwerkelijk verband hielden met witwassen of het financieren van terrorisme. Wij zien hierin een rol voor de toezichthouder weggelegd: door het delen van informatie kunnen modellen worden verbeterd. Solid Professionals zou dan ook graag het gesprek aan gaan met beide partijen om dit proces te verbeteren.

Ondanks deze problemen zien wij in Recall en Precision zeer nuttige concepten om modellen onderling te vergelijken. Op een kunstmatige (representatieve) dataset kan gezegd worden of model A of model B beter presteert. Het model dat hierbij beter presteert zal in werkelijkheid vaak ook beter presteren. Dit vergelijken van modellen noemen we ook wel het benchmarken van modellen. Door bestaande modellen te benchmarken tegenover state-of-the-art modellen, kunnen we gebreken opsporen en de bestaande modellen verbeteren.

Als u meer wil weten over hoe wij u kunnen helpen met het benchmarken van modellen, of als u meer wil weten over Financial Crime, neem dan contact op met Casper Rutjes of Matthias Geerse.

Deel:

Terug naar blogs