Opbot

Hoe data science richting geeft aan operationeel risicomanagement

23 januari, 2020 - Matthias Geerse,

Kortcyclisch experimenteren en innoveren in een tijdelijke samenwerking als gelijkwaardige partners. Dat dit een krachtig middel is om snel tot nieuwe inzichten te komen, blijkt uit onze recente samenwerking met De Volksbank.

Operationeel risicomanagement (ORM)

De Volksbank moet jaarlijks over de belangrijkste operationele risico’s rapporteren. Een dergelijke inschatting bestaat uit een tekstuele beschrijving van een risico, de kans dat een risico zich voordoet en de impact van het risico. Tevens wordt de risk respons opgenomen. Dit zijn veelal maatregelen die worden genomen om het risico te verminderen.

Opbouw van het experiment

De vraag van de Volksbank: in hoeverre kunnen risico omschrijvingen met behulp van AI gekwantificeerd worden om het proces van herbeoordelingen effectiever en efficiënter in te regelen.

Het model moest in staat zijn om, aan de hand van woorden, aan de omschreven risico’s in oorzaak en gevolg een passende kans/ impact te hangen. Deze inschatting is vervolgens te vergelijken met de inschatting van het bedrijfsonderdeel zelf. Wanneer deze twee scores veel van elkaar afwijken, kan dit risico vervolgens handmatig gecontroleerd worden door de risk manager.

Natural Language Processing

Een belangrijk onderdeel van het project was het pre-processen van de data. Dit houdt in dat de data naar een uniforme vorm wordt teruggebracht, waarbij inconsistenties en onvolledigheden worden opgelost. Dit vormt een belangrijk aspect van onze aanpak, omdat AI-modellen vaak slecht om kunnen gaan met ‘ruis’ in de data.

Modelleren op basis van tekstuele data wordt Natural Language Processing (NLP) genoemd. Tekstuele data is een ongestructureerde databron. Anders dan bij gestructureerde data, waarbij ieder element een vast aantal attributen heeft, heeft een tekstuele omschrijving een variabel aantal zinnen met elk een variabel aantal woorden. Binnen NLP zijn er enkele gebruiken om de tekst te pre-processen. Dit zijn onder andere:

  • Verwijderen van leestekens
  • Vervangen van hoofdletters door kleine letters
  • Voluit schrijven van getallen en werkwoorden
  • Meervoud reduceren tot hun stam, ook wel lemmatization genoemd.

De volgende stap was het zoeken naar synoniemen voor woorden. Dit is gedaan met behulp van een word embedding, een soort digitaal woordenboek. De word embedding leert taal door 500 miljoen zinnen te lezen, afkomstig van nieuwsberichten, blogs en fora. Woorden die vaak in dezelfde context worden genoemd zijn zeer waarschijnlijk synoniemen of hebben een soortgelijke betekenis. Zo bouwt het een goed beeld op van de betekenis van elk woord.

De volgende figuur geeft een beeld van de word embedding, waarin de afstand tussen woorden een maat is voor de afstand in de betekenis. Hoe dichter woorden bij elkaar staan, des te waarschijnlijker dat het synoniemen zijn. In onze risicobeschrijvingen clusteren we zulke synoniemen en worden ze vervangen door hetzelfde woord. In het voorbeeld hieronder zouden we bijvoorbeeld de woorden ‘fraude’, ‘frauduleuze’ en ‘witwassen’ als hetzelfde woord beschouwen. Risico’s die dezelfde betekenis hebben, maar anders omschreven zijn, worden zo gelijk. Dit maakt het model robuuster tegen specifieke woordkeuzes in een risicobeschrijving.

Figuur 1: Een weergave van de gebruikte word embedding. Woorden die dicht bij elkaar liggen hebben een soortgelijke betekenis. De gekleurde woorden liggen qua betekenis dicht bij het woord ‘fraude’. 

Descriptive – Predictive – Prescriptive Analytics

De Risk Manager vraagt het gegenereerde model om een advies: Welke risico’s moet ik extra controleren? Om deze vraag te beantwoorden gaan we de analytics-cyclus door. Deze cyclus bestaat uit de volgende fasen: descriptive analytics, predictive analytics en prescriptive analytics. Descriptive analytics draait om het beschrijven van de data. Wat kunnen we leren van de data met behulp van directe analyses? Predictive analytics gaat een stap verder en doet een voorspelling op basis van de data. Vanaf hier gaat AI een rol spelen. Mits de eerste twee stappen succesvol zijn, is het mogelijk om prescriptive analytics toe te passen. We vragen het model om ons een advies te geven op basis van de voorspelde uitkomsten. In deze context vragen we het model welke risico’s moeten worden gecontroleerd omdat ze mogelijk te hoog of te laag zijn ingeschat.

Gedurende de descriptive analytics stap kijken we eerst hoeveel risico’s we hebben per categorie. Zowel impact als frequentie schatten we in op een schaal van één tot vijf, waardoor alle risico’s in te delen zijn in een van de hokjes van een 5×5 matrix. Vervolgens kijken we naar de statistiek van woorden die voorkomen in de risico omschrijvingen: zijn er bepaalde (combinaties van) woorden die vaak geassocieerd worden met een hoge impact? Of juist met een lagere frequentie? Dit geeft ons een goed beeld of de woorden van een risico omschrijving een voorspellend vermogen bevatten.

Figuur 2: Door risico’s te beoordelen met behulp van AI kunnen verschillen tussen mens en model worden gevonden. Grote verschillen wijzen op potentiële over- of onderschatting van risico’s.  

Om te voorspellen maken we gebruik van een Naive Bayes model. Dit is een Machine Learning model dat vaak wordt ingezet bij het categoriseren van teksten. Denk bijvoorbeeld aan sentiment-analyse. Het model gaat uit van een mate van associatie tussen (combinaties van) woorden en categorieën. In ons geval zijn de categorieën onderverdeeld in de combinaties van kans en impact score. Het model wordt getraind op historische data, waarna we de kans en impact van de risico’s van het afgelopen jaar proberen te voorspellen.

Uiteindelijk is het doel de risk manager te helpen bij het vinden van afwijkende risico’s. Door de inschatting van ons NLP model te vergelijken op kans en impact met die van het bedrijfsonderdeel, kunnen we de meest afwijkende risico’s uitlichten voor de risk manager (prescriptive analytics). Met behulp van de aangetoonde verschillen kan de afdeling gerichter vervolgstappen zetten en prioriteiten stellen. Dit bevordert de effectiviteit en efficiëntie van de tweedelijns controle.

Verdere toepassing NLP

In dit project hebben we aangetoond dat AI een waardevolle bijdrage kan leveren aan Operationeel Risicomanagement. Doordat ons model kwalitatief ingeschatte risico’s op een objectieve manier met elkaar kan vergelijken, kan het afwijkende risico’s vinden en tonen aan de risk manager. Op deze manier hebben we waardevolle inzichten gecreëerd voor de Volksbank. Het toevoegen van een AI model leidt tot een vollediger beeld van de operationele risico’s. Uiteindelijk maakt dit de controle completer en effectiever.

In dit project is NLP toegepast binnen het domein van Operationeel Risicomanagement. Er zijn echter veel meer toepassingen mogelijk. Denk aan het classificeren van transacties op basis van de omschrijving of automatisch informatie uit jaarverslagen van bedrijven halen om de kredietwaardigheid van een tegenpartij te beoordelen.

Hoor je graag meer over NLP of wat Solid Professionals hierin kan betekenen? Neem dan vrijblijvend contact op met Matthias Geerse, hij vertelt er graag meer over.