Dr. Judith Redi is Data Scientist. Haar expertise ligt op het gebied van de toepassing van machine learning en Artificial Intelligence in accountingsoftware. Om daar een succes van te kunnen maken moeten verschillende disciplines samenkomen. Niet alleen programmeurs en data-analisten, maar ook domeinspecialisten. Zonder de vakkennis en inbreng van accountants en andere inhoudelijke specialisten wordt het geen succes!
Redi heeft inmiddels een behoorlijk cv opgebouwd op het gebied van ‘computer and information sciences’. Ze is afgestudeerd aan de universiteit van Genua, docent aan de TU-Delft en onderzoeker bij het Centrum Wiskunde en Informatica. Sinds de zomer van afgelopen jaar is Redi data scientist bij Exact. En om uit te leggen wat dat is, tekent zij een eenvoudig grafiekje dat de essentie weergeeft van wat zij doet. De grafiek geeft ook aan wat het samenspel zou moeten zijn bij het verder ontwikkelen van – niet alleen accounting – software. Het roze gebied omvat de programmeerkennis die moet worden ingebracht, de min of meer traditionele ICT-vaardigheden. In het groene deel is vooral kennis op hoog niveau van wiskunde en statistiek van groot belang. Echter, om hier echt wat mee te kunnen, is het blauwe vlak – domeinkennis – van groot belang.
Data science is de verbinder van deze drie domeinen. Het model is ook gelijk een meetlat voor moderne software. In Exact Online zijn inmiddels behoorlijk wat business rules opgenomen die het verwerken van administraties vereenvoudigen. Bijvoorbeeld welke BTW-regels toegepast moeten worden. Veel van deze regels zijn vast opgenomen in de software; programmeurs hebben daarvoor hun werk gedaan. De regels zijn opgesteld in samenspraak met de mensen uit de blauwe cirkel, de domeinexperts. In dit geval accountants, of mensen die meer dan goed op de hoogte zijn van hoe accountancysoftware in de praktijk zou moeten werken.
Multidisciplinariteit nodig
Nieuwe technologische ontwikkelingen in IT kunnen niet zonder inbreng vanuit de verschillende disciplines, zo stelt Judith. Wiskundigen en statistici kunnen heel veel onderzoeken en anomalieën (onverwachte afwijkingen) signaleren. IT’ers kunnen in principe alle mogelijke codes bedenken en programmeren. De combinatie van programmeurs, wiskundigen en statistici is een essentiële schakel om machine learning of Artificial Intelligence van de grond te krijgen. Zij zorgen voor de modellen, de code, waardoor afwijkingen boven water komen. En van waaruit geconcludeerd zou kunnen worden: in 99,5% van de gevallen wordt een post als deze geboekt als x. Dus ligt het voor de hand om dit ook toe te passen voor die laatste 0,5%. Met een voorbeeld uit de medische praktijk maakt Judith duidelijk dat dit niet altijd zo kan zijn.
‘Stel, een middels machine learning geanalyseerde scan trekt in 99,5% van de diagnoses de juiste conclusie dat een gezwel een kankergezwel is. In 0,5% van de gevallen is die diagnose niet correct. Er wordt bijvoorbeeld wel een gezwel geconstateerd, maar dat blijkt uiteindelijk niet aanwezig te zijn. Of de software stelt dat er geen gezwel is, terwijl dat er wel is’.
Het zijn de dilemma’s van machine learning en Artificial Intelligence. ‘Er moet dus zorgvuldig gekeken worden naar de risicofactoren die in specifieke settings gewogen moeten worden. Daar heb je dus altijd specialisten voor nodig.’ Redi’s vak data science is erop gericht om in geautomatiseerde systemen de drie kwaliteiten IT-kennis, wiskunde en statistiek en domeinkennis bij elkaar te brengen en in evenwicht te houden.
Maar het is nog steeds code, het zijn programmaregels?
‘Het grote verschil is dat in het verleden programmaregels altijd de vooraf gedefinieerde paden volgden. Instructies luidden: doe dit, doe dat, if…. then…. Maar wat als je nu iets heel uitzonderlijks tegenkomt?’
Een tamelijk uitzonderlijke boeking in de accountingsoftware. Kun je daar een specifieke code voor schrijven?
‘Het voordeel van machine learning is dat zo’n systeem code kan creëren, die op de juiste manier correlaties aanbrengt en dat ‘on the go’ uitvoert. Het systeem is zelflerend, gebaseerd op ervaring vastgelegd in heel veel data, die gegenereerd zijn door heel veel klanten. Het zijn nog steeds programmaregels, code, maar het zijn wel heel slimme programmaregels.’
Verzamelingenleer
Om een klein tipje van de sluier op te lichten over deze specifieke systematiek van vragen en antwoorden komen we in het gesprek uit op de basics van het wiskundige begrip verzamelingenleer. Daarbij ga je ervan uit dat verschillende items, oftewel boekingen in het boekhoudsysteem, een aantal eigenschappen gemeenschappelijk kunnen hebben, maar op onderdelen ook weer verschillende eigenschappen hebben, of hun toepassing vinden in verschillende settings. Voorbeelden liggen voor de hand. Zo is bij een wijnhandel een bestelling wijn voorraad, maar een andere onderneming zal dit labelen als representatiekosten. Machine learning en Artificial Intelligence kunnen dit soort patronen ontdekken. Op dit terrein is nog veel meer mogelijk. Redi denkt dan ook aan brancheoplossingen voor (bijvoorbeeld) de industrie. ‘Wij zien dat vaak 50% van de orders te laat wordt uitgeleverd. Uit die data kun je leren waarom dat zo is, en je kunt ook voorspellingen doen wanneer bepaalde producten wel uitgeleverd zouden kunnen worden. ‘The sky is the limit, and computational power,’ benadrukt zij. Vooral omdat heel veel gegevens en variabelen in de berekeningen meegenomen kunnen worden. En dat gaat ver. Niet alleen de branchecode van een onderneming, maar ook de omvang, de regio, het soort klanten dat wordt bediend. Een mix dus van harde en ook relatief zachte gegevens. Waar vervolgens ook nog eens keer macro-economische en financiële gegevens aan kunnen worden toegevoegd.
Input professional
Toch benadrukt Redi opnieuw de input van de professional. Het is niet alleen een onderwerp van ICT’ers, statistici en wiskundigen. De input van de specialist is minstens zo belangrijk. Fiscaliteit, zoals bijvoorbeeld BTW-berekeningen, noemt zij een relatief eenvoudig domein. Dit is immers allemaal terug te voeren op vaste, voorspelbare regelgeving. Wanneer juist andere regels en informatie en parameters in de software opgenomen moeten worden, wordt het moeilijker. ‘De grootste bedreiging in Artificial Intelligence en machine learning is bias,’ zegt zij heel stellig. ‘Ook hier geldt: garbage in, garbage out.’ Met andere woorden: wanneer de in het systeem besloten kennis niet zorgvuldig gemonitord wordt, loop je het risico van fouten en verkeerde interpretatie. Het is de taak van de data scientist om daarvoor te waken. Vandaar dat domeinkennis essentieel is bij toepassingen van machine learning en Artificial Intelligence. Bij accountingsoftware komt dat er dus heel direct op neer dat nieuwe, slimme en snelle toepassingen per definitie niet zonder de input van gebruikers, ondernemers en accountants, kunnen worden ontwikkeld.
Kans of bedreiging
‘Technologische revoluties gaan altijd door. Soms is het een bedreiging, maar het is ook een enabler. Het schept kansen. Kijk naar de FinTech-start-ups die we zien. Kijk naar de banen die er 100 jaar geleden waren en nu niet meer. Kijk ook naar de nieuwe banen die er zijn. Om terug te gaan naar de accountant: moderne technologie kan een accountant inventiever maken in zijn dienstverlening, waardoor hij meer toegevoegde waarde kan leveren aan de ondernemer. Daar ligt een nieuwe kans, gevoed vanuit machine learning en Artificial Intelligence.’
Dr. Judith Redi is Data Scientist bij Exact
Geef een reactie