In een eerder artikel heb ik het perspectief van de Belastingdienst geschetst en uiteengezet hoe binnen fiscale controles steeds vaker gebruik wordt gemaakt van stochastische technieken, zoals Benford’s Law en de chi-kwadraattoets, om mogelijke onregelmatigheden in administraties te detecteren. Vanuit audit-oogpunt is die ontwikkeling begrijpelijk: statistische analyses bieden de belofte van objectiviteit, efficiëntie en schaalbaarheid in een omgeving waarin controlecapaciteit schaars is.

Juist die belofte maakt echter een kritische reflectie noodzakelijk. De afgelopen jaren is in de wetenschappelijke literatuur uitvoerig onderzoek verricht naar de validiteit en beperkingen van Benford-analyses in forensische en fiscale context. Met name empirisch en theoretisch werk van onder anderen Kossovsky, Nigrini en Van der Drift laat zien dat de toepassing van deze methoden op accounting data veel minder robuust is dan vaak wordt verondersteld.

Dit artikel kiest daarom expliciet positie. Niet door het nut van statistische signalering bij voorbaat te ontkennen, maar door te betogen dat Benford’s Law en de chi-kwadraattoets in fiscale onderzoeken structureel worden overvraagd. De methoden worden te gemakkelijk gepresenteerd als quasi-bewijs, terwijl zowel de onderliggende aannames als de empirische onderbouwing daar onvoldoende grond voor bieden. Voor belastingadviseurs en fiscalisten is het essentieel om deze wetenschappelijke kritiek te kennen, juist omdat zij steeds vaker geconfronteerd worden met vergaande fiscale conclusies die primair op statistische afwijkingen zijn gebaseerd.

Wanneer Benford’s Law niet toepasbaar is

Benford’s Law beschrijft de verwachte verdeling van voorloopcijfers in datasets die op een ‘natuurlijke’ wijze tot stand zijn gekomen. Die toepasbaarheid is echter beperkt tot datasets die aan strikte voorwaarden voldoen. Zo mogen de gegevens geen kunstmatige minimum- of maximumwaarden kennen, mogen zij niet bestaan uit toegewezen nummers (zoals postcodes of telefoonnummers) en moeten alle waarden dezelfde meeteenheid hebben. Daarnaast is een voldoende grote dataset vereist – bij voorkeur enkele honderden waarnemingen – met een ruime spreiding over meerdere ordes van grootte.

Een belangrijke maatstaf daarbij is de zogeheten Robust Order of Magnitude (ROM), berekend als het logaritme van de verhouding tussen het 99e en het 1e percentiel. Voor een betrouwbare Benford-analyse dient deze waarde groter te zijn dan 3.0. In de praktijk voldoen veel bedrijfsdatasets hier niet aan, zeker niet wanneer sprake is van stabiele omzetten, vaste prijsstructuren of capaciteitsgrenzen.

Daar komt bij dat symmetrische verdelingen – zoals normale of uniforme verdelingen – per definitie niet Benford-conform zijn, ongeacht hun omvang of spreiding. Ondernemingen met voorspelbare en relatief constante omzetpatronen lopen daardoor structureel het risico als ‘afwijkend’ te worden aangemerkt, zonder dat van manipulatie sprake is.

Empirische inzichten uit Nederlandse bedrijfsdata

Empirisch onderzoek naar Nederlandse ondernemingen laat zien dat de toepasbaarheid van Benford’s Law op accounting data beperkt is. Uit een analyse van omzetcijfers over meerdere jaren blijkt dat eerste cijfers vaak afwijken van de Benford-verdeling, terwijl tweede cijfers juist een goede aansluiting vertonen. Deze combinatie is statistisch inconsistent met de hypothese van systematische manipulatie. Bij opzettelijke vervalsing zouden immers meerdere cijferposities afwijkingen moeten laten zien.

Voor deze patronen bestaan diverse legitieme verklaringen. Zo clusteren ondernemingen vanzelf rond bepaalde omzetklassen, spelen sectorale verschillen een grote rol en worden jaarcijfers vaak afgerond op duizenden of miljoenen euro’s. Ook gangbare commerciële praktijken, zoals psychologische prijsstelling, beïnvloeden de cijferverdeling op een voorspelbare maar niet-frauduleuze wijze.

Specifieke beperkingen bij horeca- en retailondernemingen

In bepaalde sectoren, zoals de horeca en retail, zijn de beperkingen nog evidenter. Seizoensinvloeden, vaste menuprijzen, promoties en acties zorgen voor herkenbare patronen in dag- en weekomzetten. De coronapandemie heeft deze patronen bovendien fundamenteel verstoord door lockdowns, capaciteitsbeperkingen en perioden van uitsluitend afhaalverkoop. Kassatransacties kennen daarnaast inherente afrondingen en combinaties van vaste prijzen, wat leidt tot voorspelbare eindbedragen. Al deze factoren ondermijnen de veronderstelling van ‘natuurlijke’ variatie die Benford’s Law vereist.

Het belang van analyse van meerdere cijferposities

In fiscale onderzoeken ligt de focus vaak op het tweede cijfer. Een bredere analyse, waarin ook derde en vierde cijfers worden betrokken, levert echter regelmatig een ander beeld op. Wanneer afwijkingen zich niet consistent over meerdere posities voordoen, vormt dat een sterke contra-indicatie voor bewuste manipulatie. Het idee dat een administratie doelbewust wordt vervormd, terwijl slechts één cijferpositie afwijkt, is statistisch nauwelijks houdbaar.

De fundamentele tekortkomingen van de chi-kwadraattoets

Naast de beperkingen van Benford’s Law zelf, kleven er ernstige bezwaren aan het gebruik van de chi-kwadraattoets. Deze toets veronderstelt dat elk datapunt een willekeurige en onafhankelijke trekking is uit een groter, Benford-conform universum. Die aanname gaat bij bedrijfsdata vrijwel nooit op. Omzetten en transacties zijn het resultaat van prijsafspraken, vaste klanten, contracten, seizoenen en marketingstrategieën, en zijn onderling afhankelijk.

Daarmee meet de chi-kwadraattoets niet wat zij geacht wordt te meten. De toets beantwoordt niet de vraag of een concrete dataset gemanipuleerd is, maar of het aannemelijk is dat deze dataset een willekeurige selectie vormt uit een hypothetisch Benford-universum. Voor bedrijfsadministraties is dat een zinloze vraag, omdat zo’n universum niet bestaat en de data per definitie niet willekeurig tot stand komt.

Paradoxale uitkomsten

Wetenschappelijk onderzoek laat zien dat de chi-kwadraattoets tot paradoxale resultaten leidt. Grote datasets die visueel en kwalitatief uitstekend aansluiten bij Benford’s Law worden regelmatig verworpen, simpelweg omdat de toets bij grote aantallen extreem gevoelig is voor minieme afwijkingen. Kossovsky illustreert dit met zes datasets – variërend van tijdsintervallen tussen aardbevingen en bevolkingsdata tot staatsuitgaven – met omvangrijke aantallen waarnemingen, van circa 19.000 tot bijna 1 miljoen observaties. Juist deze grote omvang, die normaliter zou moeten leiden tot betrouwbaardere conclusies, zorgde voor verwerping – een paradox die de methodologische tekortkoming blootlegt.

Omgekeerd accepteerde diezelfde toets kleine datasets van slechts 24 tot 92 observaties die aantoonbaar niet Benford-conform waren. Niet omdat zij beter bij de theorie aansloten, maar omdat hun beperkte omvang te weinig statistische kracht bood om afwijkingen aan te tonen. Deze uitkomsten zijn geen statistische curiositeit, maar een direct gevolg van het toepassen van een toets op data die niet aan de onderliggende aannames voldoet. Een bijkomend probleem is dat de chi-kwadraattoets afwijkingen bij hoge cijfers zwaarder laat meewegen dan bij lage cijfers. Daardoor worden logische verschuivingen binnen een gesloten verdeling (die altijd optelt tot 100%) dubbel afgestraft.

Juridische implicaties en bewijslast

Vanuit juridisch perspectief is het onderscheid tussen signaal en bewijs cruciaal. Een afwijking van Benford’s Law toont uitsluitend aan dat een dataset niet overeenkomt met een statistisch model. Zij bewijst niet dat sprake is van fraude of manipulatie. In fiscale procedures rust de bewijslast voor het bestaan van een belastbare grondslag bij de Belastingdienst. Statistische afwijkingen kunnen hooguit aanleiding geven tot nader onderzoek, maar kunnen die bewijslast niet zelfstandig dragen.

Tot op heden hebben Nederlandse rechters stochastische analyses niet geaccepteerd als zelfstandig bewijs voor naheffingen of boetes. De proportionaliteit van gevolgtrekkingen blijft daarbij een belangrijk toetsingskader. Het verwerpen van een volledige administratie of het schatten van omzet op basis van normatieve cijfers vergt aanzienlijk meer dan een statistische afwijking.

Praktische aandachtspunten voor de verdediging

Voor de fiscale praktijk is het essentieel om niet defensief maar analytisch te reageren op stochastisch onderzoek. De eerste stap is het expliciet betwisten van de toepasbaarheid van Benford’s Law op de onderzochte dataset. Daarbij moet worden onderzocht of wordt

voldaan aan de vereisten van voldoende spreiding, natuurlijke ontstaanswijze en onafhankelijkheid van datapunten. In veel gevallen zal al op dit niveau blijken dat de statistische analyse op drijfzand rust.

Daarnaast verdient volledige transparantie aandacht. De Belastingdienst dient inzicht te geven in de exacte dataset, de gekozen parameters, het significantieniveau en de aannames die aan de analyse ten grondslag liggen. Even belangrijk is de vraag welke alternatieve, niet-frauduleuze verklaringen daadwerkelijk zijn onderzocht en op welke gronden deze terzijde zijn geschoven.

Het aandragen van bedrijfseconomische verklaringen vormt daarbij geen zwaktebod, maar een noodzakelijk correctief. Prijsstructuren, seizoensinvloeden, capaciteitsgrenzen en sectorale kenmerken zijn geen ‘excuusvariabelen’, maar structurele factoren die de cijferverdeling bepalen.

Ten slotte ligt hier een belangrijke rol voor meer verfijnde analysetechnieken. In een volgend artikel zal ik ingaan op het gebruik van decision tree anomaly detection analyses. Deze methodiek houdt expliciet rekening met causale verbanden en contextuele variabelen. Zo kan een lage omzet op een maandag in januari volgens Benford’s Law als ‘afwijkend’ worden aangemerkt, terwijl diezelfde observatie binnen een decision tree logisch blijkt wanneer rekening wordt gehouden met seizoenspatronen, weekdag-effecten en historische bedrijfsdata. Juist deze contextgevoelige benadering voorkomt de hoge mate van vals-positieven waar Benford-analyses structureel aan lijden en biedt daarmee een inhoudelijk beter verdedigbaar alternatief.

Conclusie

Stochastisch onderzoek op basis van Benford’s Law en de chi-kwadraattoets heeft een beperkte bewijskracht. Wetenschappelijk onderzoek toont aan dat de onderliggende aannames bij accounting data zelden worden vervuld en dat de gebruikte statistische toetsen vaak het verkeerde meten. Afwijkingen kunnen tal van legitieme oorzaken hebben en zijn regelmatig inconsistent met de fraudehypothese.

Voor de fiscale praktijk betekent dit dat Benford-analyses hooguit als een eerste screeningsinstrument kunnen dienen. Zij vormen geen ‘silver bullet’ voor fraudedetectie en kunnen niet fungeren als zelfstandig bewijs. De bewijslast blijft bij de Belastingdienst, die moet aantonen dat alle alternatieve verklaringen zijn uitgesloten en dat manipulatie de enige redelijke conclusie is. Gezien de wetenschappelijke kritiek wordt aan die zware eis in de praktijk zelden voldaan.

Willem Veldhuizen RE RTAP van Taxsample is statistical auditor en Tax Data Scientist. Zijn specialisme ligt op het snijvlak van IT-audit, belastingen, data-analyse en statistische steekproeven.