Datamining speurt douanefraude zeven keer beter op

Douanefraude opsporen door 'big data' te analyseren levert opvallende resultaten op. Tijdens het douanecongres lichtte onderzoeker David Martens (UAntwerpen) zijn speurtocht toe.

Onderzoeker David Martens en zijn team stapten zelf naar de douane met de vraag of ze gegevens konden krijgen om een analyse naar fraude uit te voeren. "De douane doet zelf al aan datamining, maar we hebben specifiek op nieuwe data gewerkt om de voorspelling te verbeteren", legt hij uit. Hij kreeg toegang tot een dataset van ruim 9,6 miljoen records.

Facebooklikes

“Traditioneel worden bij datamining het nettogewicht, de prijs, het aantal items of de vervoersmodus gebruikt,” zegt Martens. Samen met zijn team voegde hij er nog twee soorten data aan toe: gedrag en ‘high cardinality’. "In eerdere toepassingen hadden we gezien dat deze twee een grote voorspellingskracht hadden."

"Ons onderzoek focust op gedragsdata en dat gaat meestal over mensen: betalingen die ze uitvoeren en locaties of websites die ze bezoeken. Dat is heel voorspellend voor ander gedrag van mensen. Wat je bijvoorbeeld liket op Facebook, is heel voorspellend voor je politieke voorkeur of je kredietwaardigheid. Hetzelfde geldt voor de high cardinality: wie betrokken is bij een bepaalde transactie of een bepaald bedrijf, is heel voorspellend. Daarom wilden we dit ook toepassen in het domein van de douane.”

Opvallende resultaten

De wetenschapper blikt tevreden terug. “Door die drie types data te combineren, kregen we de beste resultaten”, zegt David Martens. “We hadden een grote ‘hit rate’. Stel dat je een procent van alle artikels controleert, dan deden we het zeven keer beter. Met andere woorden, wij vonden zeven keer meer fraude dan wanneer je het willekeurig zou onderzoeken.”

Melanie De Vrieze