Hoe we verschillende (AI-gedreven) technieken combineren om paspoortscans te detecteren

by woensdag 21 september 2022

Ons Nalytics Search & Discovery-platform helpt bedrijven al jaren bij het structureren van hun data. In de loop van de tijd hebben onze klanten ons gevraagd of we onze software kunnen gebruiken om niet-tekstgevoelige bestanden te vinden, zoals scans en foto's van paspoorten, ID-kaarten, rijbewijzen en verblijfsvergunningen.

Bij veel bedrijven zwerven scans van identiteitsbewijzen rond in Sharepoint-omgevingen, gedeelde schijven of mailboxen. Gezien de AVG-regelgeving moeten bedrijven dit opruimen. Maar om deze afbeeldingen te kunnen verwijderen, moet u weten in welke bestanden ze zich bevinden en hoe u ze kunt openen, wat vaak complex is.

Gescande identiteitsdocumenten zijn vaak verspreid over verschillende servers, gedeelde schijven en mailboxen. Toen de AVG-wetten van kracht werden, hadden bedrijven een manier nodig om deze onbeveiligde afbeeldingen te verwijderen, maar om dit te doen, moesten ze weten waar de afbeeldingen zich bevinden.

Aangezien dit voor veel van onze klanten een probleem zou zijn, hebben we een techniek ontwikkeld die alle afbeeldingen van identiteitsdocumenten detecteert. In deze blog leg ik uit hoe we dat doen.

Eerst worden alle bestanden van de organisatie geïndexeerd. Tijdens dit proces worden afbeeldingen en PDF-bestanden OCR'd. Dit betekent dat alle letters en leestekens in afbeeldingen worden omgezet naar tekst. We kiezen ervoor om alleen afbeeldingen boven een bepaald formaat OCR te gebruiken. Dit betekent dat we kunnen voorkomen dat elk bedrijfslogo of e-mailhandtekening die de software ontdekt, OCR wordt gebruikt.

Nadat alle gegevens zijn geïndexeerd, voeren we een uitgebreide zoekopdracht uit. We zoeken naar alle mogelijke woordcombinaties die voorkomen in identiteitsdocumenten, maar houden rekening met alle mogelijke fouten die tijdens het OCR-proces zijn gemaakt. Als pasfoto's van lage kwaliteit zijn, kunnen brieven verkeerd geïnterpreteerd worden, maar deze afbeeldingen wil je natuurlijk niet uitsluiten.

Er is veel onderzoek gedaan naar het samenstellen van deze query. Je wilt er niet te veel vinden valse positieven, maar je wilt er zeker geen vinden valse negatieven. Dat zou betekenen dat we scans van identiteitsbewijzen over het hoofd zouden zien.

Door deze zoekopdracht te gebruiken, blijven we zitten met een subset van bestanden die grotendeels bestaat uit bestanden waarin een ID is gevonden. We voeren nu een laatste controle uit om te zien of deze bestanden daadwerkelijk ID-afbeeldingen bevatten.

De klant ontvangt uiteindelijk een rapport met al deze bestanden inclusief het precieze pad van het bestand. De klant kan ervoor kiezen om deze bestanden zelf op te schonen op basis van de melding, of wij zullen alle afbeeldingen voor ze verwijderen. De afbeelding hieronder toont een voorbeeld van hoe een PDF-bestand eruit zou kunnen zien voor en na bewerking door Nalytics.

Organisatiegegevens kunnen soms vele terabytes groot zijn, waardoor de kosten van dergelijke operaties snel hoog kunnen oplopen. Doordat we verschillende technieken combineren en in verschillende stappen subsets maken van de originele dataset, weten we de kosten laag te houden.

Weten wat wij voor uw organisatie kunnen betekenen? Boek een demo or contacteer ons voor meer informatie.

 

 

Geplaatst in: datum, documenten, GDPR, Nalytica, OCR

Wat kan Nalytics voor uw organisatie betekenen?

0 reacties

Geef je mening

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *

Kies 'n taal