Hoe we verschillende (AI-gedreven) technieken combineren om paspoortscans te detecteren

Ons Nalytics Search & Discovery-platform helpt bedrijven al jaren bij het structureren van hun data. In de loop van de tijd hebben onze klanten ons gevraagd of we onze software kunnen gebruiken om niet-tekstgevoelige bestanden te vinden, zoals scans en foto's van paspoorten, ID-kaarten, rijbewijzen en verblijfsvergunningen.

Bij veel bedrijven zwerven scans van identiteitsbewijzen rond in Sharepoint-omgevingen, gedeelde schijven of mailboxen. Gezien de AVG-regelgeving moeten bedrijven dit opruimen. Maar om deze afbeeldingen te kunnen verwijderen, moet u weten in welke bestanden ze zich bevinden en hoe u ze kunt openen, wat vaak complex is.

Gescande identiteitsdocumenten zijn vaak verspreid over verschillende servers, gedeelde schijven en mailboxen. Toen de AVG-wetten van kracht werden, hadden bedrijven een manier nodig om deze onbeveiligde afbeeldingen te verwijderen, maar om dit te doen, moesten ze weten waar de afbeeldingen zich bevinden.

Aangezien dit voor veel van onze klanten een probleem zou zijn, hebben we een techniek ontwikkeld die alle afbeeldingen van identiteitsdocumenten detecteert. In deze blog leg ik uit hoe we dat doen.

Eerst worden alle bestanden van de organisatie geïndexeerd. Tijdens dit proces worden afbeeldingen en PDF-bestanden OCR'd. Dit betekent dat alle letters en leestekens in afbeeldingen worden omgezet naar tekst. We kiezen ervoor om alleen afbeeldingen boven een bepaald formaat OCR te gebruiken. Dit betekent dat we kunnen voorkomen dat elk bedrijfslogo of e-mailhandtekening die de software ontdekt, OCR wordt gebruikt.

Nadat alle gegevens zijn geïndexeerd, voeren we een uitgebreide zoekopdracht uit. We zoeken naar alle mogelijke woordcombinaties die voorkomen in identiteitsdocumenten, maar houden rekening met alle mogelijke fouten die tijdens het OCR-proces zijn gemaakt. Als pasfoto's van lage kwaliteit zijn, kunnen brieven verkeerd geïnterpreteerd worden, maar deze afbeeldingen wil je natuurlijk niet uitsluiten.

Er is veel onderzoek gedaan naar het samenstellen van deze query. Je wilt er niet te veel vinden valse positieven, maar je wilt er zeker geen vinden valse negatieven. Dat zou betekenen dat we scans van identiteitsbewijzen over het hoofd zouden zien.

Door deze zoekopdracht te gebruiken, blijven we zitten met een subset van bestanden die grotendeels bestaat uit bestanden waarin een ID is gevonden. We voeren nu een laatste controle uit om te zien of deze bestanden daadwerkelijk ID-afbeeldingen bevatten.

De klant ontvangt uiteindelijk een rapport met al deze bestanden inclusief het precieze pad van het bestand. De klant kan ervoor kiezen om deze bestanden zelf op te schonen op basis van de melding, of wij zullen alle afbeeldingen voor ze verwijderen. De afbeelding hieronder toont een voorbeeld van hoe een PDF-bestand eruit zou kunnen zien voor en na bewerking door Nalytics.

Organisatiegegevens kunnen soms vele terabytes groot zijn, waardoor de kosten van dergelijke operaties snel hoog kunnen oplopen. Doordat we verschillende technieken combineren en in verschillende stappen subsets maken van de originele dataset, weten we de kosten laag te houden.

Weten wat wij voor uw organisatie kunnen betekenen? Boek een demo or deze link voor meer informatie.

Privacyoverzicht

Deze website maakt gebruik van cookies om uw ervaring te verbeteren terwijl u door de website navigeert. Hiervan worden de cookies die als noodzakelijk zijn gecategoriseerd in uw browser opgeslagen, omdat ze essentieel zijn voor de werking van basisfunctionaliteiten van de website. We gebruiken ook cookies van derden die ons helpen analyseren en begrijpen hoe u deze website gebruikt. Deze cookies worden alleen met uw toestemming in uw browser opgeslagen. U heeft ook de mogelijkheid om u af te melden voor deze cookies. Maar als u zich afmeldt voor sommige van deze cookies, kan dit uw browse-ervaring beïnvloeden.

Nodig

Altijd Ingeschakeld

Noodzakelijke cookies zijn absoluut noodzakelijk om de website goed te laten functioneren. Deze cookies zorgen anoniem voor basisfunctionaliteiten en beveiligingsfuncties van de website.

Cookiebleid	Duur	Omschrijving
_Grecaptcha	5 maanden, 27 dagen	Deze cookie is ingesteld door de Google recaptcha-service om bots te identificeren om de website te beschermen tegen kwaadaardige spamaanvallen.
cookielawinfo-checkbox-advertentie	1 jaar	Deze cookie, ingesteld door de GDPR Cookie Consent-plug-in, wordt gebruikt om de toestemming van de gebruiker voor de cookies in de categorie "Advertentie" vast te leggen.
cookielawinfo-checkbox-analyse	11 maanden	Deze cookie wordt ingesteld door de plug-in GDPR Cookie Consent. De cookie wordt gebruikt om de toestemming van de gebruiker voor de cookies in de categorie "Analytics" op te slaan.
cookielawinfo-checkbox-functioneel	11 maanden	De cookie wordt ingesteld door GDPR cookie-toestemming om de toestemming van de gebruiker voor de cookies in de categorie "Functioneel" vast te leggen.
cookielawinfo-checkbox-noodzakelijk	11 maanden	Deze cookie wordt ingesteld door de plug-in GDPR Cookie Consent. De cookies worden gebruikt om de toestemming van de gebruiker voor de cookies in de categorie "Noodzakelijk" op te slaan.
cookielawinfo-checkbox-anderen	11 maanden	Deze cookie wordt ingesteld door de plug-in GDPR Cookie Consent. De cookie wordt gebruikt om de toestemming van de gebruiker op te slaan voor de cookies in de categorie "Overig.
cookielawinfo-checkbox-prestaties	11 maanden	Deze cookie wordt ingesteld door de plug-in GDPR Cookie Consent. De cookie wordt gebruikt om de toestemming van de gebruiker voor de cookies in de categorie "Prestaties" op te slaan.
CookieLawInfoToestemming	1 jaar	Registreert de standaardknopstatus van de overeenkomstige categorie en de status van CCPA. Het werkt alleen in coördinatie met de primaire cookie.
seen_cookie_policy	11 maanden	De cookie wordt ingesteld door de GDPR Cookie Consent-plug-in en wordt gebruikt om op te slaan of de gebruiker al dan niet heeft ingestemd met het gebruik van cookies. Het slaat geen persoonlijke gegevens op.