Wat is document capture?

Document capture is software die zorgt voor het digitaliseren en automatisch verwerken van grote hoeveelheden documenten. De term document capture wordt vaak verward met scannen, maar dit is niet hetzelfde. Capture gaat namelijk verder waar scannen ophoudt en in tegenstelling tot  scanning, kunnen ook digitale documenten gecaptured worden.

Vormen van capture

Er zijn verschillende vormen van capture:

  • Document capture voor capture van documenten.
  • Video capture voor capture van video’s.
  • Screen capture voor capture van schermafbeeldingen.

Een uitzondering geldt voor ‘image capture’ dit is namelijk geen vorm van capture, maar de naam van een applicatie van Apple voor het uploaden van foto’s.

Deze pagina gaat over document capture, maar in de praktijk wordt dit vaak gewoonweg ‘capture’ genoemd.

Document capture vs. scanning

Zoals we al in de inleiding beschreven is scanning en document capture niet hetzelfde. Er is een overlap, maar capture gaat veel verder dan het scannen van documenten.

Scanning

Bij het simpelweg scannen van een document, wordt het digitale document opgeslagen op een computer, meestal als .jpg of .pdf bestand. Daar stopt het proces. het bestand is gedigitaliseerd, maar je kunt niet veel met de informatie die in het document aanwezig is. Bovendien moet het bestand handmatig op een logische plek weggeschreven worden zodat het later teruggevonden kan worden.

Bij kleine hoeveelheden documenten is dit een werkbare situatie, maar wanneer er bedrijfsmatig grote hoeveelheden documenten gedigitaliseerd moeten worden, is dit geen werkbare situatie. Hier komt professionele document capture software om de hoek kijken.

Capture software

Capture software zorgt ervoor dat grote hoeveelheden documenten efficiënt en foutloos gedigitaliseerd kunnen worden. Document capture software wordt gebruikt om bijvoorbeeld bestaande archieven te digitaliseren, maar ook om inkomende documentstromen continu en structureel te kunnen blijven digitaliseren. 

Document capture gaat op diverse punten verder dan scanning:

Capture van digitale documenten

Een ander belangrijk verschil tussen scannen en document capture is dat digitale documenten ook 'gecaptured' kunnen worden. Voor alle duidelijkheid: het gaat hier dus om documenten die nooit als papieren document hebben bestaan, maar die digitaal zijn ontstaan (ook wel born digital genoemd). Denk bijvoorbeeld aan een pdf-document, Word-document, of Excel-document.

Meerdere punten in bovenstaande opsomming kunnen toegepast worden op digitaal "geboren" documenten en bieden dan precies dezelfde voordelen als wanneer het wordt toegepast op gedigitaliseerde documenten. Met name de laatste vier punten: document classificatie, data-extractie, formulierherkenning en het toevoegen van metadata kunnen evengoed toegepast worden op digitale (born digital) documenten. De voordelen hiervan leest u verderop deze pagina.

Paginascheiding

Het scannen van documenten kan alleen in batches (bulk) plaatsvinden wanneer de software toelaat om op efficiente wijze aan te geven waar in de stapel papier nieuwe documenten beginnen. Document capture software maakt dit mogelijk door middel van blanco pagina's (gewoonlijk in een pastelkleur) of barcodes. De software doet vervolgens de rest en scheidt de documenten automatisch en verwijderd naderhand de blanco pagina's.

Afbeelding optimalisatie

Een gescande afbeelding kan op diverse punten verbeterd worden door middel van document capture sofware. Het verbeteren van een gescande afbeelding heeft als voordeel dat het document beter leesbaar wordt, maar het verkleint ook de foutmarge van OCR.

  • Rechtzetten van pagina’s
    Het papier wordt niet altijd helemaal recht door de document feeder van de scanner getrokken. Er ontstaat dan een scheef digitaal document. Capture software kan die automatisch en manueel corrigeren.
  • Rotatie van pagina’s 
    In een papieren document zijn pagina’s soms een kwartslag of halve slag gedraaid. Soms gebeurt dit per ongeluk, maar uiteraard komt het ook voor dat de tekstrichting van een aantal pagina's afwijkt van de rest van het document. Ook dit kan automatisch worden gecorrigeerd door document capture software. Aan de hand van de herkende tekstrichting bepaalt de software paginarotatie.
  • Verwijderen van lijnen
    Wanneer een papieren document lijnen bevat (denk aan een notitieblok), dan kunnen deze lijnen softwarematig verwijderd worden voor een netter eindresultaat.
  • Verwijderen van perforatorgaten 
    Ook perforatorgaten kunnen automatisch worden verwijderd worden.
  • Verwijderen van blanco pagina’s 
    Blanco pagina’s in een document kunnen automatisch worden verwijderd.

OCR

Optical Character Recognition zet een gescande afbeelding (foto) om naar voor een computer leesbare tekst. Dit biedt veel mogelijkheden om veel meer te kunnen doen met document capture dan alleen digitaliseren: 

  1. OCR maakt het doorzoeken van tekst in het document mogelijk. Dit verhoogt de vindbaarheid van het document aanzienlijk.
  2. OCR maakt (geavanceerde) documentclassificatie mogelijk.
  3. OCR maakt (geavanceerde) data herkenning/extractie mogelijk.
  4. OCR maakt formulierherkenning mogelijk.

Documentclassificatie

Met behulp van documentclassificatie wordt bepaald tot welk documenttype (of soort) een document behoort. De meest eenvoudige manier om dit te doen is met een barcode op een document. De informatie over het documenttype wordt dan uit de barcode gelezen. Een barcode kan handmatig op het document geplakt worden bij binnenkomst in de organisatie. Voor documenten die gegenereerd worden in de eigen organisatie, kan de barcode standaard worden meegenomen (bijvoorbeeld d.m.v. een documentcreatie tool). 

Documentclassificatie biedt echter de meeste winst wanneer automatisch door de document capture software wordt bepaald tot welk documenttype een document behoort. Dit wordt gerealiseerd op basis van tekstherkenning (OCR) in het document. Met behulp van voorbeeldocumenten wordt de software getraind om te "leren" tot welk documenttype bepaalde documenten behoren. 

Het classificeren van documenten biedt diverse mogelijkheden:

  1. Documenten van een bepaald type/soort kunnen automatisch in een voorbepaald digitaal proces worden opgenomen.
  2. Documenten van een bepaald type/soort kunnen automatisch voorzien worden van een set metadata.
  3. Documenten kunnen (semi)automatisch worden gearchiveerd op de juiste plek. Een dossier is immers vaak onderverdeeld in subdossiers waarin zich documenten bevinden van bepaalde documentsoort.

Dit betekent dat er met documentclassificatie mogelijkheden ontstaan om minder handmatige werkzaamheden uit te voeren en de vindbaarheid van documenten te verhogen. Ook kan documentclassificatie worden gebruikt om in een later stadium de informatiebeveiliging te verhogen. Zo kan er een beveiligingsclassificatie (in de vorm van metadata) aan een bepaald type document worden gehangen waarnaar er in het DMS een beveiligingsniveau wordt toegekend aan het document.

Data-extractie

Waar documentclassificatie een document indeelt in een bepaalde categorie, haalt data-extractie juist bepaalde informatie uit een document, vandaar de term extractie. In de scheikunde betekent extractie dat een bepaalde stof wordt afgezonderd uit een bepaald materiaal om het vervolgens over te brengen naar een volgende fase. Dit is precies wat data-extractie doet met documenten en informatie die in die documenten aanwezig is. De informatie wordt afgezonderd uit het document om het vervolgens over te brengen naar een bepaald systeem en/of proces.

Een proces waar data-extractie vaak wordt gebruikt is het facturatieproces. Facturen bevatten informatie die nodig is in het financieel systeem om de factuur te kunnen verwerken. Denk aan factuurnummer, factuurbedragen, leverancier etc. Met data extractie kan de software zelf "vinden" waar deze informatie staat op een factuur. Op deze manier kan de juiste informatie automatisch onttrokken worden uit gescande (of digitale) facturen en vindt de verwerking van de factuur volledig automatisch plaats, zonder tussenkomst van mensen. 

Ook data-extractie kan plaatsvinden d.m.v. een barcode of op basis van OCR (tekstherkenning). In het geval van een barcode wordt net als bij documentclassificatie, de informatie uit de barcode gehaald. Bij het gebruik van tekstherkenning wordt de benodigde data geïdentificeerd door de document capture software te laten zoeken naar woorden (of getallen) die in de buurt staan van andere specifieke woorden. Zo zal een factuurnummer meestal onder of rechts staan ten opzichte van het woord ‘factuurnummer’ op een factuur. In het geval van factuurherkenning wordt de software per leverancier  “geleerd” om de benodigde informatie correct uit de factuur te onttrekken.

Formulierherkenning

Formulierherkenning is eigenlijk niet veel meer dan een vorm van data-extractie. Want er wordt uit een formulier informatie onttrokken voor gebruik in een proces en/of systeem. Echter, het verschil is dat een formulier een 100% gestructureerd document is. In de regel is alle data in het formulier relevant voor het proces (anders wordt er teveel informatie uitgevraagd in het formulier). Daarnaast is formulierherkenning tevens in staat om invulvakjes die in het formulier staan te herkennen en om te zetten naar een bepaalde waarde waar een digitaal proces mee overweg kan.

Toevoegen van metadata

Met metadata wordt informatie over een document vastgelegd en gekoppeld aan het document. Document capture kan in veel gevallen helpen om deze data autoamatisch toe te voegen aan documenten. Zo kan bijvoorbeeld het documenttype (in combinatie met documentclassificatie) gekoppeld worden aan een document, of omdat bepaalde informatie (zoals een personeelsnummer, of een leverancier- of klantnaam) herkend wordt in het document.

Er zijn verschillende redenen om metadata toe te passen. Metadata helpt om:

  1. Informatie beter vindbaar te maken
  2. Informatie sneller te kunnen interpreteren, oftewel het bieden van context
  3. Om informatie eenvoudiger te kunnen uitwisselen (binnen of buiten de organisatie)
  4. Om de toegankelijkheid van informatie te verhogen
  5. Om de informatie beter te kunnen beheren

Meer informatie over metadata vindt u op de website van het Nationaal Archief.

Document capture software van BCT

BCT biedt een professionele document capture software op basis van server gebaseerde technologie. Lees meer op de pagina Server Based Capture.