Was ist OCR und was hat das mit DMS zu tun?

Was ist OCR und was hat das mit DMS zu tun?

Im Zusammenhang mit Dokumentenmanagement-Systemen ließt man auch immer von OCR. Was das ist und welchen Nutzen dies für Unternehmen hat, lesen Sie hier.

Hinter dem Kürzel OCR verbirgt sich die Optical Character Recognition, also zu Deutsch die optische Zeichenerkennung, bzw. Texterkennung. Diese ermöglicht die Umwandlung unterschiedlicher Dokumente, wie Papierdokumente, PDF-Dateien oder Digitalbilder in bearbeitbare und durchsuchbare Dateien. (vgl. abbyy.com) Bei der Einführung eines Dokumentenmanagementsystems in ein Unternehmen muss dieses zunächst eine Vielzahl alter, aber dennoch wichtiger Papierdokumente scannen, damit diese auch digitalisiert zur Verfügung stehen. Die meisten Scans werden einfach in eine nicht editierbare PDF umgewandelt. Mit einer OCR-Anwendung wird der Inhalt des Dokumentes erkannt und man kann das Dokument auch in digitaler Form nutzen und vor allem danach suchen. 

Wie funktioniert ein OCR?

Dafür analysiert das Programm die Struktur der Dokumentenabbildung und unterteilt die Seite in verschiedene Textblöcke, anschließend in Zeilen dann in Wörter und in Buchstaben aufgeteilt. Dann vergleicht das Programm die einzelnen Buchstaben mit Mustern und stellt Hypothesen auf, um welches Wort es sich dabei handeln könnte. Nach Berechnung vieler Hypothesen präsentiert das Programm dann am Ende ein Ergebnis, den erkannten Text. (vgl. ebd.) Dies funktioniert so gut, dass die Fehlerquote unter 2% liegt. Dennoch heißt dies gleichsam auch, dass in einem Text von etwa 1.000 Wörtern etwa 20 Fehler stecken. Oftmals wird ein „ü“ zu „u“ oder umgekehrt. Doch auch dies Probleme lassen sich mit Autokorrekturen oder speziellen Add-Ons in den Griff kriegen. (vgl.  Aurica Voss vom 19.12.2018 auf regis24.de) 

Handschriftliche Dokumente ein Problem

Während OCR-Programme also viele Standarddokumente problemlos erkennen und durch verschiedene Autokorrekturen auch die eigene Fehlerquote senken können, tuen sie sich mit der Erkennung von handschriftlichen Dokumenten weiter schwer. Verständlich, denn jeder Handschrift unterscheidet sich von der anderen, während die gängigsten digitalen Schriftarten immer gleich sind. An dieser Stelle wird beispielsweise bei der Übertragung von handschriftlichen Protokollen oder Fragebögen die menschliche Arbeit unablässig. Mit Cloudservices und Crowdworkern können jedoch die enthaltenen Informationen in den Dokumenten schnell und günstig erschlossen werden. Auf Grund der DSGVO ist es nicht ohne weiteres möglich handschriftliche Dokumente an Drittanbieter zu versenden, die diese dann digitalisieren.

Lösung durch Crowdworker

Deshalb kommt eine Software zum Einsatz, die ein gescanntes Dokument entgegennimmt und die handschriftlichen Felder in diesem erkennt. Die schneidet die Wörter in einzelne Buchstabenschnipsel und erkennt gleichartige Schnipsel und fasst diese zu einem Job zusammen. Dann wird über eine Online-Schnittstelle der jeweilige Job in die Cloud geladen. Dann kommen die Crowdworker zum Einsatz. Über die ganze Erde verteilt übernehmen diese die Erkennung der einzelnen Jobs. Sie lesen die einzelnen Buchstaben und Zahlen und geben diese in die Erkennungssoftware ein. Im Anschluss setzt diese dann die einzelnen Schnipsel wieder zu ganzen Wörtern zusammen. Auf diese Weise kann kein einziger Crowdworker Rückschlüsse auf die einzelnen Dokumente ziehen. Dabei benötigt ein einzelner Auftrag lediglich ein paar Minuten, ehe man ein Dokument einfach und fehlerfrei zurückerhält (Artikel vom 21.08.2019 auf it-zoom.de) 

Viele Vorteile durch OCR

Warum aber sollte man sich all die Mühe machen die Dokumente auf diese Art und Weise zu digitalisieren? Reicht es nicht aus über den üblichen Scanner die Dokumente einzulesen? Damit ein DMS sein volles Potential ausnutzen kann, ist es von großer Bedeutung, dass der in den Dokumenten enthaltende Text auch erkannt wird. Nur so kann das System die Dokumente ausreichend verarbeiten und für beispielsweise Analysen heranziehen. Andernfalls liegen die Informationen einfach ungenutzt herum. 

23 August 2019

Jedes dritte Unternehmen mittlerweile digital unterwegs

Analoge Archive und der damit verbundene Papierkrieg sind bald wohl nur noch Geschichte. Immer mehr Unternehmen arbeiten heute digital, wie eine neue Studie belegt.

Lesen Sie weiter

Digitale Prozesse für das Gesundheitswesen

Philips und Optimal Systems kooperieren Berichten zufolge im Health Care Bereich, um ganzheitliche, digitale Prozesse für das Gesundheitswesen zu schaffen.

Lesen Sie weiter