OCR


Die Abkürzung OCR steht für "Optical Character Recognition" oder auf deutsch "Optische Zeichenerkennung". Was verbirgt sich hinter dieser eigentümlichen Bezeichnung? Einfach ausgedrückt versucht man, die Arbeit des Abschreibens von Texten vom Computer erledigen zu lassen. Mit Hilfe eines Scanners und einer OCR-Software kann man somit dem PC das Lesen beibringen.

Der erste Schritt ist die optische Abtastung des Textes durch einen Scanner. Die Vorlage wird dabei in Bildpunkte zerlegt und jedem dieser Bildpunkte wird ein Wert für die Graustufen- bzw. Farbinformationen zugeordnet. Die Auflösung eines Scanners wird in dpi (dots per inch / Punkte pro Zoll) angegeben und ist ein Maß dafür, wie feinmaschig die Vorlagen abgetastet werden können. Als Ergebnis eines Scanvorgangs erhält man eine Grafikdatei, die mit Hilfe von Bildbearbeitungsprogrammen gedruckt und verändert werden kann. Soll der Text aber mit einem Textverarbeitungsprogramm weiterverarbeitet werden, muss ein Texterkennungsprogramm im gescannten Abbild nach Buchstaben suchen und diese interpretieren.

In einem ersten, vorbereitenden Arbeitsgang wird die Textvorlage segmentiert und in einzelne Buchstaben und Zeichen zerlegt. Für die Auswertung der Zeichen können verschiedene Technologien benutzt werden. Eine Möglichkeit ist es, gescannte und separierte Zeichen mit abgespeicherten Mustern zu vergleichen und bei Übereinstimmung bestimmte Buchstaben zuzuordnen. Eine andere Technik ist die Auswertung nach Merkmalen der Zeichen. Hierbei wird ein Zeichen in geometrische Figuren wie Linien und Kreise zerlegt und diesen Elementen wird dann ein Buchstabe zugeordnet. Sicher kann man sich vorstellen, dass die Auswertung ähnlich aussehender Zeichen wie I und 1 oder 0 und O sehr schwierig ist, wenn nicht auf Sinnzusammenhänge zurückgegriffen werden kann.

Bei der Leistungsfähigkeit heutiger Texterkennungssysteme werden natürlich zahlreiche Technologien und Analysen eingesetzt, um sehr hohe Genauigkeiten zu erzielen. Der Faktor Erkennungsgenauigkeit ist in starkem Maße abhängig von der Vorlagenqualität und natürlich auch von den Helligkeitseinstellungen beim Scanvorgang. Das Gesamtergebnis können die meisten OCR-Systeme durch bestimmte Hilfsmittel wie Wörterbücher oder Trainingsmöglichkeiten positiv beeinflussen. Eine 100%-ige Erkennung kann jedoch kein System garantieren. Um so beeindruckender ist es daher, dass die Fehlerrate bei neuen Versionen um Größenordnungen gesenkt werden kann und die Verarbeitung schwieriger Vorlagen ermöglicht wird.