Tutorium Quercopolitanum - Andreas Hartmann

16.4 Texterkennung (OCR)

Sofern gedruckte Texte digitalisiert werden sollen, empfiehlt sich die Anwendung eines OCR-Programmes (Optical Character Recognition). Für „normale“ Texte gibt es eine Reihe von geeigneten, wenn auch kostspieligen Programmen (Nuance OmniPage, ABBYY Finereader); auch monotonisches Neugriechisch wird von dieser Software ohne Probleme erkannt. Schwieriger ist die Digitalisierung polytonischer altgriechischer Texte: Nur die griechische Firma Ideatech vertreibt ein hierauf spezialisiertes Programm mit Namen Anagnostis, das aber hinsichtlich der Erkennungsgenauigkeit und der Toleranz gegenüber schlechten Vorlagen in keiner Weise mit der genannten Standardsoftware konkurrieren kann. Abhilfe schafft ein kleiner Trick: Sowohl OmniPage als auch Finereader lassen sich für neue Zeichensätze trainieren. Da sie nicht voll Unicode-fähig sind, kann man ihnen zwar Altgriechisch nicht direkt beibringen, man kann sie aber überlisten, indem man den altgriechischen Zeichen jeweils ihre Beta Code-Äquivalente (http://www.tlg.uci.edu/BetaCode.html) zuweist und die Vokale mit Akzenten bzw. die Großbuchstaben als Ligaturen deklariert. Das Ergebnis ist eine Textvorlage in Beta Code, die dann mit den oben aufgeführten Konvertern nach Unicode überführt werden kann. In der neuen Version 9 können nun in Finereader auch beliebige Unicode-Zeichen direkt trainiert werden.