BiographiePublikationenSkriptenwww.moesgen.dewww.moesgen.de

Texterkennung mit FineReader 4.0

erschienen in: INKUERZE 10 (1999), Nr. 2, S. 32 ff.

Kleine Marktübersicht   ·    FineReader   ·    Text erkennen

Wer mit 250 Anschlägen pro Minute fehlerfrei tippt, gewinnt bei kurzen Textpassagen jeden Wettlauf mit einem Scanner. Längere Texte lassen sich dagegen mittels automatischer Texterkennung komfortabel erfassen. Lediglich qualitativ steht die Maschine dem Menschen nach: Eine Trefferquote von 99,5 Prozent in der Texterkennung ergibt bei 50 Buchstaben pro Zeile in jeder vierten Zeile einen Fehler, das sind immerhin rund 15 Fehler pro erkannter Seite. Bei schlechteren Vorlagen – unterschiedliche Kontraste, verschmutztes Papier, schlechte Kopie – erhöht sich die Fehlerzahl. Sollen jedoch größere Textmengen auf einwandfreien Vorlagen erfasst werden, leistet eine Texterkennung mit einer Trefferquote von bis zu 99,9 Prozent gute Dienste.

Kleine Marktübersicht

Texterkennung wird seit Anfang 1991 im Rechenzentrum der Katholischen Universität Eichstätt eingesetzt. Damals nannte sich das System „Optisch orientierter Prozessor zur Umsetzung von Schriften“, kurz OPTOPUS. Einem erkannten Bildmuster, das OPTOPUS auf dem Monitor anzeigte, musste mittels Tastatur ein Buchstabe zugeordnet werden. Auf diese Art konnte das Programm trainiert werden; nach 10 Seiten kannte es die meisten Buchstaben. Heute werden erkannte Muster automatisch mit gespeicherten Schriftenvorlagen verglichen. Auf dem Markt sind 32bit-Programme für Windows 95/98 oder NT, die einen solchen aufwendigen Vergleich in Zusammenarbeit mit einem Pentium-Prozessor schnell bewältigen können.

Zu den bekanntesten Texterkennungsprogrammen zählt Omnipage Pro, das gute Scan-Ergebnisse erzielt. Ärgerlich ist lediglich der eingebaute Registrierungszwang. Die oft bei neuen Scannern mitgelieferte Light-Version des Programms taugt eher weniger. Eine Alternative zu Omnipage Pro unter den teuren Programmen stellt Recognita dar. Die Scan-Ergebnisse sind leicht schlechter als bei Omnipage Pro, dafür arbeitet Recognita deutlich schneller. Etwas preiswerter aber leistungsmäßig von gleicher Klasse ist das Programm Textbridge. Zu den weniger bekannten Programmen gehört Readiris, das beim Scannen ebenso wie Textbridge nur schwarz oder weiß unterscheiden kann; Graustufen auf der Vorlage werden dem einen oder anderen zugeordnet. Die Erkennungsqualität von Readiris ist etwas schlechter als die anderer Programme.

FineReader

Eines der preiswertesten Programme auf dem Markt, FineReader Standard, schneidet bei Tests in PC-Zeitschriften am besten ab. Laut Werbung erkennt FineReader auch die fünfte Kopie einer Kopie korrekt. Das stimmt zwar nicht, aber grundsätzlich liegt die Erkennungsgenauigkeit des Programms mindestens genauso hoch wie bei Omnipage Pro. FineReader ist ein Produkt der russischen Firma ABBYY. Es wird in Deutschland durch den Münchener Anbieter MitCom vertrieben. FineReader beherrscht eine Vielzahl von Sprachen, darunter deutsch, englisch, französisch, spanisch und italienisch, aber auch beispielsweise russisch, ungarisch, türkisch slowakisch und polnisch, letztere allerdings ohne automatische Rechtschreibprüfung.

FineReader wird in verschiedenen Versionen angeboten. Unter 20 Mark oder kostenlos im Bundle mit manchen neuen Scannern gibt es FineReader Sprint. Die Mini-Version verfügt über das vollständige Scan-Modul, speichert den erkannten Text aber ausschließlich als „nur Text“ ab, das heißt, Formatierungen oder Auszeichnungen (fett, kursiv etc.) gehen verloren. FineReader Standard sollte den meisten Anwendern genügen. Die teure Professional Version erlaubt zusätzlich das Einscannen von Formularen und die Übergabe der Ergebnisse an eine Datenbank. Das noch teurere FineReader Handscript bietet die Möglichkeit, ähnlich wie OPTOPUS, auf Trainingsbasis Handschriften oder fremde Alphabete einzulesen.

Im Universitätsrechenzentrum wird die Standardversion FineReader 4.0b in Verbindung mit dem Profi-Scanner Scanjet 4c von Hewlett Packard eingesetzt. Der Scanner-PC in Raum eO-005 steht täglich zwischen 10 und 12 Uhr und von 14 Uhr bis zur Schließung des Rechenzentrums zur Verfügung.

Text erkennen

Zuerst den Scanner einschalten, ansonsten wird er beim Start des Betriebssystems nicht gefunden. Dann den Computer einschalten und im Boot-Manager Windows NT wählen. Wenn NT hochgefahren ist, wie gewohnt mit der Benutzerkennung am Novell-Netz anmelden.

Den zu scannenden Text in den Scanner einlegen, FineReader über „Start – Programme – Scanner – ABBYY FineReader – FineReader 4.0 Standard“ oder über das FineReader-Symbol auf dem Desktop starten. Unterhalb der Menüleiste von FineReader erscheinen fünf Symbole für die fünf Arbeitsschritte beim Scannen.

FineReader

Erstens: Sollen mehrere Seiten gescannt werden, im Menü „Scan&Read“ – „Mehrere Seiten scannen“ wählen, ansonsten einfach auf „1 Scannen“ klicken. FineReader ruft den Scannertreiber Deskscan II für den Scanjet 4c auf und scannt ein Voransichtsbild. Bevor der Text endgültig gescannt werden kann, müssen vier Einstellungen vorgenommen werden.
  1. Im Feld „Typ“ „SW-Foto (scharf)“ einstellen, damit 256 Graustufen gescannt werden.
  2. Im Menü „Individuell – Druckpfad“ unter Fotos eine horizontale und vertikale Auflösung von jeweils 300dpi eintragen. Im Feld „Pfad“ erscheint „Individuell“. Bei sehr kleinen Schriften 400dpi eintragen.
  3. Im der rechten Bildschirmhälfte befindet sich das Voransichtsfenster mit einem schwarzen Rahmen um den gescannten Text. Gegebenenfalls den Rahmen so korrigieren, dass er den zu scannenden Text genau umschließt: Den Mauszeiger auf den Rahmen bewegen, bis der Zeiger zum Doppelpfeil wird, mit gedrückter linker Maustaste den Rahmen korrigieren. Alternativ kann mit dem Mauszeiger in die weiße Fläche außerhalb des Rahmens geklickt werden und mit gedrückter linker Maustaste ein neuer Rahmen aufgezogen werden. Darauf achten, dass die Textvorlage gerade eingelegt ist.
  4. Auf das runde Symbol zwischen Helligkeits- und Kontrastregler klicken, um einen automatischen Ausgleich auszuführen, der in der Regel sehr gute Scan-Ergebnisse bringt.
Auf „Endgültig“ klicken. Der Text wird gescannt und an FineReader übergeben. Sollte nur eine Seite gescannt werden, schließt sich das Programm Deskscan II automatisch. Sollten mehrere Seiten gescannt werden, neue Seite einlegen und auf „Voransicht“ klicken. Haben die weiteren Seiten identisches Aussehen wie die erste, kann sofort auf „Endgültig“ geklickt werden. Nach der letzten Seite das Programm Deskscan II beenden.

FineReader zeigt nun drei Fenster: links Symbole für die einzelnen erkannten Seiten, rechts daneben die erste erkannte Seite als Bild in einer Gesamtübersicht, unten erscheint die Seite nochmal als Bild allerdings stark vergrößert.

Zweitens: Auf „2 Blöcke markieren“ klicken. FineReader legt die Reihenfolge der Erkennung fest. Falls die automatische Reihenfolge falsch ist, entweder alle Blockmarkierungen mit der Tastenkombination Strg-Entf löschen (oder mit der rechten Maustaste ins Fenster klicken und im Kontext-Menü „Alle Blöcke löschen“ wählen) und neue Blöcke in der gewünschten Reihenfolge festlegen. Über das Kontext-Menü können auch vorhandene Blöcke neu nummeriert werden. Soll nur ein einzelner Block nicht erkannt werden, kann man die Markierung durch Anklicken des Blocks und anschließendes Drücken der Entf-Taste löschen.

Drittens: Auf „3 Erkennen“ klicken. Vorher darauf achten, dass in der Anzeigeleiste die richtige Sprache eingestellt ist. In der rechten Bildschirmhälfte erscheint ein neues Fenster mit dem erkannten Text.

FineReader
Auf kopierten Vorlagen befinden sich bisweilen kleine Tonerkleckse, die unter Umständen als Satzzeichen interpretiert werden. Die Funktion „Säubern“ im Block-Menü kann die Erkennungsqualität eventuell verbessern. Achtung: Die Säuberung verschluckt manchmal auch i- und Umlaut-Punkte sowie Satzzeichen.

Viertens: Auf „4 Prüfung“ klicken. In einem Dialogfenster wird das erste unbekannte Wort des Textes eingeblendet. Meistens erscheinen im Feld darunter Korrekturvorschläge. Im unteren Bildschirmfenster wird das aktuell bearbeitete Wort vergrößert dargestellt. Wurde das Wort richtig erkannt, auf „Bestätigen“ klicken. Andernfalls korrigieren und auf „Ersetzen“ klicken. Häufige Erkennungsfehler sind die Verwechslung von Punkt und Komma, die Interpretation von „rn“ als „m“ oder „l“ als „1“. Bisweilen müssen Bindestriche mitten im Wort gelöscht werden: FineReader hat in solchen Fällen einen Trennstrich falsch interpretiert.

Falls man irgendetwas falsches versehentlich als richtig bestätigt hat, kann man rechts in das Fenster mit dem erkannten Text irgendwo vor die entsprechende Stelle klicken und im Dialogfenster „weiter“ wählen. Dann setzt FineReader die Korrektur von der aktuellen Cursorposition aus fort und das falsche Wort erscheint erneut.

Fünftens: Zum Schluss auf „5 Speichern“ klicken. Die Option „alle erkannten Seiten speichern“ sollte aktiviert sein. In der Regel genügt eine Übergabe an Microsoft Word oder Corel Word Perfect.

Befinden sich im Text Anführungszeichen, können sie in Word 97 leicht in deutsche Anführungszeichen umgewandelt werden: Im Bearbeiten-Menü die Funktion „ersetzen“ wählen und alle Anführungszeichen durch Anführungszeichen ersetzen lassen. Danach erscheinen alle Anführungszeichen korrekt abwechselnd unten und oben.

Alternativ zur Übergabe an eine Textverarbeitung stehen unter „Datei senden“ verschiedene Dateiformate zur Verfügung inklusive HTML und PDF. Gut portabel zu anderen Programmen ist RTF.

Bei „Textdatei“ gehen alle Formatierungen verloren; außerdem werden unangenehmerweise alle am Zeilenende getrennten Wörter mit dem Trennstrich abgespeichert. Wer eine reine „Textdatei“ benötigt, sollte den Text zunächst an Word 97 übergeben und von dort aus mit „speichern unter“ als „nur Text“ sichern.

Beim Schließen von FineReader erfolgt die Rückfrage, ob die gescannten Seiten, Stapel genannt, zur weiteren Bearbeitung gespeichert werden sollen. Wurde der Text vorher korrekt abgespeichert, kann mit „nein“ geantwortet werden. Soll ein neuer Text gescannt werden, nachdem vorher ein Stapel geschlossen wurde, muss über das Datei-Menü erst ein neuer (leerer) Stapel geöffnet werden.

nach oben

 © Peter Mösgen Peter Mösgen 21. März 2001