|
Texterkennung mit FineReader 4.0erschienen in: INKUERZE 10 (1999), Nr. 2, S. 32 ff.Kleine Marktübersicht · FineReader · Text erkennen
Wer mit 250 Anschlägen pro Minute fehlerfrei tippt, gewinnt bei
kurzen Textpassagen jeden Wettlauf mit einem Scanner. Längere
Texte lassen sich dagegen mittels automatischer Texterkennung
komfortabel erfassen. Lediglich qualitativ steht die Maschine
dem Menschen nach: Eine Trefferquote von 99,5 Prozent
in der Texterkennung ergibt bei 50 Buchstaben pro Zeile in
jeder vierten Zeile einen Fehler, das sind immerhin rund 15 Fehler pro
erkannter Seite. Bei schlechteren Vorlagen – unterschiedliche Kontraste,
verschmutztes Papier, schlechte Kopie – erhöht sich die Fehlerzahl.
Sollen jedoch größere Textmengen auf einwandfreien Vorlagen erfasst
werden, leistet eine Texterkennung mit einer Trefferquote
von bis zu 99,9 Prozent gute Dienste.
Kleine MarktübersichtTexterkennung wird seit Anfang 1991 im Rechenzentrum der Katholischen Universität Eichstätt eingesetzt. Damals nannte sich das System „Optisch orientierter Prozessor zur Umsetzung von Schriften“, kurz OPTOPUS. Einem erkannten Bildmuster, das OPTOPUS auf dem Monitor anzeigte, musste mittels Tastatur ein Buchstabe zugeordnet werden. Auf diese Art konnte das Programm trainiert werden; nach 10 Seiten kannte es die meisten Buchstaben. Heute werden erkannte Muster automatisch mit gespeicherten Schriftenvorlagen verglichen. Auf dem Markt sind 32bit-Programme für Windows 95/98 oder NT, die einen solchen aufwendigen Vergleich in Zusammenarbeit mit einem Pentium-Prozessor schnell bewältigen können.Zu den bekanntesten Texterkennungsprogrammen zählt Omnipage Pro, das gute Scan-Ergebnisse erzielt. Ärgerlich ist lediglich der eingebaute Registrierungszwang. Die oft bei neuen Scannern mitgelieferte Light-Version des Programms taugt eher weniger. Eine Alternative zu Omnipage Pro unter den teuren Programmen stellt Recognita dar. Die Scan-Ergebnisse sind leicht schlechter als bei Omnipage Pro, dafür arbeitet Recognita deutlich schneller. Etwas preiswerter aber leistungsmäßig von gleicher Klasse ist das Programm Textbridge. Zu den weniger bekannten Programmen gehört Readiris, das beim Scannen ebenso wie Textbridge nur schwarz oder weiß unterscheiden kann; Graustufen auf der Vorlage werden dem einen oder anderen zugeordnet. Die Erkennungsqualität von Readiris ist etwas schlechter als die anderer Programme. FineReaderEines der preiswertesten Programme auf dem Markt, FineReader Standard, schneidet bei Tests in PC-Zeitschriften am besten ab. Laut Werbung erkennt FineReader auch die fünfte Kopie einer Kopie korrekt. Das stimmt zwar nicht, aber grundsätzlich liegt die Erkennungsgenauigkeit des Programms mindestens genauso hoch wie bei Omnipage Pro. FineReader ist ein Produkt der russischen Firma ABBYY. Es wird in Deutschland durch den Münchener Anbieter MitCom vertrieben. FineReader beherrscht eine Vielzahl von Sprachen, darunter deutsch, englisch, französisch, spanisch und italienisch, aber auch beispielsweise russisch, ungarisch, türkisch slowakisch und polnisch, letztere allerdings ohne automatische Rechtschreibprüfung.FineReader wird in verschiedenen Versionen angeboten. Unter 20 Mark oder kostenlos im Bundle mit manchen neuen Scannern gibt es FineReader Sprint. Die Mini-Version verfügt über das vollständige Scan-Modul, speichert den erkannten Text aber ausschließlich als „nur Text“ ab, das heißt, Formatierungen oder Auszeichnungen (fett, kursiv etc.) gehen verloren. FineReader Standard sollte den meisten Anwendern genügen. Die teure Professional Version erlaubt zusätzlich das Einscannen von Formularen und die Übergabe der Ergebnisse an eine Datenbank. Das noch teurere FineReader Handscript bietet die Möglichkeit, ähnlich wie OPTOPUS, auf Trainingsbasis Handschriften oder fremde Alphabete einzulesen. Im Universitätsrechenzentrum wird die Standardversion FineReader 4.0b in Verbindung mit dem Profi-Scanner Scanjet 4c von Hewlett Packard eingesetzt. Der Scanner-PC in Raum eO-005 steht täglich zwischen 10 und 12 Uhr und von 14 Uhr bis zur Schließung des Rechenzentrums zur Verfügung. Text erkennenZuerst den Scanner einschalten, ansonsten wird er beim Start des Betriebssystems nicht gefunden. Dann den Computer einschalten und im Boot-Manager Windows NT wählen. Wenn NT hochgefahren ist, wie gewohnt mit der Benutzerkennung am Novell-Netz anmelden.Den zu scannenden Text in den Scanner einlegen, FineReader über „Start – Programme – Scanner – ABBYY FineReader – FineReader 4.0 Standard“ oder über das FineReader-Symbol auf dem Desktop starten. Unterhalb der Menüleiste von FineReader erscheinen fünf Symbole für die fünf Arbeitsschritte beim Scannen.
Erstens: Sollen mehrere Seiten gescannt werden, im
Menü „Scan&Read“ – „Mehrere Seiten scannen“
wählen,
ansonsten einfach auf „1 Scannen“
klicken. FineReader ruft den Scannertreiber Deskscan II für den
Scanjet 4c auf und scannt ein Voransichtsbild. Bevor der Text endgültig
gescannt werden kann, müssen vier Einstellungen vorgenommen
werden.
FineReader zeigt nun drei Fenster: links Symbole für die einzelnen erkannten Seiten, rechts daneben die erste erkannte Seite als Bild in einer Gesamtübersicht, unten erscheint die Seite nochmal als Bild allerdings stark vergrößert. Zweitens: Auf „2 Blöcke markieren“ klicken. FineReader legt die Reihenfolge der Erkennung fest. Falls die automatische Reihenfolge falsch ist, entweder alle Blockmarkierungen mit der Tastenkombination Strg-Entf löschen (oder mit der rechten Maustaste ins Fenster klicken und im Kontext-Menü „Alle Blöcke löschen“ wählen) und neue Blöcke in der gewünschten Reihenfolge festlegen. Über das Kontext-Menü können auch vorhandene Blöcke neu nummeriert werden. Soll nur ein einzelner Block nicht erkannt werden, kann man die Markierung durch Anklicken des Blocks und anschließendes Drücken der Entf-Taste löschen. Drittens: Auf „3 Erkennen“ klicken. Vorher darauf achten, dass in der Anzeigeleiste die richtige Sprache eingestellt ist. In der rechten Bildschirmhälfte erscheint ein neues Fenster mit dem erkannten Text. |
|
Auf kopierten Vorlagen befinden sich bisweilen kleine Tonerkleckse,
die unter Umständen als Satzzeichen interpretiert werden. Die
Funktion „Säubern“ im Block-Menü kann die Erkennungsqualität
eventuell verbessern. Achtung: Die Säuberung verschluckt manchmal
auch i- und Umlaut-Punkte sowie Satzzeichen.
Viertens: Auf „4 Prüfung“ klicken. In einem Dialogfenster wird das erste unbekannte Wort des Textes eingeblendet. Meistens erscheinen im Feld darunter Korrekturvorschläge. Im unteren Bildschirmfenster wird das aktuell bearbeitete Wort vergrößert dargestellt. Wurde das Wort richtig erkannt, auf „Bestätigen“ klicken. Andernfalls korrigieren und auf „Ersetzen“ klicken. Häufige Erkennungsfehler sind die Verwechslung von Punkt und Komma, die Interpretation von „rn“ als „m“ oder „l“ als „1“. Bisweilen müssen Bindestriche mitten im Wort gelöscht werden: FineReader hat in solchen Fällen einen Trennstrich falsch interpretiert. Falls man irgendetwas falsches versehentlich als richtig bestätigt hat, kann man rechts in das Fenster mit dem erkannten Text irgendwo vor die entsprechende Stelle klicken und im Dialogfenster „weiter“ wählen. Dann setzt FineReader die Korrektur von der aktuellen Cursorposition aus fort und das falsche Wort erscheint erneut. Fünftens: Zum Schluss auf „5 Speichern“ klicken. Die Option „alle erkannten Seiten speichern“ sollte aktiviert sein. In der Regel genügt eine Übergabe an Microsoft Word oder Corel Word Perfect. Befinden sich im Text Anführungszeichen, können sie in Word 97 leicht in deutsche Anführungszeichen umgewandelt werden: Im Bearbeiten-Menü die Funktion „ersetzen“ wählen und alle Anführungszeichen durch Anführungszeichen ersetzen lassen. Danach erscheinen alle Anführungszeichen korrekt abwechselnd unten und oben. Alternativ zur Übergabe an eine Textverarbeitung stehen unter „Datei senden“ verschiedene Dateiformate zur Verfügung inklusive HTML und PDF. Gut portabel zu anderen Programmen ist RTF. Bei „Textdatei“ gehen alle Formatierungen verloren; außerdem werden unangenehmerweise alle am Zeilenende getrennten Wörter mit dem Trennstrich abgespeichert. Wer eine reine „Textdatei“ benötigt, sollte den Text zunächst an Word 97 übergeben und von dort aus mit „speichern unter“ als „nur Text“ sichern. Beim Schließen von FineReader erfolgt die Rückfrage, ob die gescannten Seiten, Stapel genannt, zur weiteren Bearbeitung gespeichert werden sollen. Wurde der Text vorher korrekt abgespeichert, kann mit „nein“ geantwortet werden. Soll ein neuer Text gescannt werden, nachdem vorher ein Stapel geschlossen wurde, muss über das Datei-Menü erst ein neuer (leerer) Stapel geöffnet werden. |
© Peter Mösgen | 21. März 2001 |