Funktion

Die OCR Recognition Engine führt eine optische Zeichenerkennung auf den übergebenen Bilddateien durch und liefert den erkannten Text als Ergebnis. Es kann wahlweise das gesamte Image oder nur ein Ausschnitt übersetzt werden. Die Erkennung eines Teilbereichs ist schneller.

OCR-Engines

Als Auswahl stehen verschiedene OCR Engines zur Verfügung:

Tesseract
Transym
Finereader

Info

title	Hinweis

Bitte beachten Sie, dass Transym und Finereader eine zusätzliche Lizenzierung benötigen. Die Tesseract Engine ist immer vollumfänglich verwendbar.

Bei der Auswahl der OCR Engine muss abhängig dazu eine entsprechende Sprache angegeben werden um möglichst ideale Ergebnisse zu erzielen. Eine Ausnahme ist hierbei die Transym Engine - diese basiert auf einer anderen Technologie und benötigt daher keine Angabe einer Sprache.

Die Auswahl der Engine beeinflusst die Erkennungsqualität und Erkennugsdauer.

Experten Modus

Im Experten Modus können Engine spezifische Einstellungen vorgenommen werden welche entscheidenenden Einfluss auf die Erkennungsdauer und Qualität haben können. Sollten Sie sich nicht sicher sein, wählen Sie die Standardeinstellungen.

Erweiterte Einstellungen

Image optimizations führt eine Reihe von Bildverbesserungen durch welche sich positiv auf die Erkennungsqualität auswirken können.

Convert to black and white konvertiert farbige Images in schwarz/weiß Bilder um eine bessere Erkennung durchführen zu können.

Process OCR on PDF führt die OCR Erkennung auch auf PDF Dateien aus.

Konfigurationsoptionen

Option

Beschreibung

Basics

OCR Engine

Zu verwendende OCR Engine:

Tesseract
Transym

Finereader

FineReader Nicomsoft
Language	OCR Sprache bzw. Wörterbuch. Bei Transym ist dies nicht erforderlich, da hier ein anderes Verfahren zum Einsatz kommt.
Expert mode	Bei aktiver Option können entsprechend erweiterte Einstellungen vorgenommen werden. Siehe Reiter <Name der Engine>

.

Advanced

Image optimizationFührt eine Bildoptimierung durch.Convert to black and whiteMit dieser Option können Farbbilder vor der OCR Lesung in ein S/W Image umgewandelt werden.Process OCR on PDFBei aktiver Option werden übergebene PDF Dateien mit Bildinhalten OCR übersetzt

.

info

title	Hinweis

In Kombination mit EWORK wird bei einer Single Click OCR (SCO) die Erkennung immer ausgeführt. Hintergrund ist, dass der EWORK Client bereits S/W TIFF-Images an die Engine liefert.

Tesseract

DeskewRemove linesLöscht temporär Linien aus dem Image.Remove noiseEntfernt temporär Bildrauschen aus dem Image.

Geradedrehen der Seite.

Reject poort characters	Die OCR Engine wird damit angewiesen unsinnige Zeichen aus der Erkennung zu entfernen.
Transym

Invert pageDeskewGeradedrehen des Bildes.Remove noiseBildrauschen entfernen.Remove linesLinien aus dem Bild entfernen.DeshadeRasterung entfernen.Invert zonesEntsprechende Bildzonen invertieren.

Bild invertieren.

Merge breaks	Umbrüche zusammenfassen.
Reject lines of rubbish	Textzeilen mit unsinnigem Text entfernen.
Reject poor characters	Unsinnige Zeichen entfernen.
Use lexicon	Wörterbuch verwenden.
Sectioning	Die COR wird damit angewiesen die OCR Erkennung Sektionsweise vorzunehmen.

Auto orientationAutomatische Seitendrehung. Bei allen anderen Rotation Einstellungen wird die Seite immer entsprechend der Einstellung gedreht.

Finereader

Invert pageBild invertieren vor der Erkennung.DeskewGeradedrehen des Bildes.Orientation AutoAutomatische Erkennung der Seitendrehung.

Invert zones	Entsprechende Bildzonen invertieren.
Nicomsoft
Invert Zones	Entsprechende Bildzonen invertieren.
Fast Mode	Schnellere Erkennung aber ungenauere Ergebnisse - für SCO geeignet.
Use Lexicon	Wörterbuch verwenden.
Finereader
Fast mode	Schnellere Erkennung aber ungenauere Ergebnisse - für SCO geeignet.
Use Build in pattern	Verwendung interner OCR patterns der Engine.
Hypernation	Interblock: This property set to True prohibits recognition of hyphenation from line to line. It is useful when a text with presumably no hyphenations is recognized, in which case it may speed up the recognition. If there exist any hyphenations in the recognized block, and this property is True, the hyphenated words will be recognized incorrectly. Prohibit: This property set to True tells ABBYY FineReader Engine to presume that text from one block cannot be carried overto the next block.
Font detection	Erkennung des Font-Stils - kann normalerweise deaktiviert werden um die Geschwindigkeit zu verbessern

.Element detectionNur für spezielle Anwendungsfälle erforderlich. Im Standard kann alles deaktiviert werden

.

Technische Bezeichnung

ccocrrecognition.dll

Inhalt

Untergeordnete Seiten (Anzeige untergeordneter Seiten)

all	true

Versionen im Vergleich

Alte Version 1

Neue Version Aktuell

Schlüssel

Funktion

OCR-Engines

Experten Modus

Erweiterte Einstellungen

Konfigurationsoptionen

Basics

Advanced

Tesseract

Transym

Finereader

Nicomsoft

Finereader

Technische Bezeichnung

Seitenvergleich

Versionen im Vergleich

Alte Version 1

Neue Version Aktuell

Schlüssel

Funktion

OCR-Engines

Experten Modus

Erweiterte Einstellungen

Konfigurationsoptionen

Basics

Advanced

Tesseract

Transym

Finereader

Nicomsoft

Finereader

Technische Bezeichnung