OCR Recognition Engine

Funktion

Die OCR Recognition Engine führt eine optische Zeichenerkennung auf den übergebenen Bilddateien durch und liefert den erkannten Text als Ergebnis. Es kann wahlweise das gesamte Image oder nur ein Ausschnitt übersetzt werden. Die Erkennung eines Teilbereichs ist schneller.

OCR-Engines

Als Auswahl stehen verschiedene OCR Engines zur Verfügung:

  • Tesseract
  • Transym
  • Finereader

Hinweis

Bitte beachten Sie, dass Transym und Finereader eine zusätzliche Lizenzierung benötigen. Die Tesseract Engine ist immer vollumfänglich verwendbar.

Bei der Auswahl der OCR Engine muss abhängig dazu eine entsprechende Sprache angegeben werden um möglichst ideale Ergebnisse zu erzielen. Eine Ausnahme ist hierbei die Transym Engine - diese basiert auf einer anderen Technologie und benötigt daher keine Angabe einer Sprache.

Die Auswahl der Engine beeinflusst die Erkennungsqualität und Erkennungsdauer.

Experten Modus

Im Experten Modus können Engine spezifische Einstellungen vorgenommen werden welche entscheidenenden Einfluss auf die Erkennungsdauer und Qualität haben können. Sollten Sie sich nicht sicher sein, wählen Sie die Standardeinstellungen.

Erweiterte Einstellungen

Image optimizations führt eine Reihe von Bildverbesserungen durch welche sich positiv auf die Erkennungsqualität auswirken können.

Convert to black and white konvertiert farbige Images in schwarz/weiß Bilder um eine bessere Erkennung durchführen zu können.

Konvertierung von PDFs in Bilder und anschließende Übersetzung mit OCR.


Konfigurationsoptionen

OptionBeschreibung

Basics

OCR Engine

Zu verwendende OCR Engine:

  • Tesseract
  • Transym
  • FineReader
  • Nicomsoft
LanguageOCR Sprache bzw. Wörterbuch. Bei Transym ist dies nicht erforderlich, da hier ein anderes Verfahren zum Einsatz kommt.
Expert modeBei aktiver Option können entsprechend erweiterte Einstellungen vorgenommen werden. Siehe Reiter <Name der Engine>.

Tesseract

Reject poort charactersDie OCR Engine wird damit angewiesen unsinnige Zeichen aus der Erkennung zu entfernen.

Transym

Merge breaksUmbrüche zusammenfassen.
Reject lines of rubbish

Textzeilen mit unsinnigem Text entfernen.

Reject poor charactersUnsinnige Zeichen entfernen.
Use lexiconWörterbuch verwenden.
SectioningDie COR wird damit angewiesen die OCR Erkennung Sektionsweise vorzunehmen.
Invert zonesEntsprechende Bildzonen invertieren.

Nicomsoft

Invert ZonesEntsprechende Bildzonen invertieren.
Fast ModeSchnellere Erkennung aber ungenauere Ergebnisse - für SCO geeignet.
Use LexiconWörterbuch verwenden.

Finereader

Fast modeSchnellere Erkennung aber ungenauere Ergebnisse - für SCO geeignet.
Use Build in patternVerwendung interner OCR patterns der Engine.
Hypernation

Interblock: This property set to True prohibits recognition of hyphenation from line to line. It is useful when a text with presumably no hyphenations is recognized, in which case it may speed up the recognition. If there exist any hyphenations in the recognized block, and this property is True, the hyphenated words will be recognized incorrectly.

Prohibit: This property set to True tells ABBYY FineReader Engine to presume that text from one block cannot be carried overto the next block.

Font detectionErkennung des Font-Stils - kann normalerweise deaktiviert werden um die Geschwindigkeit zu verbessern.

Technische Bezeichnung

ccocrrecognition.dll