XTRACT Projektkonfiguration

Übersicht

In diesem Abschnitt wird beschrieben, wie ein XTRACT Projekt auf C4 Seite eingerichtet wird. Die weitere Einrichtung und Definition von Abgriffen etc. erfolgt über das CLARC XTRACT Designstudio.

Einrichtung

Die Einrichtung und Verwaltung erfolgt unter folgendem C4 Knoten über das entsprechend hinterlegte C4 Plugin:

/clarc/Software/clarc Xtract/Projects

Hinweis

Bitte beachten Sie, dass die zur Verfügung stehenden Parameter von der Art der Lizenzierung abhängig sind.

ParameterBeschreibung

Basics

Project nameName des Extraktionsprojekts.
Project is activeEin Projekt kann hierüber aktiviert oder deaktiviert werden.
Read onlyMit dieser Option kann der schreibgeschützte Modus für das Projekt aktiviert werden. Damit sind keine Änderungen mehr am Projekt im Designer möglich.
Header field schemeAuswahl eines zu verwendenden Kopf-Feldschemas. Siehe Feldschemas.
Table field schemeAuswahl eines zu verwendenden Positions-Feldschemas.
ResourcesAuswahl einer globalen Ressourcen-Definition. Die hier definierten Ressourcen können als Datenquelle für Schlüssel- oder Stopwörter verwendet werden. Ab der Version 5.0.4 können alle im Projekt verwendeten Skripte ebenfalls auf diese Ressourcen zugreifen. Siehe Ressourcen.

Description

Beschreibungstext zum Extraktionsprojekt.

Extraction

Output

Field output

Über diese Eigenschaft wird geregelt, welche Metadaten an den anschließenden Verarbeitungsprozess weitergegeben werden. Es stehen folgende Möglichkeiten zur Auswahl:

  • All (alle internen Felder werden 1:1 an den Nachfolgeprozess weitergegeben)
  • External (alle internen Felder zu denen ein externes Feld über das Feldschema existiert, werden unter dem im Feldschema definierten externen Bezeichner an den Nachfolgeprozess weitergegeben)
  • Mixed (Kombiniert die Optionen All und External wobei die External Definition Vorrang hat)

PDF

PDF engine

Auswahl der zu verwendenden Engine zur Inhalts-Extraktion aus PDF Dateien. Standardmäßig wird die Engine Orpalis eingesetzt.

PDF ProcessingBei aktiver Option werden PDF Dateien bearbeitet.
Process PDF's as images (OCR)Bei aktiver Option werden die PDF Dateien in Bilddaten umgewandelt und darauf eine OCR ausgeführt. Beispielsweise für die Verwendung auf PDF's von Multifunktionsgeräten.
Automatically detect and convert image PDF'sBei aktiver Option ermittelt das System automatisch ob es sich um Image-basiert PDF Dokumente handelt und führt entweder eine OCR oder eine direkte Datenextraktion durch.
Hybrid Recognition

PDF Hybrid-Compiler für gemischte Inhalte (Text und Bild). Text und Bilddaten werden getrennt behandelt für die Datenextraktion

Information

Diese Funktion erfordert die CLARC SOLUTION BUILDER Addon Lizenz.

Render qualityWird für die Umwandlung der PDF Dokumente in Bilddaten benötigt und gibt die Umsetzungsqualität bzw. Genauigkeit wieder. Der Standardwert ist 300 dpi.

OCR

Engine

Auswahl der OCR-Engine.

  • FineReader
  • Nicomsoft
  • Tesseract
  • Transym
Active

Aktiviert die Verwendung der Engine.

Hinweis

Für die Auswahl und Verwendung mehrerer Engines (OCR-Voting) für die Erkennung ist die Addon Lizenz CLARC SOLUTION BUILDER erforderlich.

Priority

Prioritäten Auswahl für zu verwenden Engines. Es besteht die Möglichkeit, dass mehrere Engines für die Erkennung parallel laufen können. Hierbei kann man die Reihenfolge festlegen. Die zu empfehlende Reihenfolge ist folgendermaßen:

  1. Transym
  2. Nicomsoft
  3. Tesseract
LanguageAuswahl der zu verwendenden Dictionaries/Sprachen für die Erkennung.

Barcode

Barcode recognition

Aktiviert die Barcode-Erkennung.

Hinweis

Um die Barcodeerkennung auf PDF Dokumenten ausführen zu können, muss die option Process PDF's as images aktiviert werden.

Advanced options

Gibt an, ob die erweiterten Barcode Optionen verwendet werden sollen. Falls nicht, werden best practice Einstellungen verwendet.

Die in den erweiterten Optionen möglichen Einstellungen entsprechen denen der Barcode Recognition Engine. Siehe Barcode Recognition Engine.

Advanced

Advanced object compilingDie von der OCR oder PDF Engine gelieferten Textobjekte werden einer erweiterten Verarbeitung unterzogen. Dabei wird versucht sinnvolle Inhalte zusammenzufassen oder ggf. auch zu trennen. Die erweiterte Objektkompilierung kann die Verarbeitungsqualität deutlich verbessern.
Validate recognition results against field properties

Bei einem Feld, welches einem Feldschema-Feld zugeordnet werden kann, sollen die im Schema definierten Restriktionen wie maximale Länge oder Typeinschränkung geprüft werden.

Die Prüfung kann dazu führen, dass das Dokument zur Validierung übergeben wird.

Optimize images

Diese Option führt verschiedene Bildoptimierungen durch. Diese sind:

  • Kantenverbesserung
  • Geraderücken
  • Locher-Punkte entfernen
  • Schwarze Ränder entfernen
  • Negative Bilder umkehren
Automatic page rotationFalsch gedrehte Dokumente werden automatisch korrekt ausgerichtet.
Compile document text layoutDer Inhalt des Dokuments wird in eine Textentsprechung umgesetzt und zur Verfügung gestellt. Auf den Inhalt kann im Skripting und Designstudio zugegriffen werden.
Remove stop word objects

Entfernt Stoppwort-Objekte aus den Textobjekten. Stoppwörter werden im C4 unter folgendem Schlüssel definiert:

/clarc/Software/Basics/Data/StopWords
Line recognitionJedem Textobjekt wird eine Textzeile zugewiesen. Auf diese Information kann via Skripting zugegriffen werden. Im Designstudio wird diese ebenfalls angezeigt.
Block recognitionTextobjekte werden zu virtuellen Blöcken - also zusammengehörigen Elementen, wie beispielsweise der Anschriftenblock - zusammengefasst. Blöcke wiederum werden zu Blockgruppen zusammengefasst. Im Designstudio werden die Blöcke entsprechend angezeigt.
Generate block textZu jedem Textblock wird der Inhalt als Blocktext generiert.
Spaced type recognition

Die Sperrschrifterkennung führt entsprechende Textelemente zu einem Textelemt zusammen. Die Definition der Sperrschrifttexte erfolgt im C4 unter folgendem Schlüssel:

/clarc/Software/Basics/Data/SpacedTypeWords
Virtual splittingDas Dokument wird dadurch nicht tatsächlich in Einzeldokumente aufgeteilt, sondern es werden die Indexdaten der erkannten Dokumente mit einem Trennzeichen versehen und in das eigentliche Feld übergeben.
Virtual split separatorTrennzeichen(kette) für das virtuelle Trennen von Dokumenten.
Page recognition limitBegrenzungsoption. Es werden nur maximal n Seiten aus dem Dokument OCR übersetzt oder von der PDF Engine ausgewertet. Die Standardeinstellung ist 0, was keiner Einschränkung entspricht.

Validation

Validation activeAktiviert das Validierungsszenario. Dokumente, welche nicht "in Ordnung" sind, werden an die nachfolgend definierte Validierungsanwendung in CLARC EWORK übergeben.
QHIX queueDie QHIX Queue gibt die fest hinterlegte Validierungsanwendung im EWORK an.
QHIX userDefiniert einen festen Benutzer dem das Dokument zur Prüfung innerhalb der Anwendung vorgelegt werden soll.
Validation script schemeÜber das Validierungs-Skriptschema bzw. den entsprechenden Skripten, kann detailliert auf die Inhalte des Dokuments zugegriffen werden und beispielsweise dynamische Regeln zur Prüfung und Verteilung der Dokumente eingerichtet werden.

Training

Training activeAktiviert die Trainingsfunktion in XTRACT.

Attachment detection

Barcode separator

Optionale Definition eines Trennzeichen-Merkmals. Wird ein Trennzeichen definiert und dieses im Dokument gefunden, werden alle nachfolgenden Seiten nicht für die Datenextraktion herangezogen.

Der Trenner findet in der Regel Anwendung für Anlagentrenner. Beispielsweise bei Rechnungen.

Delete separator pageDefiniert, ob die Trennseite bei der Verarbeitung entfernt werden soll.

External processing

External processorIst ein externer Prozessor definiert, erfolgt keine interne Inhaltsextraktion. Es kann dann lediglich noch über Validatierungs-Skripte auf die erkannten Inhalte Einfluss genommen werden. Siehe auch Tools.
External project IdProjekt-Id, welche dem Prozessor als Paramter übergeben wird.
Field mapping schemeDie vom externen Prozessor kommenden und an ihn übergebenen Werte, werden über das Zuordnungsschema umgewandelt. Siehe Zuordnungsschemas.
Alternative compilerAlternativer Compiler für die Inhaltsextraktion. Standardcompiler ist der cctextcompiler.exe.

Post processing

Siehe Verarbeitungsoptionen.

Use existing queue propertiesBei aktiver Option werden die in der Queue dem Dokument schon zugeordneten Verarbeitungsoptionen beibehalten.
TaskÜber die Option Task gleich XTRACT kann eine direkte Weiterverarbeitung des Dokuments im XTRACT veranlasst werden.

Weitere Einstellungsmöglichkeiten

PropertyDatatypeBeschreibung
PDFAutoRotateBOOLEANFührt die automatische PDF Rotation durch. Die PDF Dokumente werden auf Basis ihrer Textausrichtung rotiert. Der Standardwert ist true.
TesseractFastModeBOOLEANErmöglicht eine schnellere Verarbeitung jedoch mit einer schlechteren Genauigkeit. Die Option ist im Standard auf False und kann in den jeweiligen Projekt angelegt werden.

Aktivierung

Die vorgenommenen Änderungen werden über den C4 Button "Refresh Services" übernommen.