XTRACT Projektkonfiguration
- Former user (Deleted)
- Dennis Balzuweit
Übersicht
In diesem Abschnitt wird beschrieben, wie ein XTRACT Projekt auf C4 Seite eingerichtet wird. Die weitere Einrichtung und Definition von Abgriffen etc. erfolgt über das CLARC XTRACT Designstudio.
Einrichtung
Die Einrichtung und Verwaltung erfolgt unter folgendem C4 Knoten über das entsprechend hinterlegte C4 Plugin:
/clarc/Software/clarc Xtract/Projects
Hinweis
Bitte beachten Sie, dass die zur Verfügung stehenden Parameter von der Art der Lizenzierung abhängig sind.
Parameter | Beschreibung |
---|---|
Basics | |
Project name | Name des Extraktionsprojekts. |
Project is active | Ein Projekt kann hierüber aktiviert oder deaktiviert werden. |
Read only | Mit dieser Option kann der schreibgeschützte Modus für das Projekt aktiviert werden. Damit sind keine Änderungen mehr am Projekt im Designer möglich. |
Header field scheme | Auswahl eines zu verwendenden Kopf-Feldschemas. Siehe Feldschemas. |
Table field scheme | Auswahl eines zu verwendenden Positions-Feldschemas. |
Resources | Auswahl einer globalen Ressourcen-Definition. Die hier definierten Ressourcen können als Datenquelle für Schlüssel- oder Stopwörter verwendet werden. Ab der Version 5.0.4 können alle im Projekt verwendeten Skripte ebenfalls auf diese Ressourcen zugreifen. Siehe Ressourcen. |
DescriptionBeschreibungstext zum Extraktionsprojekt. | |
Extraction | |
Output | |
Field output | Über diese Eigenschaft wird geregelt, welche Metadaten an den anschließenden Verarbeitungsprozess weitergegeben werden. Es stehen folgende Möglichkeiten zur Auswahl:
|
PDF engine | Auswahl der zu verwendenden Engine zur Inhalts-Extraktion aus PDF Dateien. Standardmäßig wird die Engine Orpalis eingesetzt. |
PDF Processing | Bei aktiver Option werden PDF Dateien bearbeitet. |
Process PDF's as images (OCR) | Bei aktiver Option werden die PDF Dateien in Bilddaten umgewandelt und darauf eine OCR ausgeführt. Beispielsweise für die Verwendung auf PDF's von Multifunktionsgeräten. |
Automatically detect and convert image PDF's | Bei aktiver Option ermittelt das System automatisch ob es sich um Image-basiert PDF Dokumente handelt und führt entweder eine OCR oder eine direkte Datenextraktion durch. |
Hybrid Recognition | PDF Hybrid-Compiler für gemischte Inhalte (Text und Bild). Text und Bilddaten werden getrennt behandelt für die Datenextraktion Information Diese Funktion erfordert die CLARC SOLUTION BUILDER Addon Lizenz. |
Render quality | Wird für die Umwandlung der PDF Dokumente in Bilddaten benötigt und gibt die Umsetzungsqualität bzw. Genauigkeit wieder. Der Standardwert ist 300 dpi. |
OCR | |
Engine | Auswahl der OCR-Engine.
|
Active | Aktiviert die Verwendung der Engine. Hinweis Für die Auswahl und Verwendung mehrerer Engines (OCR-Voting) für die Erkennung ist die Addon Lizenz CLARC SOLUTION BUILDER erforderlich. |
Priority | Prioritäten Auswahl für zu verwenden Engines. Es besteht die Möglichkeit, dass mehrere Engines für die Erkennung parallel laufen können. Hierbei kann man die Reihenfolge festlegen. Die zu empfehlende Reihenfolge ist folgendermaßen:
|
Language | Auswahl der zu verwendenden Dictionaries/Sprachen für die Erkennung. |
Barcode | |
Barcode recognition | Aktiviert die Barcode-Erkennung. Hinweis Um die Barcodeerkennung auf PDF Dokumenten ausführen zu können, muss die option Process PDF's as images aktiviert werden. |
Advanced options | Gibt an, ob die erweiterten Barcode Optionen verwendet werden sollen. Falls nicht, werden best practice Einstellungen verwendet. Die in den erweiterten Optionen möglichen Einstellungen entsprechen denen der Barcode Recognition Engine. Siehe Barcode Recognition Engine. |
Advanced | |
Advanced object compiling | Die von der OCR oder PDF Engine gelieferten Textobjekte werden einer erweiterten Verarbeitung unterzogen. Dabei wird versucht sinnvolle Inhalte zusammenzufassen oder ggf. auch zu trennen. Die erweiterte Objektkompilierung kann die Verarbeitungsqualität deutlich verbessern. |
Validate recognition results against field properties | Bei einem Feld, welches einem Feldschema-Feld zugeordnet werden kann, sollen die im Schema definierten Restriktionen wie maximale Länge oder Typeinschränkung geprüft werden. Die Prüfung kann dazu führen, dass das Dokument zur Validierung übergeben wird. |
Optimize images | Diese Option führt verschiedene Bildoptimierungen durch. Diese sind:
|
Automatic page rotation | Falsch gedrehte Dokumente werden automatisch korrekt ausgerichtet. |
Compile document text layout | Der Inhalt des Dokuments wird in eine Textentsprechung umgesetzt und zur Verfügung gestellt. Auf den Inhalt kann im Skripting und Designstudio zugegriffen werden. |
Remove stop word objects | Entfernt Stoppwort-Objekte aus den Textobjekten. Stoppwörter werden im C4 unter folgendem Schlüssel definiert: /clarc/Software/Basics/Data/StopWords |
Line recognition | Jedem Textobjekt wird eine Textzeile zugewiesen. Auf diese Information kann via Skripting zugegriffen werden. Im Designstudio wird diese ebenfalls angezeigt. |
Block recognition | Textobjekte werden zu virtuellen Blöcken - also zusammengehörigen Elementen, wie beispielsweise der Anschriftenblock - zusammengefasst. Blöcke wiederum werden zu Blockgruppen zusammengefasst. Im Designstudio werden die Blöcke entsprechend angezeigt. |
Generate block text | Zu jedem Textblock wird der Inhalt als Blocktext generiert. |
Spaced type recognition | Die Sperrschrifterkennung führt entsprechende Textelemente zu einem Textelemt zusammen. Die Definition der Sperrschrifttexte erfolgt im C4 unter folgendem Schlüssel: /clarc/Software/Basics/Data/SpacedTypeWords |
Virtual splitting | Das Dokument wird dadurch nicht tatsächlich in Einzeldokumente aufgeteilt, sondern es werden die Indexdaten der erkannten Dokumente mit einem Trennzeichen versehen und in das eigentliche Feld übergeben. |
Virtual split separator | Trennzeichen(kette) für das virtuelle Trennen von Dokumenten. |
Page recognition limit | Begrenzungsoption. Es werden nur maximal n Seiten aus dem Dokument OCR übersetzt oder von der PDF Engine ausgewertet. Die Standardeinstellung ist 0, was keiner Einschränkung entspricht. |
Validation | |
Validation active | Aktiviert das Validierungsszenario. Dokumente, welche nicht "in Ordnung" sind, werden an die nachfolgend definierte Validierungsanwendung in CLARC EWORK übergeben. |
QHIX queue | Die QHIX Queue gibt die fest hinterlegte Validierungsanwendung im EWORK an. |
QHIX user | Definiert einen festen Benutzer dem das Dokument zur Prüfung innerhalb der Anwendung vorgelegt werden soll. |
Validation script scheme | Über das Validierungs-Skriptschema bzw. den entsprechenden Skripten, kann detailliert auf die Inhalte des Dokuments zugegriffen werden und beispielsweise dynamische Regeln zur Prüfung und Verteilung der Dokumente eingerichtet werden. |
Training | |
Training active | Aktiviert die Trainingsfunktion in XTRACT. |
Attachment detection | |
Barcode separator | Optionale Definition eines Trennzeichen-Merkmals. Wird ein Trennzeichen definiert und dieses im Dokument gefunden, werden alle nachfolgenden Seiten nicht für die Datenextraktion herangezogen. Der Trenner findet in der Regel Anwendung für Anlagentrenner. Beispielsweise bei Rechnungen. |
Delete separator page | Definiert, ob die Trennseite bei der Verarbeitung entfernt werden soll. |
External processing | |
External processor | Ist ein externer Prozessor definiert, erfolgt keine interne Inhaltsextraktion. Es kann dann lediglich noch über Validatierungs-Skripte auf die erkannten Inhalte Einfluss genommen werden. Siehe auch Tools. |
External project Id | Projekt-Id, welche dem Prozessor als Paramter übergeben wird. |
Field mapping scheme | Die vom externen Prozessor kommenden und an ihn übergebenen Werte, werden über das Zuordnungsschema umgewandelt. Siehe Zuordnungsschemas. |
Alternative compiler | Alternativer Compiler für die Inhaltsextraktion. Standardcompiler ist der cctextcompiler.exe. |
Post processingSiehe Verarbeitungsoptionen. | |
Use existing queue properties | Bei aktiver Option werden die in der Queue dem Dokument schon zugeordneten Verarbeitungsoptionen beibehalten. |
Task | Über die Option Task gleich XTRACT kann eine direkte Weiterverarbeitung des Dokuments im XTRACT veranlasst werden. |
Weitere Einstellungsmöglichkeiten
Property | Datatype | Beschreibung |
---|---|---|
CalendarWeekDayDelta | INTEGER | Der Standardwert ist 0. Über die Property kann der Tag der Kalenderwoche bestimmt werden. |
PDFAutoRotate | BOOLEAN | Führt die automatische PDF Rotation durch. Die PDF Dokumente werden auf Basis ihrer Textausrichtung rotiert. Der Standardwert ist true. |
TesseractFastMode | BOOLEAN | Ermöglicht eine schnellere Verarbeitung jedoch mit einer schlechteren Genauigkeit. Die Option ist im Standard auf False und kann in den jeweiligen Projekt angelegt werden. |
Aktivierung
Die vorgenommenen Änderungen werden über den C4 Button "Refresh Services" übernommen.