XTRACT Designstudio

Einleitung

Über das XTRACT Designstudio können auf komfortable Art und Weise, im WYSIWYG Stil, umfangreiche und sehr dynamische Extraktions-Profile definiert werden.

Das GUI

Das Designstudio stellt sich nach dem Start wie folgt dar (hier mit einem geöffneten Testprojekt):

Das GUI Besteht aus folgenden Grundelementen:

  • Menü- und Buttonleiste am oberen Rand
  • Projekt-Definitionen in einer Baumstruktur auf der linken Siete
  • Dokumentanzeige mit Zonen- und Blockhighlighting im Zentrum
  • Thumbnailanzeige auf der rechten Seite
  • Statusleiste am unteren Rand

Die Elemente

Hauptmenü

MenüstrukturBeschreibung
File


SaveSpeichert alle Projektänderungen.
OpenDocument templateÖffnet ein neues Template im Designer.
Upload to processing queueImportiert die ausgewählten Dokumente in die Verarbeitungsqueue mit einem Verweis auf das aktuelle XTRACT Projekt.
CloseBeendet das Designstudio
RecognitionExecuteÖffnet einen Dateiauswahldialog und führt eine Erkennung auf das entsprechende Dokument aus.
ClassificationStart learningStartet den XTRACT CLASSIFY Lernprozess für das aktuelle Projekt.
Import new classes wizardÖffnet den CLASSIFY Klassen-Import Wizard.
ToolsRegEx builderÖffnet den RegEx Builder Dialog.
Options


ServerAuswahl des zu verwendenden XTRACT Servers.
RecognitionDebug messagesÜber diese Option kann festgelegt werden, dass der XTRACT Server bei der Erkennung Debug Messages erzeugt und an das Deisgnstudio zur Analyse zurückgibt.
Runtime processing

Über diese Option kann festgelegt werden, ob der XTRACT Server die Erkennung in Designtime oder Runtime vornimmt. Im Modus Designtime wird das Projekt immer neu geladen und alle Skripte neu compiliert - dies garantiert das alle Änderungen bei der Erkennung gezogen werden.

Die Option ist nach jedem Neustart des Designstudios wieder unchecked.

Compiler caching

Über diese Option kann festgelegt werden, ob die OCR und die Aufbereitung der Daten nur einmalig ausgeführt werden. Beim nächsten Durchlauf werden die Daten aus dem Cache verwendet.

Die bereits aufbereiteten Daten befinden sich unter folgendem Ordner:

 <clarc>\data\xtract\ 
ProjectBackup changesErstellt ein Backup des Projekts. Siehe Verzeichnisstruktur.
Load templates automaticallyWenn aktiv, wird beim Start einer Erkennung das ausgewählte Dokument auch als Template geladen.
View





Zones

VisibleAktiviert die Zonenanzeige.
BlocksAktiviert die Blockanzeige.
Block groupsAktiviert die Blockgruppenanzeige.
ToolbarsNavigationZeigt die Navigationsbuttons in der Toolbar an.
ZoomingZeigt die Zoom Buttons in der Toolbar an.
AdditionalObject hintsAktiviert die Anzeige eines Mouse-Over Dialogs beim Überfahren von Objekten auf dem Dokument. Im Dialog werden entsprechende Informationen zum Objekt angezeigt.
Page numbersAktiviert die Seitennummerierung in der Thumbnail Anzeige.
Help

HelpÖffnet das Hilfe PDF im Designstudio.
OnlineÖffnet die Online-Hilfe.
AboutZeigt Informationen über das Designstudio an.

Buttonleiste

ButtonBeschreibung

Änderungen am Projekt speichern. Der Button wird aktiv sobald Änderungen vorgenommen wurden.

Dokument auf optimale Ansicht einstellen. Ansicht der gesamten Seite.

Dokument wird auf die verfügbare breite gezoomt.

Ansicht vergrößern.

Ansicht verkleinern.

Fokussiert die ROI - den rot markierten Bereich auf der Siete.

Öffnet das hinterlegte Script im CLARC DEVELOPMENT STUDIO.

Öffnet den Datei öffnen Dialog zur Auswahl eines Templates.

Öffnet den Datei öffnen Dialog zur Auswahl eines Dokuments für die Erkennung. Über das Drop-Down Feld stehen alle zuletzt geöffnet Dateien zur Auswahl. Nicht mehr verfügbare Dateien sind entsprechend ausgegraut.

Der Button "Play" ermöglicht eine direkte Ausführung des aktuell geöffneten Templates für die Erkennung.

Projektbaum

Im Projektbaum ist das Wurzelelement der Name des XTRACT Projekts. Auf der untersten Ebene befinden sich die Projektdefinitionen. Unterhalb der Projekte gibt es jeweils vier Elemente: Optionen mit Infos zum Projekt, Identifier-Definitionen, Extraction-Definitionen und Splitter-Definitionen. Details dazu finden Sie im Abschnitt XTRACT Formulardefinitionen.

Über einen Doppelklick auf eine Felddefinition wird der Eigenschaften-Editor des Elements geöffnet.

Über das Kontextmenü oder den Buttons am oberen Rand des Baums können Elemente neu erstellt, gelöscht oder bearbeitet werden.

Inhaltsbereich

Im Inhaltsbereich wird das geladene Dokument-Template sowie je nach Einstellung die Textentsprechung angezeigt. Zudem gibt es noch Raum für entsprechende Projektnotizen. Ebenfalls wird integrierte Skript-Editor und die PDF Hilfe dort angezeigt.

In der Dokumentansicht gibt es, je nach Einstellung, die Möglichkeit sich Objekt-Hints beim Überfahren mit der Maus anzeigen zu lassen. Diese Hints zeigen wichtige Informationen zu den jeweiligen Objekten.

Über das dortige Kontextmenü gibt es verschiedene Funktionen zum Umgang mit den Inhalten und Zonen, sowie dem Zooming. Eine der wichtigsten Tools an dieser Stelle idt die direkte Übernahme von Schlüsselwörtern in die aktuelle Felddefinition (Menüeintrag Add to keywords).

Ein Doppelklick auf das Image zoomt an diese Stelle.

Thumbnails

In den Thumbnails werden alle Seiten des geladenen Templates angezeigt. Die Skalierung des Bereichs bzw. der einzelnen thumbnails kann über den Splitter links davon via Maus eingestellt werden.

Ein Klick auf ein Thumbnail öffnet die jeweilige Seite im Inhaltsbereich und zeigt entsprechende Zonen und Blöcke etc. an. 

Statusleiste

Auf der Statusleiste werden einige hilfreiche Zusatzinformationen angezeigt. 

Diese sind von links nach rechts:

  • Aktuell geöffnetes Projekt
  • Aktuelle XTRACT Serververbindung
  • Seite x von y
  • Erkannte Sprache der Seite (siehe N-Gram Sprachdefinitionen)
  • Position des Maus-Cursors auf dem Dokument in Twips