XTRACT Designstudio
- Former user (Deleted)
- Merve Yurdakul
Einleitung
Über das XTRACT Designstudio können auf komfortable Art und Weise, im WYSIWYG Stil, umfangreiche und sehr dynamische Extraktions-Profile definiert werden.
Das GUI
Das Designstudio stellt sich nach dem Start wie folgt dar (hier mit einem geöffneten Testprojekt):
Das GUI Besteht aus folgenden Grundelementen:
- Menü- und Buttonleiste am oberen Rand
- Projekt-Definitionen in einer Baumstruktur auf der linken Siete
- Dokumentanzeige mit Zonen- und Blockhighlighting im Zentrum
- Thumbnailanzeige auf der rechten Seite
- Statusleiste am unteren Rand
Die Elemente
Hauptmenü
Menüstruktur | Beschreibung | ||
---|---|---|---|
File | Save | Speichert alle Projektänderungen. | |
Open | Document template | Öffnet ein neues Template im Designer. | |
Upload to processing queue | Importiert die ausgewählten Dokumente in die Verarbeitungsqueue mit einem Verweis auf das aktuelle XTRACT Projekt. | ||
Close | Beendet das Designstudio | ||
Recognition | Execute | Öffnet einen Dateiauswahldialog und führt eine Erkennung auf das entsprechende Dokument aus. | |
Classification | Start learning | Startet den XTRACT CLASSIFY Lernprozess für das aktuelle Projekt. | |
Import new classes wizard | Öffnet den CLASSIFY Klassen-Import Wizard. | ||
Tools | RegEx builder | Öffnet den RegEx Builder Dialog. | |
Options | Server | Auswahl des zu verwendenden XTRACT Servers. | |
Recognition | Debug messages | Über diese Option kann festgelegt werden, dass der XTRACT Server bei der Erkennung Debug Messages erzeugt und an das Deisgnstudio zur Analyse zurückgibt. | |
Runtime processing | Über diese Option kann festgelegt werden, ob der XTRACT Server die Erkennung in Designtime oder Runtime vornimmt. Im Modus Designtime wird das Projekt immer neu geladen und alle Skripte neu compiliert - dies garantiert das alle Änderungen bei der Erkennung gezogen werden. Die Option ist nach jedem Neustart des Designstudios wieder unchecked. | ||
Compiler caching | Über diese Option kann festgelegt werden, ob die OCR und die Aufbereitung der Daten nur einmalig ausgeführt werden. Beim nächsten Durchlauf werden die Daten aus dem Cache verwendet. Die bereits aufbereiteten Daten befinden sich unter folgendem Ordner: <clarc>\data\xtract\ | ||
Project | Backup changes | Erstellt ein Backup des Projekts. Siehe Verzeichnisstruktur. | |
Load templates automatically | Wenn aktiv, wird beim Start einer Erkennung das ausgewählte Dokument auch als Template geladen. | ||
View | Zones | Visible | Aktiviert die Zonenanzeige. |
Blocks | Aktiviert die Blockanzeige. | ||
Block groups | Aktiviert die Blockgruppenanzeige. | ||
Toolbars | Navigation | Zeigt die Navigationsbuttons in der Toolbar an. | |
Zooming | Zeigt die Zoom Buttons in der Toolbar an. | ||
Additional | Object hints | Aktiviert die Anzeige eines Mouse-Over Dialogs beim Überfahren von Objekten auf dem Dokument. Im Dialog werden entsprechende Informationen zum Objekt angezeigt. | |
Page numbers | Aktiviert die Seitennummerierung in der Thumbnail Anzeige. | ||
Help | Help | Öffnet das Hilfe PDF im Designstudio. | |
Online | Öffnet die Online-Hilfe. | ||
About | Zeigt Informationen über das Designstudio an. |
Buttonleiste
Button | Beschreibung |
---|---|
Änderungen am Projekt speichern. Der Button wird aktiv sobald Änderungen vorgenommen wurden. | |
Dokument auf optimale Ansicht einstellen. Ansicht der gesamten Seite. | |
Dokument wird auf die verfügbare breite gezoomt. | |
Ansicht vergrößern. | |
Ansicht verkleinern. | |
Fokussiert die ROI - den rot markierten Bereich auf der Siete. | |
Öffnet das hinterlegte Script im CLARC DEVELOPMENT STUDIO. | |
Öffnet den Datei öffnen Dialog zur Auswahl eines Templates. | |
Öffnet den Datei öffnen Dialog zur Auswahl eines Dokuments für die Erkennung. Über das Drop-Down Feld stehen alle zuletzt geöffnet Dateien zur Auswahl. Nicht mehr verfügbare Dateien sind entsprechend ausgegraut. | |
Der Button "Play" ermöglicht eine direkte Ausführung des aktuell geöffneten Templates für die Erkennung. |
Projektbaum
Im Projektbaum ist das Wurzelelement der Name des XTRACT Projekts. Auf der untersten Ebene befinden sich die Projektdefinitionen. Unterhalb der Projekte gibt es jeweils vier Elemente: Optionen mit Infos zum Projekt, Identifier-Definitionen, Extraction-Definitionen und Splitter-Definitionen. Details dazu finden Sie im Abschnitt XTRACT Formulardefinitionen.
Über einen Doppelklick auf eine Felddefinition wird der Eigenschaften-Editor des Elements geöffnet.
Über das Kontextmenü oder den Buttons am oberen Rand des Baums können Elemente neu erstellt, gelöscht oder bearbeitet werden.
Inhaltsbereich
Im Inhaltsbereich wird das geladene Dokument-Template sowie je nach Einstellung die Textentsprechung angezeigt. Zudem gibt es noch Raum für entsprechende Projektnotizen. Ebenfalls wird integrierte Skript-Editor und die PDF Hilfe dort angezeigt.
In der Dokumentansicht gibt es, je nach Einstellung, die Möglichkeit sich Objekt-Hints beim Überfahren mit der Maus anzeigen zu lassen. Diese Hints zeigen wichtige Informationen zu den jeweiligen Objekten.
Über das dortige Kontextmenü gibt es verschiedene Funktionen zum Umgang mit den Inhalten und Zonen, sowie dem Zooming. Eine der wichtigsten Tools an dieser Stelle idt die direkte Übernahme von Schlüsselwörtern in die aktuelle Felddefinition (Menüeintrag Add to keywords).
Ein Doppelklick auf das Image zoomt an diese Stelle.
Thumbnails
In den Thumbnails werden alle Seiten des geladenen Templates angezeigt. Die Skalierung des Bereichs bzw. der einzelnen thumbnails kann über den Splitter links davon via Maus eingestellt werden.
Ein Klick auf ein Thumbnail öffnet die jeweilige Seite im Inhaltsbereich und zeigt entsprechende Zonen und Blöcke etc. an.
Statusleiste
Auf der Statusleiste werden einige hilfreiche Zusatzinformationen angezeigt.
Diese sind von links nach rechts:
- Aktuell geöffnetes Projekt
- Aktuelle XTRACT Serververbindung
- Seite x von y
- Erkannte Sprache der Seite (siehe N-Gram Sprachdefinitionen)
- Position des Maus-Cursors auf dem Dokument in Twips