/
CLASSIFY Anlern- und Klassifikationsphase

CLASSIFY Anlern- und Klassifikationsphase

Ablauf der Anlernphase

Schematische Darstellung der Anlern- und Produktionsphase.

Organisatorischer Ablauf

Um das System verwenden zu können, müssen zunächst alle Dokumentenklassen von CLARC CLASSIFY analysiert werden.

Organisatorisch wird die Anlernphase wie folgt beschrieben:

  • Der Anwender übergibt dem System mehrere Kombinationen aus Dokumentenstapeln und den dazugehörigen Kategorien.
  • Das System arbeitet Dokument für Dokument und Stapel für Stapel einzeln ab und ermittelt aus dem Inhalt, den darin verwendeten Objektklassen und der Dokumentenstruktur statistische Informationen.
  • Die ermittelten Daten werden den Kategorien zugewiesen und dienen nachfolgend als Datenrepository zur eindeutigen Zuordnung von unklassifizierten Dokumenten.
  • Als Speicherort dient ein relationales Datenbankmanagementsystem.
  • Die Anlernphase geschieht i.d.R nur einmal. Ein hinzulernen ist jedoch jederzeit möglich.

Technisch gesehen ereignet sich Systemintern folgendes (Bayes und Nearest-Neighbor):

  • Identifizieren jedes Wortes in einer Menge von Dokumenten.
  • Entfernen aller Stoppwörter, die keine Bedeutung für die Unterscheidung der Dokumente besitzen.
  • Bilden des Wortstamms für jeden Indexterm (Stemming).
  • Bilden von Mehrworttermen aus den Wortstämmen.
  • Zusammenfassen aller Terme von Dokumenten einer Klasse zu einem Klassenvektor oder das Erfassen der einzelnen Dokumente mit allen erfassten Termen.
  • Errechnen der Gewichte für jeden Term in allen Klassen bzw. in allen Dokumenten.
  • Repräsentieren jeder Klasse durch die Menge ihrer Terme und der zugehörigen Gewichte bzw. der Klassifizierten Dokumente je Klasse.

Voraussetzung für die Durchführung

Folgendes ist für die Anlernphase zu beachten: Für die Klassifizierung legen Sie die Dokumentenklassen fest, die das System verwalten soll. Dabei wird definiert, welche Dokumententypen automatisch klassifiziert werden sollen.

Hinweis

Bitte beachten Sie für die Zusammenstellung der repräsentativen Belege folgende Hinweise:

  • Pro Kategorie sollten mindestens 100 Belege, in S/W, 300DPI, am besten einseitig, ohne Leerseiten bereitstehen. Dabei ist zu beachten, dass ausschließlich die erste und die letzte Seite für die Ermittlung des Repositorys verwendet werden.

  • Unleserliche Dokumente sollten entfernt werden.
  • Exoten sind auszusortieren.
  • Keine Mischformen die mehreren Kategorien zu geordnet werden.
  • Keine handschriftlich erfasste Dokumente hinzufügen.

Vor dem Trainingslauf werden die Dokumente auf die gewünschten Eigenschaften geprüft. Der Anlernprozess wird erst ausgeführt, wenn die Dokumente den Anforderungen entsprechen, da Fehler im Training zu einem schlechten Klassifikationsergebnis führen können.

Konfiguration

Legen Sie ein neues XTRACT-Projekt an.

Beschreiben Sie das XTRACT-Projekt wie gewohnt.


Hinweis

Aktivieren Sie bitte das Attribute Classify Active nicht. Active darf erst nach dem Anlernprozess eingeschaltet werden, da es ansonsten zu Fehlern führen kann und der Anlernprozess den Start verweigert.

Erstellen Sie im Filesystem einen Ordner (z.B. mit der Bezeichnung Klassifikation) und unterteilen Sie ihn mit jeweils einem Unterordner, der den Namen der jeweiligen Dokumentenklasse trägt.

Befüllen Sie jeden Ordner mit dem geprüften Beleggut, in dem Sie die Dokumente in den zugehörigen Ordner kopieren. Gemeint ist damit, dass Sie Rechnungen im Ordner „Rechnungen“ hinterlegen, Auftragsbestätigungen unterhalb des Ordners „Auftragsbestätigungen“ speichern usw.

  • Öffnen Sie den XTRACT-Designer 
  • Öffnen Sie im Menü unter dem Menüpunkt Classication (nur sichtbar wenn die Lizenz eingespielt ist) den Menüpunkt „Import new classes wizard“.
  • Öffnen Sie über das Vergrößerungsglas Icon die Dateiauswahlbox und navigieren Sie zu dem Ordner Klassifikation den Sie zuvor angelegt haben. Danach sollte innerhalb des Dialogs folgendes angezeigt werden.

Überprüfen Sie, ob die Anzahl der Files identisch ist. Der Klassennamen wird automatisch aus dem Ordnernamen übernommen. Aktivieren Sie „Create field definitions“ um die Felder entsprechend des zugewiesenen Feldschemas allen Formularen zuzuweisen. Im nächsten Schritt wird automatisch pro Ordner ein Formular mit dem Namen des Klassenidentifiers angelegt.

Jetzt definieren Sie im gewünschten Feld den Dokumententyp der zugewiesen werden soll, sofern das Projekt automatisch das richtige Formular findet. Dafür setzen Sie den Wert von Value auf den Kategorienamen und wechseln den Extraction type auf None. Legen Sie bei allen classFinder Identifier denselben Klassifikationstyp fest. Sofern Sie keine Änderungen vornehmen wird der Standard also das „Bayes“-Klassifikationssystem verwendet. 

Vergessen Sie bitte nicht die Änderungen zu speichern.

Sie haben jetzt die Kategorien angelegt und die Dateien die Sie anlernen wollen auch an XTRACT übertragen. Der eigentliche Anlernprozess wurde aber noch nicht durchgeführt. Um ihn zu starten, wählen Sie im Menü unter Classification den Menüpunkt „Start learning“ und der Anlernprozess beginnt.

Zusätzlich aktivieren Sie jetzt unter Classify das Attribut Active, dass die Klassifikationskomponente innerhalb des Projektes verwenden soll. Sollte die Karteikarte nicht vorhanden sein, dann prüfen Sie bitte, ob die benötigte Lizenz für das Modul eingespielt worden ist.



Innerhalb der Maske kann noch zusätzlich definiert werden, wo sich die Bereiche Header, Body und Footer befinden sollen. Dabei kann einfach über die Zuweisung von Prozentwerten die Verteilung geändert werden. Unterhalb der Prozentwerte befinden sich Auswahlmöglichkeiten über die der Anwender definieren kann, welche Datentypen für die Klassifizierung in den jeweiligen Zonen verwendet werden sollen. Das Projekt ist somit genügend vorbereitet und der Anlernprozess kann durchgeführt werden. Nachdem Anlernen, das je nach Datenmenge durchaus auch eine Stunde dauern kann, starten Sie CLARC ENTERPRISE neu und können im XTRACT Designer einen Test durchführen in dem Sie ein nicht angelerntes Dokument dem System übergeben (Execute Recognition process).

Produktions- bzw Klassifikationsphase

Nach einer erfolgreichen Anlernphase beginnt die Produktionsphase. Verknüpfen Sie unterschiedlichste EWORK-, MAILCAPTURE-, PRINTCAPTURE- Applikationen mit dem XTRACT-Projekt. CLARC CLASSIFY setzt automatisch den Dokumententyp allein dadurch, dass Sie das XTRACT-Projekt als Ziel angeben. Dabei werden:

  • Alle klassifizierten Dokumente übergeben.
  • Die Dokumente automatisch analysiert und mit den statistischen Daten verglichen.
  • Die mathematischen Verfahren durchgeführt. Hierbei werden sowohl die Dokumentenklassen als auch die Wahrscheinlichkeit ermittelt, mit der das Dokument erkannt wurde.
  • Über Regeln die Sie im XTRACT hinterlegen, können Sie entscheiden wie hoch die Wahrscheinlichkeit mindestens sein soll, damit das Dokument z.B. als Rechnung seinen Weg durch den nachfolgenden Prozess nehmen soll.

Mit der Übergabe wird begonnen. Um zu definieren, dass die Klassifikation erfolgen soll, wird wie folgt definiert:

Durch die Verknüpfung der Applikation mit dem Xtract Projekt und der Zuweisung der Tasks XTRACT werden alle Dokumente, die über diesen Kanal in das System gelangen, automatisch an XTRACT zur Klassifikation weitergeleitet. Angenommen die Bearbeitung in XTRACT ist abgeschlossen, dann kann zum Beispiel in WARP, vor dem Export entschieden werden, was in Abhängigkeit vom Dokumententyp mit der Heftung geschehen soll. Infolgedessen können die Dokumente an unterschiedliche Archive übertragen werden oder die Dokumente können in ein eigenes für den Dateityp eingerichteten Dokumentenworkflow z.B. in Documents überführt werden. Darüber hinaus kann die automatische Klassifikation für folgende Zwecke eingesetzt werden:

  • Der Sachbearbeiter erhält ausschließlich Dokumente die ihm zugewiesen sind. Hierdurch fallen unnötige Arbeitsgänge weg und der Arbeitsprozess wird maßgeblich optimiert.
  • Automatische Findung des richtigen Archives (Ablagekanal).
  • Als Entscheidungsgrundlage, welche Informationen aus dem Dokument über XTRACT extrahiert und den Indexfeldern zugewiesen werden sollen
  • Um klassenabhängig vorzugeben, ob das Dokument signiert oder konvertiert werden soll.
  • Den richtigen Arbeitsprozess für das jeweilige Dokument klassenabhängig bestimmen.