CLASSIFY Klassifikationsverfahren

Varianten

Folgende Klassifikationsverfahren werden innerhalb von CLARC CLASSIFY angeboten:

  • Naiver Bayes-Klassifikator
  • k-Nearest-Neighbor-Algorithmus
  • k-Nearest Neighbor Best 3/5
  • k-Nearest Category
  • k-Nearest-Neighbor-Coordinates
  • k-Nearest-Neighbor-Template

Beschreibung

Naiver Bayes-Klassifikator

Der Bayes Klassifikator wird in Anti-Spamsystemen eingesetzt. Hier werden recht hohe Trefferquoten erzielt. Er vergleicht die Daten des zu klassifizierenden Dokuments gegen die aufsummierten Werte der Dokumentenklassen und berechnet die bedingten Wahrscheinlichkeiten für jede mögliche Kategorie. Die Dokumentenklasse der Kategorie mit der höchsten Wahrscheinlichkeit wird dem Dokument zugewiesen.

Vorteile

  • Performante Algorithmen zur Bestimmung der Dokumentenklassen.
  • Einfache Nachvollziehbarkeit der Ergebnisse.
  • Erfordert eine geringe Datenmege beim Anlernen, da die Häufigkeiten aufsummiert und die Werte danach zur Wahrscheinlichkeitsberechnung herangezogen werden.
  • Einfacher mathematische Algorithmus.
  • Der Algorithmus liefert hohe Trefferquoten obwohl er davon ausgeht, dass jeder Deskriptor nur vom Klassenattribut abhängt. Das ist so natürlich nicht ganz korrekt, führt aber trotzdem fast immer zum richtigen Ergebnis

Nearest-Neighbor

Das Nearest Neighborsystem speichert während der Anlernphase alle ermittelten Deskriptoren zu einem Dokument ab und klassifiziert diese. Während der Analyse, wird jedes bisher gespeicherte Dokument bezüglich seiner Deskriptoren mit dem zu analysierenden Dokument verglichen. Das gesuchte Dokument bekommt die Kategorie des Dokumentes, das ihm am ähnlichsten ist.

Vorteile

  • Einfacher mathematischer Algorithmus.
  • Bessere Wichtungsmöglichkeiten als der Bayes-Algorithmus.
  • Einfaches Hinzulernen von Dokumenten ohne die Grundbasis negativ zu beeinflussen.
  • Das wohl am häufigsten eingesetzte Verfahren innerhalb der automatischen Rechnungslesung.

Nachteile

  • Erhöhter Speicherbedarf, weil jedes Dokument bzw. dessen Bestandteile während der Anlernphase gespeichert werden.
  • Erhöhter Verarbeitungsaufwand im Gegensatz zu Bayes, da nur die einzelnen Kategorien mit aufsummierten Werten gegen das Dokument geprüft werden. Jedes gespeicherte Dokument  wird gegen das zu klassifizierende Dokument gegengeprüft.
  • Bei hetrogener Dokumentenmasse müssen zahlreiche Dokumente angelernt werden, um ein gutes Ergebnis zu erzielen.
  • Minimale Erkennungsergebnisse, wenn nur eine geringe Anzahl an Dokumente angelernt werden.

Varianten des Nearest Neighborsystems

NameBeschreibung
Simple

Simple weist die Klasse den überwiegend übereinstimmenden Dokumenten zu. Dabei wird maßgeblich der Inhalt analysiert.

Best 3/5

 

 

Es werden die ähnlichsten drei bzw. fünf Dokumente ermittelt. Das unklassifizierte Dokument erhält die Klasse zugewiesen, die im Ergebnis  am häufigsten vorkommt. Wie im einfachen Algorithmus werden auch hier nur weitgehend die Inhalte zur Analyse herangezogen.

CoordinateDer reine Algorithmus entspricht Simple allerdings wird die Klassifikation ausschließlich über Koordinaten durchgeführt.
Template

Template ist die Kombination aus Simple und Coordinate.

 

Das Klassifikationsverfahren wird pro Formular an einer Identifikation festgelegt. Wie bereits beschrieben, legt der Wizard automatisch pro Klasse zwei Identifier an:

NameBeschreibung
classFinderDer Classfinder ist der Identifier, der für die Grundklassifizierung verwendet wird. Hier ist das Klassifikationsverfahren vor dem Anlernen zu spezifizieren. Standardmäßig steht es auf BayestemplateFinder
TemplateFinder

Der TemplateFinder ist ein alternatives Verfahren um Dokumente, die stetig falsch erkannt werden, explizit anzulernen. Hierbei kommt immer der Template-Algorithmus zum Einsatz.

Ändern Sie diese bitte nicht. Theoretisch können Sie zusätzliche Identifier hinzufügen, um mehrere Klassifikationsverfahren konkurrierend zu verwenden, dies führt  zwangsläufig nicht zu besseren Ergebnissen.

Folgende Eigenschaften können am Identifier verwendet werden:

AttributWert
Zone typeDer Zonentype muss immer auf Classify stehen, damit CLARC CLASSIFY automatisch den Identifier verwendet.
Classify method

Die Methode gibt den Klassifikationstyp an, der verwendet werden soll. Mögliche Werte sind

  • Bayes, NN_Default
  • NN_BestOf3
  • NN_BestOf5
  • NN_Template
  • NN_Coordinate und Template.
Classify accuracy

Der Schwellenwert kann zwischen 0 und 100 gesetzt werden. Dieser Wert sollte mindestens erreicht werden, damit die Klasse zugewiesen wird.

RelevanceDie Relevanz sollte stets 100 sein. Nur wenn die Relevanz 100 beträgt, gilt der erkannte Wert auch als erkannt. Wird ein niedriger Wert genommen, müssen zusätzliche Identifier zutreffen, so dass die Summe aller Identifier Relevanz Werte mindestens 100 erreicht.

Hinweis

Der Klassifikationstyp für „Classify method“ sollte vor dem Anlernen angegeben werden, da die Auswahl des Systems relevant für den Anlernprozess ist und dabei unterschiedliche Daten erhoben werden. Sollten Sie nachträglich die Verfahren ändern, müssen Sie alle Daten erneut anlernen. Ein reines Umstellen ist nicht ausreichend und führt nicht zum gewünschten Ergebnis.