Varianten

Folgende Klassifikationsverfahren werden innerhalb von CLARC CLASSIFY angeboten:

Naiver Bayes-Klassifikator
k-Nearest-Neighbor-Algorithmus
k-Nearest Neighbor Best 3/5
k-Nearest Category
k-Nearest-Neighbor-Coordinates
k-Nearest-Neighbor-Template

Beschreibung

Naiver Bayes-Klassifikator

Der Bayes Klassifikator wird in Anti-Spamsystemen eingesetzt. Hier werden recht hohe Trefferquoten erzielt. Er vergleicht die Daten des zu klassifizierenden Dokuments gegen die aufsummierten Werte der Dokumentenklassen und berechnet die bedingten Wahrscheinlichkeiten für jede mögliche Kategorie. Die Dokumentenklasse der Kategorie mit der höchsten Wahrscheinlichkeit wird dem Dokument zugewiesen.

Vorteile

Performante Algorithmen zur Bestimmung der Dokumentenklassen.
Einfache Nachvollziehbarkeit der Ergebnisse.
Erfordert eine geringe Datenmege beim Anlernen, da die Häufigkeiten aufsummiert und die Werte danach zur Wahrscheinlichkeitsberechnung herangezogen werden.
Einfacher mathematische Algorithmus.
Der Algorithmus liefert hohe Trefferquoten obwohl er davon ausgeht, dass jeder Deskriptor nur vom Klassenattribut abhängt. Das ist so natürlich nicht ganz korrekt, führt aber trotzdem fast immer zum richtigen Ergebnis

Nearest-Neighbor

Das Nearest Neighborsystem speichert während der Anlernphase alle ermittelten Deskriptoren zu einem Dokument ab und klassifiziert diese. Während der Analyse, wird jedes bisher gespeicherte Dokument bezüglich seiner Deskriptoren mit dem zu analysierenden Dokument verglichen. Das gesuchte Dokument bekommt die Kategorie des Dokumentes, das ihm am ähnlichsten ist.

Vorteile

Einfacher mathematischer Algorithmus.
Bessere Wichtungsmöglichkeiten als der Bayes-Algorithmus.
Einfaches Hinzulernen von Dokumenten ohne die Grundbasis negativ zu beeinflussen.
Das wohl am häufigsten eingesetzte Verfahren innerhalb der automatischen Rechnungslesung.

Nachteile

Erhöhter Speicherbedarf, weil jedes Dokument bzw. dessen Bestandteile während der Anlernphase gespeichert werden.
Erhöhter Verarbeitungsaufwand im Gegensatz zu Bayes, da nur die einzelnen Kategorien mit aufsummierten Werten gegen das Dokument geprüft werden. Jedes gespeicherte Dokument wird gegen das zu klassifizierende Dokument gegengeprüft.
Bei hetrogener Dokumentenmasse müssen zahlreiche Dokumente angelernt werden, um ein gutes Ergebnis zu erzielen.
Minimale Erkennungsergebnisse, wenn nur eine geringe Anzahl an Dokumente angelernt werden.

Varianten des Nearest Neighborsystems

Name	Beschreibung
Simple	Simple weist die Klasse den überwiegend übereinstimmenden Dokumenten zu. Dabei wird maßgeblich der Inhalt analysiert.
Best 3/5	Es werden die ähnlichsten drei bzw. fünf Dokumente ermittelt. Das unklassifizierte Dokument erhält die Klasse zugewiesen, die im Ergebnis am häufigsten vorkommt. Wie im einfachen Algorithmus werden auch hier nur weitgehend die Inhalte zur Analyse herangezogen.
Coordinate	Der reine Algorithmus entspricht Simple allerdings wird die Klassifikation ausschließlich über Koordinaten durchgeführt.
Template	Template ist die Kombination aus Simple und Coordinate.

Das Klassifikationsverfahren wird pro Formular an einer Identifikation festgelegt. Wie bereits beschrieben, legt der Wizard automatisch pro Klasse zwei Identifier an:

Name	Beschreibung
classFinder	Der Classfinder ist der Identifier, der für die Grundklassifizierung verwendet wird. Hier ist das Klassifikationsverfahren vor dem Anlernen zu spezifizieren. Standardmäßig steht es auf BayestemplateFinder
TemplateFinder	Der TemplateFinder ist ein alternatives Verfahren um Dokumente, die stetig falsch erkannt werden, explizit anzulernen. Hierbei kommt immer der Template-Algorithmus zum Einsatz. Ändern Sie diese bitte nicht. Theoretisch können Sie zusätzliche Identifier hinzufügen, um mehrere Klassifikationsverfahren konkurrierend zu verwenden, dies führt zwangsläufig nicht zu besseren Ergebnissen.

Folgende Eigenschaften können am Identifier verwendet werden:

Attribut	Wert
Zone type	Der Zonentype muss immer auf Classify stehen, damit CLARC CLASSIFY automatisch den Identifier verwendet.
Classify method	Die Methode gibt den Klassifikationstyp an, der verwendet werden soll. Mögliche Werte sind Bayes, NN_Default NN_BestOf3 NN_BestOf5 NN_Template NN_Coordinate und Template.
Classify accuracy	Der Schwellenwert kann zwischen 0 und 100 gesetzt werden. Dieser Wert sollte mindestens erreicht werden, damit die Klasse zugewiesen wird.
Relevance	Die Relevanz sollte stets 100 sein. Nur wenn die Relevanz 100 beträgt, gilt der erkannte Wert auch als erkannt. Wird ein niedriger Wert genommen, müssen zusätzliche Identifier zutreffen, so dass die Summe aller Identifier Relevanz Werte mindestens 100 erreicht.

Hinweis

Der Klassifikationstyp für „Classify method“ sollte vor dem Anlernen angegeben werden, da die Auswahl des Systems relevant für den Anlernprozess ist und dabei unterschiedliche Daten erhoben werden. Sollten Sie nachträglich die Verfahren ändern, müssen Sie alle Daten erneut anlernen. Ein reines Umstellen ist nicht ausreichend und führt nicht zum gewünschten Ergebnis.

Browser nicht unterstützt