INVOICE READER Suchalgorithmen
- Merve Yurdakul
- Former user (Deleted)
Einführung
Individuelle Gestaltungsmöglichkeiten einer Rechnung beeinträchtigen die automatische Erkennung der Rechnungs-Metadaten. So kann jede Firma selbst entscheiden, wie eine Rechnung aufgebaut ist und welche Informationen in Ihr gespeichert werden sollen.
Der Rechnungsleser muss unabhängig vom Aufbau der Rechnungen deren Inhalt zuverlässig extrahieren. Dafür werden im CLARC INVOICE READER komplexe Suchalgorithmen eingesetzt, welche auch als Freiformerkennung bekannt ist.
Für jede gesuchte Information beschreibt ein abgestimmter Suchalgorithmus nach welcher Logik die Informationen im Dokument erfasst und auf Stimmigkeit geprüft werden kann. Sucht der Rechnungsleser zum Beispiel nach einer Rechnungsnummer, dann geht er wie folgt vor:
Beispiel
- Er identifiziert zuerst mögliche potentielle Werte anhand von Schlagwortlisten. Das bedeutet im System ist eine Liste gespeichert die für den Rechnungsbegriff alternative Schreibweisen (Rechnung, RECHNUNG, Invoice, …, usw.) enthält.
- Findet das System einen Begriff aus der Liste, dann wird unter oder hinter diesem Schlagwort in einem festgelegen Bereich nach möglichen Rechnungsnummernwerten gesucht.
- Für mögliche Feldwerte können zusätzlich noch Aufbaumuster (Pattern) hinterlegt werden. Entspricht eine mögliche gefundene Rechnungsnummer diesem Muster dann wird dem Begriff eine höhere Wahrscheinlichkeit zugewiesen.
- Abschließend wird noch geprüft, ob dem gefunden Rechnungsnummernbegriff ein Wort vorangestellt ist, das in einer Stoppwortliste gefunden wurde. Auch hierzu ein Beispiel:
Rechnung vom 20.12.2001 Bestellnummer: 22222222.
Rechnung kommt in der Schlagwortliste für Rechnungsnummer vor somit könnte die 22222222 eine Rechnungsnummer sein. Da aber Bestellnummer in der Stoppwortliste steht wird der Wert wieder verworfen. - Wird kein Stoppwort gefunden, dann wird der Wert dem Feld zugewiesen.
Im Detail
Weiterführende Informationen zu allen relevanten Feldern und deren Erkennungsmechanismen, Algorithmen und deren detailliertes Vorgehen finden Sie im geschützten Bereich: