XTRACT Compiler List Definitionen

XTRACT Compiler Listen-Definitionen

Über die Compiler Lists wird die grundlegende Informationsbasis für die Inhaltsanalyse gelegt.

Jede aufgeführte Liste entspricht einer Property im C4 im entsprechenden Compiler unterhalb von /Lists. Die Werte innerhalb einer Liste sind mit einem Zeilenumbruch voneinander getrennt und müssen in Großbuchstaben gepflegt werden sofern nicht anderweitig definiert.

Im Standard sind diese Listen bereits mit vordefinierten Werten vorbelegt. Eine Anpassung ist nur im Einzelfall erforderlich. Dabei können auch nur einzelne Listen ersetzt werden.

ListeBeschreibung
CURRENCY_CODESWährungseinheiten wie EUR oder USD
CURRENCY_SYMBOLSWährungssymbole wie € oder $
KEYWORDS_COMMONEigenständige Schlüsselwortbegriffe - Angabe in vollständiger Form
MERGEWORDS_SPACETYPEDSperrschrift-Begriffe wie z.B. "R E C H N U N G" - Definition ohne Leerzeichen
SPLITWORDS_IDENTIFIERDefinition von Begriffen an dessen Stelle ein Objekt mit dem Beginn eines dieser Begriffe getrennt werden soll
SPLITWORDS_NUMERICNumerische Trennbegriffe wie z.B. "NR."
ABBREVIATIONSDefinition von Abkürzungen wie z.B. "NR." oder "DR."
DOCUMENTTYPESDefinition von Dokumenttypbezeichungen wie "RECHNUNG" oder "LIEFERSCHEIN"
STOPWORDS_WWWStopwortliste für WWW Begriffe wie z.B. "HTTP,WWW,@,://,FTP" bei denen keine Anwendung von normalen Trennzeichen stattfindet
UNITS_AREAFlächenbezeichner wie "M²"
UNITS_LENGTHLängenbezeichner wie "M"
UNITS_PIECEStückbezeichner wie "STÜCK"
UNITS_RATIOVerhältnisbzeichner wie "%"
UNITS_VOLUMEVolumenbezeichner wie "MM³"
UNITS_WEIGHTGewichtsbezeichner wie "KG"
UNITS_ELECTRICITYBezeichner für elektrische Einheiten wie "WATT"
SUFFIXES_KEYWORDS_NUMBERSSuffixe für numerische Schlüsselwörter
SUFFIXES_KEYWORDS_DATESSuffixe für datumsspezifische Schlüsselwörter
PREFIXES_KEYWORDS_NUMBERSPräfixe für numerische Schlüsselwörter
PREFIXES_KEYWORDS_DATESPräfixe für datumsspezifische Schlüsselwörter

Automatische Schlüsselwortbildung und -findung

Folgende Listen sind für die automatische Bildung und Findung von Schlüsselbegriffen verantwortlich:

  • SUFFIXES_KEYWORDS_NUMBERS
  • SUFFIXES_KEYWORDS_DATES
  • PREFIXES_KEYWORDS_NUMBERS
  • PREFIXES_KEYWORDS_DATES

Dies gilt für die folgenden abgeleiteten Basistypen (MainTypes):

  • ccMT_Identifier
  • ccMT_CallNumber
  • ccMT_DateTime

In diesen Fällen werden aus den Schlüsselbegriffen der Merge-Definitionen entsprechend automatische Schlüsselbegriffe generiert und gegen die Seite geprüft. Die Übereinstimmungsgenauigkeit hängt dabei von diversen Faktoren wie OCR-Confidence und Wortlänge ab. Durch diesen Automatismus werden verschiedenste Konstellationen geprüft welche nicht konkret gepflegt werden müssen. Die Erkennungsqualität in unbekannten Dokumenten steigt dadurch signifikant an.