XTRACT Compiler List Definitionen
- Former user (Deleted)
XTRACT Compiler Listen-Definitionen
Über die Compiler Lists wird die grundlegende Informationsbasis für die Inhaltsanalyse gelegt.
Jede aufgeführte Liste entspricht einer Property im C4 im entsprechenden Compiler unterhalb von /Lists. Die Werte innerhalb einer Liste sind mit einem Zeilenumbruch voneinander getrennt und müssen in Großbuchstaben gepflegt werden sofern nicht anderweitig definiert.
Im Standard sind diese Listen bereits mit vordefinierten Werten vorbelegt. Eine Anpassung ist nur im Einzelfall erforderlich. Dabei können auch nur einzelne Listen ersetzt werden.
Liste | Beschreibung |
---|---|
CURRENCY_CODES | Währungseinheiten wie EUR oder USD |
CURRENCY_SYMBOLS | Währungssymbole wie € oder $ |
KEYWORDS_COMMON | Eigenständige Schlüsselwortbegriffe - Angabe in vollständiger Form |
MERGEWORDS_SPACETYPED | Sperrschrift-Begriffe wie z.B. "R E C H N U N G" - Definition ohne Leerzeichen |
SPLITWORDS_IDENTIFIER | Definition von Begriffen an dessen Stelle ein Objekt mit dem Beginn eines dieser Begriffe getrennt werden soll |
SPLITWORDS_NUMERIC | Numerische Trennbegriffe wie z.B. "NR." |
ABBREVIATIONS | Definition von Abkürzungen wie z.B. "NR." oder "DR." |
DOCUMENTTYPES | Definition von Dokumenttypbezeichungen wie "RECHNUNG" oder "LIEFERSCHEIN" |
STOPWORDS_WWW | Stopwortliste für WWW Begriffe wie z.B. "HTTP,WWW,@,://,FTP" bei denen keine Anwendung von normalen Trennzeichen stattfindet |
UNITS_AREA | Flächenbezeichner wie "M²" |
UNITS_LENGTH | Längenbezeichner wie "M" |
UNITS_PIECE | Stückbezeichner wie "STÜCK" |
UNITS_RATIO | Verhältnisbzeichner wie "%" |
UNITS_VOLUME | Volumenbezeichner wie "MM³" |
UNITS_WEIGHT | Gewichtsbezeichner wie "KG" |
UNITS_ELECTRICITY | Bezeichner für elektrische Einheiten wie "WATT" |
SUFFIXES_KEYWORDS_NUMBERS | Suffixe für numerische Schlüsselwörter |
SUFFIXES_KEYWORDS_DATES | Suffixe für datumsspezifische Schlüsselwörter |
PREFIXES_KEYWORDS_NUMBERS | Präfixe für numerische Schlüsselwörter |
PREFIXES_KEYWORDS_DATES | Präfixe für datumsspezifische Schlüsselwörter |
Automatische Schlüsselwortbildung und -findung
Folgende Listen sind für die automatische Bildung und Findung von Schlüsselbegriffen verantwortlich:
- SUFFIXES_KEYWORDS_NUMBERS
- SUFFIXES_KEYWORDS_DATES
- PREFIXES_KEYWORDS_NUMBERS
- PREFIXES_KEYWORDS_DATES
Dies gilt für die folgenden abgeleiteten Basistypen (MainTypes):
- ccMT_Identifier
- ccMT_CallNumber
- ccMT_DateTime
In diesen Fällen werden aus den Schlüsselbegriffen der Merge-Definitionen entsprechend automatische Schlüsselbegriffe generiert und gegen die Seite geprüft. Die Übereinstimmungsgenauigkeit hängt dabei von diversen Faktoren wie OCR-Confidence und Wortlänge ab. Durch diesen Automatismus werden verschiedenste Konstellationen geprüft welche nicht konkret gepflegt werden müssen. Die Erkennungsqualität in unbekannten Dokumenten steigt dadurch signifikant an.