Über die Compiler Lists wird die grundlegende Informationsbasis für die Inhaltsanalyse gelegt.
Jede aufgeführte Liste entspricht einer Property im C4 im entsprechenden Compiler unterhalb von /Lists. Die Werte innerhalb einer Liste sind mit einem Zeilenumbruch voneinander getrennt und müssen in Großbuchstaben gepflegt werden sofern nicht anderweitig definiert.
Im Standard sind diese Listen bereits mit vordefinierten Werten vorbelegt. Eine Anpassung ist nur im Einzelfall erforderlich. Dabei können auch nur einzelne Listen ersetzt werden.
Liste
Beschreibung
CURRENCY_CODES
Währungseinheiten wie EUR oder USD
CURRENCY_SYMBOLS
Währungssymbole wie € oder $
KEYWORDS_COMMON
Eigenständige Schlüsselwortbegriffe - Angabe in vollständiger Form
MERGEWORDS_SPACETYPED
Sperrschrift-Begriffe wie z.B. "R E C H N U N G" - Definition ohne Leerzeichen
SPLITWORDS_IDENTIFIER
Definition von Begriffen an dessen Stelle ein Objekt mit dem Beginn eines dieser Begriffe getrennt werden soll
SPLITWORDS_NUMERIC
Numerische Trennbegriffe wie z.B. "NR."
ABBREVIATIONS
Definition von Abkürzungen wie z.B. "NR." oder "DR."
DOCUMENTTYPES
Definition von Dokumenttypbezeichungen wie "RECHNUNG" oder "LIEFERSCHEIN"
STOPWORDS_WWW
Stopwortliste für WWW Begriffe wie z.B. "HTTP,WWW,@,://,FTP" bei denen keine Anwendung von normalen Trennzeichen stattfindet