/
HowTo - CLARC INDEXING SERVER

HowTo - CLARC INDEXING SERVER

Einrichtung

Mit Hilfe des CLARC INDEXING SERVER können Indexdaten zu bestehenden Dokumenten aufgebaut werden. Wie beim CLARC MIGRATION SERVER besteht die Konfiguration dabei aus einem Agenten, der in einem eingestellten Intervall aufgerufen wird und 1-n Jobs, passend für den konfigurierten Agenten. Voraussetzung für den Aufbau von Indexdaten des CLARC INDEXING SERVER ist die Installation und Verwendu8ng einer MongoDB (Version 4.4 empfohlen).

Es können dabei aus einem bestehenden Repositories mit einem angeschlossenen Metadaten-Providers die Volltext-Informationen der Dokumente indexiert werden, oder bei einem angeschlossenen SAP Repository Metadaten mit Hilfe von Funktionsbausteinen aus dem SAP System für die zugehörigen Dokumente extrahiert werden. 

Voraussetzung für SAP Indexer Agenten:

  • Konfigurierter Zugriff auf das SAP System (In C4 unter Software/Basics/SAP)
  • Konfiguriertes SAP (Ziel-)Repository im CLARC CONTENT SERVER (In C4 unter Software/clarc content server/SAP/<Mandant>)

Führen Sie dazu folgende Schritte durch:

Agenten erzeugen (1)

  • Im CLARC INDEXING SERVER (C4) unter dem Zweig Agents einen neuen Agenten erzeugen 
  • Im folgenden Dialog im Reiter Agent einen Namen vergeben und als Agent type SAP Indexer oder Fulltext Indexer auswählen
  • Startzeit und Intervall einstellen. Ein Agent läuft bis alle Jobs mit der Aufgabe fertig sind. Erst danach startet der Agent erneut nach der eingestellten Intervallzeit.
  • Für SAP Indexer zusätzlich:
    • Unter dem Reiter MongoDB muss die Verbindung zur MongoDB konfiguriert werden. In der MongoDB werden die Informationen zu den zu indexierenden Dokumenten aus SAP gespeichert (SAP TOA-Tabellen)
    • Im Reiter SAP Indexing erfolgt die Angabe des zu indexierenden SAP Repositories unter Verwendung des entsprechend SAP systems.
    • Unter SAP TOA table names müssen die Tabelle(n) aus SAP angegeben werden, in welchen die Dokumentinformationen gespeichert sind. Das können bei TOA-Tabellen mehrere sein, die kommasepariert anzugeben sind
    • SAP TOA start date bestimmt das Datum des ersten zu indexierenden Dokuments
    • Retrieving range gibt den Zeitraum an (in Tagen), für den die Tabellendaten aus SAP mit einer einzelnen Abfrage geholt werden. Es ist hier wichtig zu ermitteln, wie viele Einträge für diesen Zeitraum voraussichtlich zu erwarten sind. Die Anzahl der Einträge sollte 100.000 nicht übersteigen, da ansonsten die Speicherlast des CLARC INDEXING SERVER zu hoch ist.

Job erzeugen (2)

Für den erzeugten Agenten müssen nun ein oder mehrere Jobs erstellt werden. Dazu einen Namen, eine Beschreibung vergeben und den Job "aktiv" schalten

Fulltext Indexing job:

  • Auswahl des Repositories, welches mit Volltext Daten indexiert werden soll. Bestehende Dokumente werden mit OCR gelesen und erkannte Wörter indexiert. 

SAP indexing job:

  • Optional können die zu indexierenden Dokumente eingeschränkt werden durch Angabe des SAP business object und/oder eines SAP document type
  • SAP function module zeigt auf den im SAP hinterlegten Funktionsbaustein (z.b. /CLARC/CCSS_XC_GETBKPF)
  • SAP source repository ist ein im CLARC CONTENT SERVER angelegtes SAP-Repository
  • Target repository ist ein im CLARC CONTENT SERVER angelegtes COMMON-Repository
  • Optional kann noch ein Mapping scheme ausgewählt werden um ein Feld aus einem SAP Funktionsbaustein einem Feld aus einem C4-Feldschema zuzuordnen.

Maintenance:

  • Unter Maintenance kann der Status indexierter Dokument zurück gesetzt werden (Reindex target repository). Man kann alle indexierten Dokumente zurück setzen (Auswahl All entries) oder nur die als fehlerhaften markierten (Auswahl Failed entries). Bereits existierende Indexdaten werden dabei bei einen neue Lauf überschrieben.
  • Bei einem SAP indexing job kann zusätzlich noch das Ziel Repository komplett neu aufgebaut werden (Rebuild target repository). Dabei wird die zugehörige Collection in der MongoDB des Ziel Repositories gelöscht und neu erzeugt. Da das Ziel Repository lediglich Metadaten speichert, kann dies gefahrlos gemacht werden. Allerdings gilt es zu bedenken, dass bei großen Repositories der Prozess sehr lange dauern kann und Dokumente dann über die Volltextsuche teilweise nicht gefunden werden können.

Bemerkungen und Tipps

  • Der CLARC INDEXING SERVER ist Multi-Instanz fähig. Werden mehrere Instanzen konfiguriert, ist die Instanz 0 (primäre Instanz) zuständig für das auslesen der TOA-Tabellen aus SAP sowie dem Bereitstellen des nächsten Eintrags für die Indexierung einer secondary Instanz (Instanz > 0). Die primäre Instanz indexiert dann keine Dokumente, das wird dann nur von den secondary Instanzen durchgeführt. 
  • Bei einer Multi-Instanz Umgebung ist es sinnvoll, einen Agenten in einem kleineren Intervall zu konfigurieren. Die Instanzen werden alle zeitgleich gestartet, hat dann z.b. Instanz 0 noch keine TOA-Daten eingelesen, haben die secondary Instanzen keine Daten zu indexieren und beenden Ihre Arbeit. Bei einem großen Intervall würden die secondary Instanzen auf den nächsten Zeitslot warten, obwohl evtl. Instanz 0 inzwischen Daten für die Indexierung zur Verfügung stellen kann.
  • Bereits eingelesene TOA-Daten werden von Instanz 0 beim erneuten Start des Agenten nicht nochmals eingelesen, sondern ignoriert. 

Report einer Indexierung

Zu jeder Zeit kann ein aktueller Report bzw. Statistik zur laufenden Indexierung abgerufen bzw. erzeugt werden. Der Aufruf erfolgt mit der Service-URL zum CLARC INDEXING SERVER:

http(s)://<host>:<port>/GETREPORT?AuthCode=1D3F8E6488FA49969A06637DE3075CC9&AgentName=<AgentName>&JobName=<JobName>&Year=yyyy&Month=mm

Die Service-URL bzw. host/port kann aus dem C4 ermittelt werden. Der AgentName entspricht dem Namen des im C4 konfigurierten Agenten, der JobName entsprechend für den konfigurierten Job. Year und Month sind optionale Angaben um einen Report für ein bestimmtes Jahr (4-stellig) oder einen bestimmten Monat (2-stellig) zu erhalten. Bei Angabe eines Monats muss auch das Jahr angegeben werden.