XTRACT API

Verwendung

Über die CLARC XTRACT Web-Schnittstelle können Dokumente an den Server hochgeladen werden und deren Inhalt über eine entsprechende XTRACT Projektdefinition ausgewertet werden.

Über die XTRACT Basis-Einstellung MaxParallelXtractions kann die maximale Anzahl der parallel Verarbeitungen begrenzt werden. Im Standard entspricht der Wert der Anzahl der vorhanden CPU Kerne im System.

Datenextraktion

Die Verarbeitung erfolgt über einen HTTP-PUT Aufruf mit der nachfolgenden Url:

http(s)://<server>:<port>/ccprocessdocument?project=<project name>&blobname=<name of blob>&debugmessages=<true|false>&designtime=<true|false>

Das zu verarbeitende Dokument wird als Bytestream im HTTP-PUT Aufruf übertragen.

Objektextraktion

Die Objektextraktion gibt im Gegensatz zur Datenextraktion die inhaltlich nicht weiter interpretierten Objektzonen zurück. Im XTRACT Designstudio wird diese Methode zur Aufbereitung der Templates verwendet. Die Verarbeitung erfolgt über einen HTTP-PUT Aufruf mit der nachfolgenden Url:

http(s)://<server>:<port>/cccompiledocument?project=<project name>&pagelimit=<pages>&designtime=<true|false>

Das zu verarbeitende Dokument wird als Bytestream im HTTP-PUT Aufruf übertragen.

Resultset

Im Ergebnis werden alle extrahierten Einzeldokumente mit den entsprechenden Metadaten und/oder Objektzonen in Form eines XML's zurückgeliefert.

Beispiel einer Datenextraktion

<?xml version="1.0" encoding="UTF-8"?>
<ccXtractResults>
  <Results>
    <Document Id="1" Form="Default" Accuracy="0">
      <Field Name="Example" DataType="UCS2STR" Confidence="100,001" Page="0" Zone="3022.818,7308.800,2174.400,1195.200">
        <Value>Hello</Value>
      </Field>
      <Field Name="LastPageNum" DataType="INT" Confidence="0" Page="-1" Zone="0,0,1,1">
        <Value>1</Value>
      </Field>
      <Field Name="Lieferdatum" DataType="DATE" Confidence="0" Page="0" Zone="0,0,1,1">
        <Value>2016-01-01</Value>
      </Field>
      <Table>
        <Row Confidence="0" Page="0" Zone="0,0,0,0">
          <Col Name="p_number" DataType="UCS2STR" Confidence="0" Zone="0,0,0,0"/>
          <Col Name="p_ordernumber" DataType="UCS2STR" Confidence="100" Zone="0,0,0,0">4711</Col>
        </Row>
        <Row Confidence="0" Page="0" Zone="0,0,0,0">
          <Col Name="p_number" DataType="UCS2STR" Confidence="0" Zone="0,0,0,0"/>
          <Col Name="p_ordernumber" DataType="UCS2STR" Confidence="100" Zone="0,0,0,0">4712</Col>
        </Row>
      </Table>
    </Document>
  </Results>
  <Messages>
    <Message>11.07.16 22:20:58-946 localhost process...: executing Xtract project Test</Message>
    <Message>11.07.16 22:20:58-946 localhost process...: detecting barcode separator page...</Message>
    <Message>11.07.16 22:20:58-947 localhost process...: compiling barcodes on blob 0 - blob ccXtract-84E0BAFF66A64A1EA1AEC7D9B2DFC6AB~~~.pdf (80.86 kb)</Message> 
  </Messages>
</ccXtractResults>

Beispiel einer Objektextraktion

<?xml version="1.0" encoding="UTF-8"?>
<ccXtractResults>
  <Fonts>
    <Font Id="0">Arial</Font>
  </Fonts>
  <Pages Count="1">
    <Page Id="0" Language="DE">
      <Text>            World of Sports GmbH
                           Eingangsrechnung
                                 UID-Nummer


                    Rilling Sport                               Datum          : 04.März.2005
                   Carl-Zeis-Ring 69                            Belegnr.       : 190
                   60786 Frankfurt GERMANY                      Zahlungsziel   : 15. des übernächsten Monats
                                                                Vertriebsmitarbeite : -Kein Vertriebsmitarbeiter-
                   Christian Geldner
                                                                Seitenzahl     : 1
          Kunde :
          Ref.   : 190


         Seriennr. Artikelnr.  Beschreibung                Menge  Stückpreis   USt.% Fällige Zahlungssum
        1        4711      PhantasieSoft         1       Eur 4.500,00      16,000( Eur 4.500,00
                                                             Gesamt vor USt.      Eur 4.500,00
                                                             Rabatt    0,0000 %
                                                             Zusätzl. Ausgaben
                                                             USt.                 Eur 720,00
                                                             Gesamt               Eur 5.220,00
        ...
      </Text>
      <Zones Count="97">
        <Zone Area="4414,12492,2210,1073" Type="Barcode" SubType="CODE25" Font="-1" Size="0" Line="0">1700000226</Zone>
        <Zone Area="1346,482,1095,303" Font="-1" Size="103,5" Line="0">World</Zone>
        <Zone Area="2592,475,367,303" Font="-1" Size="103,5" Line="0">of</Zone>
        <Zone Area="3074,475,1224,303" Font="-1" Size="103,5" Line="0">Sports</Zone>
		...
      </Zones>
      <Blocks GroupCount="14">
        <Group Id="0" Zone="1346,461,4320,1145" ZoneCount="1">
          <Zone Id="0" Rect="1346,461,4320,1145" Align="Left"/>
        </Group>
        <Group Id="1" Zone="2095,1980,9065,1073" ZoneCount="3">
          <Zone Id="1" Rect="2095,1980,2383,1073" Align="Left"/>
          <Zone Id="2" Rect="6746,1980,1095,1073" Align="Left"/>
          <Zone Id="3" Rect="8424,1980,2736,1073" Align="Left"/>
        </Group>
        ...
      </Blocks>
    </Page>
  </Pages>
  <Results/>
  <Messages>
    <Message>12.07.16 10:10:13-455 localhost process...: compiling objects for blob ccXtract-186063CF531D45C095C9471FF098C6AC~~~.tif (14.38 kb)</Message>
    <Message>12.07.16 10:10:19-466 localhost debug.....: language detection...</Message>
    <Message>12.07.16 10:10:19-502 localhost debug.....: line recognition compiler</Message>
    <Message>12.07.16 10:10:19-503 localhost debug.....: spaced type object compiler</Message>
    <Message>12.07.16 10:10:19-509 localhost debug.....: text layout compiler and block recognition</Message>
  </Messages>
</ccXtractResults>

 

Siehe auch