XTRACT API
- Former user (Deleted)
Verwendung
Über die CLARC XTRACT Web-Schnittstelle können Dokumente an den Server hochgeladen werden und deren Inhalt über eine entsprechende XTRACT Projektdefinition ausgewertet werden.
Über die XTRACT Basis-Einstellung MaxParallelXtractions kann die maximale Anzahl der parallel Verarbeitungen begrenzt werden. Im Standard entspricht der Wert der Anzahl der vorhanden CPU Kerne im System.
Datenextraktion
Die Verarbeitung erfolgt über einen HTTP-PUT Aufruf mit der nachfolgenden Url:
http(s)://<server>:<port>/ccprocessdocument?project=<project name>&blobname=<name of blob>&debugmessages=<true|false>&designtime=<true|false>
Das zu verarbeitende Dokument wird als Bytestream im HTTP-PUT Aufruf übertragen.
Objektextraktion
Die Objektextraktion gibt im Gegensatz zur Datenextraktion die inhaltlich nicht weiter interpretierten Objektzonen zurück. Im XTRACT Designstudio wird diese Methode zur Aufbereitung der Templates verwendet. Die Verarbeitung erfolgt über einen HTTP-PUT Aufruf mit der nachfolgenden Url:
http(s)://<server>:<port>/cccompiledocument?project=<project name>&pagelimit=<pages>&designtime=<true|false>
Das zu verarbeitende Dokument wird als Bytestream im HTTP-PUT Aufruf übertragen.
Resultset
Im Ergebnis werden alle extrahierten Einzeldokumente mit den entsprechenden Metadaten und/oder Objektzonen in Form eines XML's zurückgeliefert.
Beispiel einer Datenextraktion
<?xml version="1.0" encoding="UTF-8"?> <ccXtractResults> <Results> <Document Id="1" Form="Default" Accuracy="0"> <Field Name="Example" DataType="UCS2STR" Confidence="100,001" Page="0" Zone="3022.818,7308.800,2174.400,1195.200"> <Value>Hello</Value> </Field> <Field Name="LastPageNum" DataType="INT" Confidence="0" Page="-1" Zone="0,0,1,1"> <Value>1</Value> </Field> <Field Name="Lieferdatum" DataType="DATE" Confidence="0" Page="0" Zone="0,0,1,1"> <Value>2016-01-01</Value> </Field> <Table> <Row Confidence="0" Page="0" Zone="0,0,0,0"> <Col Name="p_number" DataType="UCS2STR" Confidence="0" Zone="0,0,0,0"/> <Col Name="p_ordernumber" DataType="UCS2STR" Confidence="100" Zone="0,0,0,0">4711</Col> </Row> <Row Confidence="0" Page="0" Zone="0,0,0,0"> <Col Name="p_number" DataType="UCS2STR" Confidence="0" Zone="0,0,0,0"/> <Col Name="p_ordernumber" DataType="UCS2STR" Confidence="100" Zone="0,0,0,0">4712</Col> </Row> </Table> </Document> </Results> <Messages> <Message>11.07.16 22:20:58-946 localhost process...: executing Xtract project Test</Message> <Message>11.07.16 22:20:58-946 localhost process...: detecting barcode separator page...</Message> <Message>11.07.16 22:20:58-947 localhost process...: compiling barcodes on blob 0 - blob ccXtract-84E0BAFF66A64A1EA1AEC7D9B2DFC6AB~~~.pdf (80.86 kb)</Message> </Messages> </ccXtractResults>
Beispiel einer Objektextraktion
<?xml version="1.0" encoding="UTF-8"?> <ccXtractResults> <Fonts> <Font Id="0">Arial</Font> </Fonts> <Pages Count="1"> <Page Id="0" Language="DE"> <Text> World of Sports GmbH Eingangsrechnung UID-Nummer Rilling Sport Datum : 04.März.2005 Carl-Zeis-Ring 69 Belegnr. : 190 60786 Frankfurt GERMANY Zahlungsziel : 15. des übernächsten Monats Vertriebsmitarbeite : -Kein Vertriebsmitarbeiter- Christian Geldner Seitenzahl : 1 Kunde : Ref. : 190 Seriennr. Artikelnr. Beschreibung Menge Stückpreis USt.% Fällige Zahlungssum 1 4711 PhantasieSoft 1 Eur 4.500,00 16,000( Eur 4.500,00 Gesamt vor USt. Eur 4.500,00 Rabatt 0,0000 % Zusätzl. Ausgaben USt. Eur 720,00 Gesamt Eur 5.220,00 ... </Text> <Zones Count="97"> <Zone Area="4414,12492,2210,1073" Type="Barcode" SubType="CODE25" Font="-1" Size="0" Line="0">1700000226</Zone> <Zone Area="1346,482,1095,303" Font="-1" Size="103,5" Line="0">World</Zone> <Zone Area="2592,475,367,303" Font="-1" Size="103,5" Line="0">of</Zone> <Zone Area="3074,475,1224,303" Font="-1" Size="103,5" Line="0">Sports</Zone> ... </Zones> <Blocks GroupCount="14"> <Group Id="0" Zone="1346,461,4320,1145" ZoneCount="1"> <Zone Id="0" Rect="1346,461,4320,1145" Align="Left"/> </Group> <Group Id="1" Zone="2095,1980,9065,1073" ZoneCount="3"> <Zone Id="1" Rect="2095,1980,2383,1073" Align="Left"/> <Zone Id="2" Rect="6746,1980,1095,1073" Align="Left"/> <Zone Id="3" Rect="8424,1980,2736,1073" Align="Left"/> </Group> ... </Blocks> </Page> </Pages> <Results/> <Messages> <Message>12.07.16 10:10:13-455 localhost process...: compiling objects for blob ccXtract-186063CF531D45C095C9471FF098C6AC~~~.tif (14.38 kb)</Message> <Message>12.07.16 10:10:19-466 localhost debug.....: language detection...</Message> <Message>12.07.16 10:10:19-502 localhost debug.....: line recognition compiler</Message> <Message>12.07.16 10:10:19-503 localhost debug.....: spaced type object compiler</Message> <Message>12.07.16 10:10:19-509 localhost debug.....: text layout compiler and block recognition</Message> </Messages> </ccXtractResults>
Siehe auch