Digitalisieren von Dokumenten

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Digitalisiert ein Dokument. Dabei werden dessen Dokumentobjektmodell (DOM) und Text extrahiert und in deren entsprechendem Variablentyp gespeichert.

Hinweis: Sie müssen dieser Aktivität ein OCR-Modul zuweisen, indem Sie es in den Hauptteil der Aktivität ziehen. Das gewählte OCR-Modul ist nur zu verwenden, wenn die eingehenden Dokumente eine OCR-Verarbeitung erfordern. Die verfügbaren OCR-Module finden Sie hier. Die Eingabe- und Ausgabeparameter des ausgewählten OCR-Moduls werden automatisch durch die Aktivität „Digitize Document“ festgelegt.

Eigenschaften

Allgemein

AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.

Eingabe

OCRAufPDFAnwenden – Legt fest, ob der OCR-Prozess auf PDF-Dokumente angewendet werden soll oder nicht. Wenn Jafestgelegt ist, wird die OCR auf allen PDF-Seiten des Dokuments angewendet. Wenn Neinfestgelegt ist, wird nur digital eingegebener Text extrahiert. Der Standardwert ist Autound bestimmt, ob das Dokument abhängig vom Eingabedokument den OCR-Algorithmus anwenden muss.
DegreeOfParalelism – Gibt an, wie viele Seiten (falls vorhanden) parallel analysiert werden sollen. Der Wert -1 verwendet die „Anzahl der Kerne auf der Maschine – 1“ (d. h., er versucht, so viele Seiten parallel zu verarbeiten, wie die Anzahl der Kerne – Wert 1), während die Angabe eines positiven Werts diese bestimmte Anzahl logischer Prozessoren verwendet . Standardmäßig ist diese Eigenschaft auf -1festgelegt.
DetectCheckboxes (DetectCheckboxes) – Erkennt die verfügbaren Kontrollkästchen im Dokument während der Digitalisierung. Der Standardwert ist True.
Dokumentpfad (DocumentPath) - Der Dateipfad zu dem Dokument, das Sie digitalisieren möchten. Dieses Feld unterstützt nur Strings und Variablen des Typs String.
Hinweis:
- Falls ein Dokument, das über genügend Daten verfügt, nicht klassifiziert werden kann, legen Sie die Eigenschaft OCRAufPDFAnwenden in der Aktivität Digitize Document auf Ja fest.
- Die Textextraktion aus PDF-Dateien wurde aktualisiert, was zu einem optimierten Extraktionsprozess führt, bei dem sowohl nativer als auch gescannter Text gleichzeitig abgerufen wird und die OCR nur auf die in der PDF-Datei identifizierten Bilder angewendet wird. Diese Verbesserung ist nur verfügbar, wenn die Option ApplyOCROnPDF auf Auto festgelegt ist.
Hinweis: Die unterstützten Dateitypen für dieses Eigenschaftsfeld sind .png, .jpe, .jpg, .jpeg, .tiff, .tif und .pdf.

Sonstiges

Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.

Ausgabe

DocumentObjectModel - Das Document Object Model (DOM) der Datei, gespeichert in einer Document -Variablen. Dieses Feld unterstützt nur Document -Variablen.
Dokumenttext (DokumentText) - Der Text, der aus dem angegebenen Dokument extrahiert wurde. Diese Variable kann anschließend in der Aktivität Aktuelle Validierungsstation (Present Validation Station) verwendet werden. Dieses Feld unterstützt nur Variablen vom Typ String.

Hinweis: Ab UiPath.IntelligentOCR.Activities-Paket v6.3.0-preview verfügt die Aktivität „Dokument digitalisieren“ über eine standardmäßige vorausgewählte OCR-Engine, die UiPath Document OCR-Engine.

Beide Ausgabevariablen, gepaart, da sie abhängig sind, können in der Dokumentverarbeitung im gesamten Dokumentverarbeitungs-Framework (Klassifizierung, Datenextraktion, menschliche Validierung usw.) weiter verwendet werden.

Wichtig

Wenn das Paket UiPath.IntelligentOCR.Activities auf v5.1.0 aktualisiert wurde, dann wurde der Parameter ForceApplyOCR durch ApplyOcrOnPDF ersetzt. Hier ist die Kompatibilität zwischen den alten und neuen Parametern:

ForceApplyOCR = True wird ersetzt durch ApplyOcrOnPDF = Yes
ForceApplyOCR = False wird ersetzt durch ApplyOcrOnPDF = Auto • ForceApplyOCR = Leer wird ersetzt durch ApplyOcrOnPDF = Auto
ForceApplyOCR = <benutzerdefinierte Variable> wird ersetzt durch ApplyOcrOnPDF = Auto

Hinweis: Die Aktivität Dokument digitalisieren extrahiert den Text aus einer PDF-Datei und wendet bei komplexen Dokumenten Vorverarbeitungs- und Nachverarbeitungsalgorithmen an. Diese Aktivität kann zusammen mit anderen Document Understanding-Aktivitäten verwendet werden.

Dokumentobjektmodell

Das Dokumentobjektmodell wird in einem hierdokumentierten proprietären Objekt erfasst.

Hinweis:

Damit ein Bild erfolgreich digitalisiert/verarbeitet werden kann, müssen seine Breite und Höhe zwischen 50 und 10.000 Pixeln liegen. Jedes Bild unter oder über diesem Bereich wird mit einer Ausnahmemeldung abgelehnt. Ein Bild, das mit den zuvor genannten Abmessungen validiert wurde und eine Gesamtgröße von über 14 MP aufweist, muss auf 14 MP verkleinert werden, während das Seitenverhältnis (Verhältnis Breite/Höhe) beibehalten wird.

Die OCR-Ergebnisse für gescannte Dokumente wurden verbessert, und jetzt werden die besten Ergebnisse erzielt, wenn der Neigungswinkel zwischen +/- 20 Grad gehalten wird.