activities

latest

false

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Document Understanding-Aktivitäten

Letzte Aktualisierung 5. Dez. 2024

Digitalisieren von Dokumenten

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Beschreibung

Digitalisiert ein Dokument. Dabei werden dessen Dokumentobjektmodell (DOM) und Text extrahiert und in deren entsprechendem Variablentyp gespeichert.

Hinweis: Sie müssen dieser Aktivität ein OCR-Modul zuweisen, indem Sie es in den Hauptteil der Aktivität ziehen. Das gewählte OCR-Modul ist nur zu verwenden, wenn die eingehenden Dokumente eine OCR-Verarbeitung erfordern. Sie finden die verfügbaren OCR-Module unter OCR-Module. Die Eingabe- und Ausgabeparameter des ausgewählten OCR-Moduls werden automatisch durch die Aktivität Digitize Document festgelegt.

Projektkompatibilität

Windows-Legacy | Windows

Konfiguration

Eigenschaften-Panel

Allgemein

AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.

Eingabe

OCRAufPDFAnwenden – Legt fest, ob der OCR-Prozess auf PDF-Dokumente angewendet werden soll oder nicht. Wenn Jafestgelegt ist, wird die OCR auf allen PDF-Seiten des Dokuments angewendet. Wenn Neinfestgelegt ist, wird nur digital eingegebener Text extrahiert. Der Standardwert ist Autound bestimmt, ob das Dokument abhängig vom Eingabedokument den OCR-Algorithmus anwenden muss.
DegreeOfParalelism - Gibt an, wie viele Seiten parallel analysiert werden sollen. Der Wert -1 verwendet die „Anzahl der Kerne auf der Maschine – 1“. Das bedeutet, dass die Aktivität versucht, so viele Seiten parallel zu verarbeiten, wie die Anzahl der Kerne – 1 Wert, während bei Angabe eines positiven Wertes diese bestimmte Anzahl von logischen Prozessoren verwendet wird. Standardmäßig ist diese Eigenschaft auf -1 festgelegt.
Diese Eigenschaft akzeptiert einen Wert, der nicht größer als LogicalProcessorCount - 1 ist.
DetectCheckboxes – Erkennt die verfügbaren Kontrollkästchen aus dem Dokument, während es digitalisiert wird. Der Standardwert ist True.
DokumentPfad – Der Pfad zu dem Dokument, das Sie digitalisieren möchten. Dieses Feld unterstützt nur Strings und String-Variablen.
Hinweis:
- Falls ein Dokument mit genügend Daten nicht klassifiziert werden kann, legen Sie in der Aktivität Digitize Document die Eigenschaft ApplyOcrOnPdf auf Ja fest.
- Die Textextraktion aus PDF-Dateien wurde aktualisiert. Dies führt zu einem optimierten Extraktionsprozess, bei dem nativer sowie gescannter Text gleichzeitig abgerufen wird. Der Prozess wendet OCR nur auf die in der PDF-Datei identifizierten Bilder an. Diese Verbesserung ist nur verfügbar, wenn die Option ApplyOCROnPDF auf Automatisch festgelegt ist.
Hinweis: Die unterstützten Dateitypen für dieses Eigenschaftsfeld sind .png, .jpe, .jpg, .jpeg, .tiff, .tif und .pdf.

Sonstiges

Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.

Ausgabe

DocumentObjectModel - Das Document Object Model (DOM) der Datei, gespeichert in einer Document -Variablen. Dieses Feld unterstützt nur Document -Variablen.
DokumentText – Der aus dem angegebenen Dokument extrahierte Text. Diese Variable kann anschließend in der Aktivität Present Validation Station verwendet werden. Dieses Feld unterstützt nur String-Variablen.
Hinweis: Ab UiPath.IntelligentOCR.Activities-Paket v6.3.0-preview verfügt die Aktivität Digitize Document über ein standardmäßig vorab ausgewähltes OCR-Modul, das UiPath® Document OCR-Modul.

Beide Ausgabevariablen, die als Abhängigkeiten gekoppelt sind, können bei der Dokumentverarbeitung im gesamten Dokumentverarbeitungsframework weiter verwendet werden (Klassifizierung, Datenextraktion, menschliche Validierung usw.).

Wichtig

Wenn das UiPath.IntelligentOCR.Activities-Paket auf v5.1.0 aktualisiert wurde, dann wurde der Parameter ForceApplyOCR durch ApplyOcrOnPDF ersetzt. Hier ist die Kompatibilität zwischen den alten und neuen Parametern:

ForceApplyOCR = True wird ersetzt durch ApplyOcrOnPDF = Yes
ForceApplyOCR = False wird ersetzt durch ApplyOcrOnPDF = Auto
ForceApplyOCR = Empty wird ersetzt durch ApplyOcrOnPDF = Auto
ForceApplyOCR = Ihre definierte Variable wird ersetzt durch ApplyOcrOnPDF = Auto.

Hinweis: Die Aktivität Digitize Document extrahiert den Text aus einer PDF-Datei und wendet bei komplexen Dokumenten Algorithmen vor und nach der Verarbeitung an. Diese Aktivität kann zusammen mit anderen Document Understanding-Aktivitäten verwendet werden.

Dokumentobjektmodell

Das Dokumentobjektmodell wird in einem proprietären Objekt erfasst. Weitere Informationen finden Sie unter Document-Klasse .

Tipp: Um Ihre Dokumente erfolgreich zu digitalisieren und zu verarbeiten, sollten Sie die folgenden Tipps beachten:

Damit ein Bild erfolgreich digitalisiert/verarbeitet werden kann, müssen seine Breite und Höhe zwischen 50 und 10.000 Pixeln liegen. Jedes Bild unter oder über diesem Bereich wird mit einer Ausnahmemeldung abgelehnt. Ein Bild, das mit den zuvor genannten Abmessungen validiert wurde und eine Gesamtgröße von über 14 MP aufweist, muss auf 14 MP verkleinert werden, während das Seitenverhältnis (Verhältnis Breite/Höhe) beibehalten wird.
Die besten Ergebnisse werden erzielt, indem der Versatzwinkel zwischen +/- 20 Grad gehalten wird.

Beispiel für die Verwendung der Aktivität „Dokument digitalisieren“

Unter Manuelle Validierung für Digitize Documents erfahren Sie, wie die Aktivität Digitize Document in einem Beispiel verwendet wird, das mehrere Aktivitäten enthält.

Auf dieser Seite