- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Versionshinweise
- Über das Document Understanding-Aktivitätspaket
- Projektkompatibilität
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Konfigurieren der Authentifizierung
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Document Understanding-Projektklassifizierer
- Intelligenter Schlüsselwortklassifizierer
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Document Understanding-Projektextraktor
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Document Understanding-Aktivitäten
Digitalisieren von Dokumenten
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Digitalisiert ein Dokument. Dabei werden dessen Dokumentobjektmodell (DOM) und Text extrahiert und in deren entsprechendem Variablentyp gespeichert.
Eigenschaften-Panel
Allgemein
- AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.
Eingabe
- OCRAufPDFAnwenden – Legt fest, ob der OCR-Prozess auf PDF-Dokumente angewendet werden soll oder nicht. Wenn Jafestgelegt ist, wird die OCR auf allen PDF-Seiten des Dokuments angewendet. Wenn Neinfestgelegt ist, wird nur digital eingegebener Text extrahiert. Der Standardwert ist Autound bestimmt, ob das Dokument abhängig vom Eingabedokument den OCR-Algorithmus anwenden muss.
- DegreeOfParalelism - Gibt an, wie viele Seiten parallel analysiert werden sollen. Der Wert
-1
verwendet die „Anzahl der Kerne auf der Maschine – 1“. Das bedeutet, dass die Aktivität versucht, so viele Seiten parallel zu verarbeiten, wie die Anzahl der Kerne – 1 Wert, während bei Angabe eines positiven Wertes diese bestimmte Anzahl von logischen Prozessoren verwendet wird. Standardmäßig ist diese Eigenschaft auf-1
festgelegt.Diese Eigenschaft akzeptiert einen Wert, der nicht größer alsLogicalProcessorCount - 1
ist. - DetectCheckboxes – Erkennt die verfügbaren Kontrollkästchen aus dem Dokument, während es digitalisiert wird. Der Standardwert ist True.
- DokumentPfad – Der Pfad zu dem Dokument, das Sie digitalisieren möchten. Dieses Feld unterstützt nur Strings und
String
-Variablen.Hinweis:- Falls ein Dokument mit genügend Daten nicht klassifiziert werden kann, legen Sie in der Aktivität Digitize Document die Eigenschaft ApplyOcrOnPdf auf Ja fest.
- Die Textextraktion aus PDF-Dateien wurde aktualisiert. Dies führt zu einem optimierten Extraktionsprozess, bei dem nativer sowie gescannter Text gleichzeitig abgerufen wird. Der Prozess wendet OCR nur auf die in der PDF-Datei identifizierten Bilder an. Diese Verbesserung ist nur verfügbar, wenn die Option ApplyOCROnPDF auf Automatisch festgelegt ist.
Hinweis: Die unterstützten Dateitypen für dieses Eigenschaftsfeld sind.png
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
und.pdf
.
Sonstiges
- Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.
Ausgabe
- DocumentObjectModel - Das Document Object Model (DOM) der Datei, gespeichert in einer
Document
-Variablen. Dieses Feld unterstützt nurDocument
-Variablen. - DokumentText – Der aus dem angegebenen Dokument extrahierte Text. Diese Variable kann anschließend in der Aktivität Present Validation Station verwendet werden. Dieses Feld unterstützt nur
String
-Variablen.Hinweis: Ab UiPath.IntelligentOCR.Activities-Paket v6.3.0-preview verfügt die Aktivität Digitize Document über ein standardmäßig vorab ausgewähltes OCR-Modul, das UiPath® Document OCR-Modul.
Beide Ausgabevariablen, die als Abhängigkeiten gekoppelt sind, können bei der Dokumentverarbeitung im gesamten Dokumentverarbeitungsframework weiter verwendet werden (Klassifizierung, Datenextraktion, menschliche Validierung usw.).
Wenn das UiPath.IntelligentOCR.Activities-Paket auf v5.1.0 aktualisiert wurde, dann wurde der Parameter ForceApplyOCR durch ApplyOcrOnPDF ersetzt. Hier ist die Kompatibilität zwischen den alten und neuen Parametern:
- ForceApplyOCR = True wird ersetzt durch ApplyOcrOnPDF = Yes
- ForceApplyOCR = False wird ersetzt durch ApplyOcrOnPDF = Auto
- ForceApplyOCR = Empty wird ersetzt durch ApplyOcrOnPDF = Auto
- ForceApplyOCR = Ihre definierte Variable wird ersetzt durch ApplyOcrOnPDF = Auto.
Das Dokumentobjektmodell wird in einem proprietären Objekt erfasst. Weitere Informationen finden Sie unter Document-Klasse .
- Damit ein Bild erfolgreich digitalisiert/verarbeitet werden kann, müssen seine Breite und Höhe zwischen 50 und 10.000 Pixeln liegen. Jedes Bild unter oder über diesem Bereich wird mit einer Ausnahmemeldung abgelehnt. Ein Bild, das mit den zuvor genannten Abmessungen validiert wurde und eine Gesamtgröße von über 14 MP aufweist, muss auf 14 MP verkleinert werden, während das Seitenverhältnis (Verhältnis Breite/Höhe) beibehalten wird.
- Die besten Ergebnisse werden erzielt, indem der Versatzwinkel zwischen +/- 20 Grad gehalten wird.
Unter Manuelle Validierung für Digitize Documents erfahren Sie, wie die Aktivität Digitize Document in einem Beispiel verwendet wird, das mehrere Aktivitäten enthält.