- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Versionshinweise
- Über das Document Understanding-Aktivitätspaket
- Projektkompatibilität
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Konfigurieren der Authentifizierung
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Document Understanding-Projektklassifizierer
- Intelligenter Schlüsselwortklassifizierer
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Document Understanding-Projektextraktor
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Dokumentbereich klassifizieren (Classify Document Scope)
UiPath.IntelligentOCR.Activities.DocumentClassification.ClassifyDocumentScope
Stellt einen Bereich für Klassifizierungsaktivitäten zur Verfügung, der alle erforderlichen Dateien zum Durchführen der Dokumentklassifizierung enthält. Akzeptiert mindestens einen Classifier und Unterbrechungszeichen dazwischen und gewährleistet, dass alle Parameter an die untergeordneten Klassifizierungsaktivitäten weitergeleitet werden.
Eigenschaften-Panel
Allgemein
- AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.
Eingabe
- Dokumentobjektmodell (DocumentObjectModel ) – Das Dokumentobjektmodell (DOM), gegen das Sie das Dokument validieren möchten. Dieses Modell ist in einer
Document
-Variablen gespeichert und kann mit der Aktivität Digitize Document abgerufen werden. Unter Digitize Document erfahren Sie, wie Sie die Aktivität verwenden. Dieses Feld unterstützt nurDocument
-Variablen. - Dokumentpfad (DocumentPath) - Der Pfad zu dem Dokument, das Sie validieren möchten. Dieses Feld unterstützt nur Strings und
String
-Variablen.Hinweis: Die unterstützten Dateitypen für dieses Eigenschaftsfeld sind.png
,.gif
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
,.bmp
und.pdf
. - Dokumenttext – Der Text des Dokuments, gespeichert in einer
String
-Variablen. Sie können diesen Wert mit der Aktivität Dokument digitalisieren ( Digitize Document ) abrufen. Unter Digitize Document erfahren Sie, wie Sie diese Aktivität verwenden. Dieses Feld unterstützt nur Strings undString
-Variablen. - Taxonomie (Taxonomy) - Die Taxonomie, gegen die das Dokument verarbeitet werden soll, gespeichert in einer
DocumentTaxonomy
-Variablen. Dieses Feld unterstützt nurDocumentTaxonomy
-Variablen.
Sonstiges
- Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.
Ausgabe
- Klassifizierungsergebnisse (ClassificationResults) - Die Ergebnisse der Ausführung der Klassifizierungsdateien, gespeichert in einem
IReadOnlyList<ClassificationResult>
-Objekt. Dieses Feld unterstützt nurIReadOnlyList<ClassificationResult>
-Variablen.
Das Objekt ClassificationResult enthält die folgenden Informationen:
- Dokumenttyp-ID (DocumentTypeId) - Die ID, die dem Dokumenttyp entspricht, der mit der Taxonomie übereinstimmt.
- Dokument-ID (DocumentId) - Der Dateiname des bearbeiteten Dokuments.
- Inhaltstyp (ContentType) - Der im bearbeiteten Dokument enthaltene Inhaltstyp.
- Konfidenz ( Confidence ) - Klassifizierungskonfidenz, angezeigt als numerischer Wert zwischen
0
und1
. - OCR-Konfidenz ( OcrConfidence) - OCR-Konfidenz der Zeichen, die Teil der angegebenen Referenz sind, angezeigt als numerischer Wert zwischen
0
und1
. - Referenz (Reference) - Nachweis der Klassifizierung, sowohl in der Textversion des Dokuments (durch
TextStartIndex
undTextLength
), und im Dokumentobjektmodell (Document Object Model) (durchTokens
und die hervorgehobenen Felder für jede Seite, aus welcher der Nachweis ausgewählt wird). - Dokumentgrenzen (DocumentBounds) - Informationen darüber, zu welchem Teil des Dokuments die Klassifizierung gehört, mit
StartPage
(Int32
, 0-basiert),PageCount
(Int32
),TextStartIndex
(Int32
, 0-basiert),TextLength
(Int32
). -
Classifier-Name (ClassifierName) - Wird automatisch von der Aktivität Dokumentbereich klassifizieren (Classify Document Scope) mit dem Anzeigenamen des Classifiers befüllt, der das aktuelle Klassifizierungsergebnis (ClassificationResult) meldet.
Hinweis: InClassificationResults
sind alle Inhalte in absteigender Reihenfolge nach Konfidenz-Score sortiert. Dies bedeutet, dass der oberste den höchsten Konfidenzwert aufweist.
Mit dem Assistenten zum Konfigurieren von Klassifizierern können Sie konfigurieren, wie die Klassifizierer auf die einzelnen Dokumenttypen angewendet werden und welche Ergebnisse akzeptabel sind.
Führen Sie die folgenden Schritte aus, um den Assistenten zu konfigurieren:
- Fügen Sie Ihrem Workflow eine Classify Document Scope-Aktivität hinzu.
- Fügen Sie eine oder mehrere Klassifiziereraktivitäten innerhalb der Aktivität Classify Document Scope hinzu.
- Geben Sie Ihren Klassifizierern selbsterklärende Namen.
- Ordnen Sie die Klassifizierer im Scope von links nach rechts in der Reihenfolge der Akzeptanzpriorität an.
- Konfigurieren Sie Ihre Klassifizierer, indem Sie Klassifizierer konfigurieren auswählen.
Sie können nun den AssistentensehenAbbildung 1. Übersicht über den Assistenten zum Konfigurieren von Klassifizierern
- Aktivieren Sie die Kontrollkästchen für die Klassifizierer- und Dokumenttyppaare, die Sie aktivieren möchten. Es kann in einem der folgenden Szenarien vorkommen, dass ein Dokumenttyp für einen bestimmten Klassifizierer deaktiviert bleibt:
- Der Klassifizierer ist nicht trainiert oder konfiguriert, um den bestimmten Dokumenttyp zu identifizieren
- Der Klassifizierer funktioniert für den spezifischen Dokumenttyp nicht wie erwartet, und wenn solche Ergebnisse vom Klassifizierer zurückgegeben werden, sollten sie ignoriert werden.
- Wenn ein Klassifizierer über eine eigene Taxonomie verfügt, verwenden Sie die Textfelder neben jedem Kontrollkästchen, um die richtige Taxonomiezuordnung zwischen den beiden Taxonomien festzulegen. Wenn Beispielsweise Classifier1 so konfiguriert wurde, dass Klasse
INV
für eine Rechnung zurückgegeben wird, Ihre Projekttaxonomie jedoch einen Dokumenttyp namens „Incoming Invoice“ enthält, dann sollten das Feld für „Incoming Invoice“ und dieser bestimmte Classifier1 die ZeichenfolgeINV
enthalten. - Legen Sie für jeden Klassifizierer in Classify Document Scope einen Mindestkonfidenz-Schwellenwert von 0 bis 100 fest. Klassifizierungsergebnisse mit einer Konfidenz, die niedriger als dieser Schwellenwert ist, werden nicht in der Ausgabe der Aktivität Classify Document Scope gespeichert.
Tipp: Die meisten Dokumenttypen generieren eine Vorhersage mit einem Konfidenzniveau. Das Festlegen dieser Eigenschaft verhindert falsch positive Ergebnisse, indem nur die Vorhersagen mit einem Konfidenzniveau über dem Schwellenwert berücksichtigt werden. Sie können ein optimales Konfidenzniveau ermitteln, indem Sie verschiedene Dokumente in Ihrem Workflow testen, die Ergebnisse z. B. in einer Excel-Tabelle aufzeichnen und dann analysieren, welcher Schwellenwert am genauesten ist. Wenden Sie den Schwellenwert an, indem Sie die Eigenschaft Mindestkonfidenz in Ihrem aktuellen Scope anpassen.
- Wählen Sie Speichern aus, sobald alle Klassifizierer konfiguriert sind.
Abbildung 2. Der Assistent „Klassifizierer konfigurieren“ ist so konfiguriert, dass für jeden Dokumenttyp ein anderer Klassifizierer verwendet wird