- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- FieldValueDetails Class
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- BasicDataPoint-Klasse – Vorschau
- ExtractionResultHandler-Klasse – Vorschau
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Versionshinweise
- Über das Document Understanding-Aktivitätspaket
- Projektkompatibilität
- Konfigurieren einer externen Verbindung
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Document Understanding-Projektklassifizierer
- Intelligenter Schlüsselwortklassifizierer
- Create Document Validation Action
- Create Document Validation Artifacts
- Artefakte der Dokumentvalidierung abrufen
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Document Understanding-Projektextraktor
- Document Understanding Project Extractor Trainer
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Dokument zensieren
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- Machine Learning Extractor
- Machine Learning Extractor Trainer
- Machine Learning Classifier
- Machine Learning Classifier Trainer
- Generativer Klassifizierer
- Generativer Extraktor
- Konfigurieren der Authentifizierung
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Document Understanding-Aktivitäten
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
Beschreibung
Diese Aktivität ermöglicht es jedem Benutzer, Dokumentpakete zu klassifizieren und in einzelne Dokumenttypen aufzuteilen. Sie können es nur zusammen mit der Aktivität Classify Document Scope verwenden.
Projektkompatibilität
Windows-Legacy | Windows
Konfiguration
Designer-Panel
-
LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and
Stringvariables.Hinweis:Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.
The LearningFilePath specifies the locations from where to retrieve the classifier data.
The LearningData contains the actual information of that classifier.
-
Endpunkt – Die URL zum UiPath®-Server. Standardmäßig ist der Endpunkt
https://du.uipath.com/svc/intelligentkeywords. Weitere Informationen zu Endpunkten finden Sie unter Document Understanding – Öffentliche Endpunkte. -
ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
Eigenschaften-Panel
Allgemein
- AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.
Eingabe
-
ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
-
Endpunkt – Die URL zum UiPath®-Server. Standardmäßig ist der Endpunkt
https://du.uipath.com/svc/intelligentkeywords. Weitere Informationen zu Endpunkten finden Sie unter Document Understanding – Öffentliche Endpunkte. -
LearningData - The string containing the serialized classifier data. This field supports only strings and
Stringvariables. -
LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and
Stringvariables.Hinweis:Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.
The LearningFilePath specifies the locations from where to retrieve the classifier data.
The LearningData contains the actual information of that classifier.
-
Send documents – Wenn diese Option aktiviert ist, kann UiPath® das referenzierte Dokument speichern, um die Algorithmusleistung zu verbessern. Wenn Sie diese Funktion deaktivieren, kann UiPath® die Dokumente nicht speichern. Unabhängig von dieser Einstellung bleibt die Funktion des Algorithmus unverändert.
Sonstiges
- Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.
Hinweis:
The best practice is to create an empty
.jsonfile at that location, then use its name in the LearningFilePath field.
Aufteilung
- PerformDocumentSplitting – Wenn diese Option nicht aktiviert ist, führt das Modell keine Aufteilung der Dokumente durch, sondern nur eine Klassifizierung.
- UsePageNumbers – Wenn diese Option aktiviert ist, verwendet der Modus die Seitenzahlfunktion, um zu entscheiden, wo Dokumente geteilt werden sollen. Verwenden Sie diese Option, wenn die Seitenzahlen das Aufteilungsergebnis verbessern könnten.
Verwenden Sie für eine optimierte Aufteilungsleistung Version 6.9.0 oder höher.
Verwenden des Assistenten zum Verwalten von Lerninhalten
Access the Manage Learning wizard to configure the Intelligent Keyword Classifier activity. The same wizard can be used for reviewing data collected during the document classification training phase, by opening the same wizard with an updated learning file path.
This wizard allows you to configure and manage the training data used by the Intelligent Keyword Classifier activity for identifying the document type and classifying the documents. It was created to suit the need for editing a file path. If a Learning Data option with a variable is used instead, then you are asked if you either want to edit a specific file path or to abort this operation.
Der Assistent Lernfunktion verwalten funktioniert nur, wenn die Aktivität mit einer Lerndateipfad-Zeichenfolge konfiguriert ist. Dies funktioniert nicht mit einem als Variableneingabe festgelegten Lerndateipfad oder mit einer LearningData-Zeichenfolgeneingabe.
-
Fügen Sie Ihrem Workflow eine Aktivität vom Typ Intelligent Keyword Classifier oder Intelligent Keyword Classifier Trainer hinzu.
-
Konfigurieren Sie Ihre Intelligent Keyword Classifier-Aktivität, indem Sie den Pfad einer
.json-Datei hinzufügen. Berücksichtigen Sie beim Konfigurieren des Klassifizierers die folgenden Informationen:- Wenn kein Pfad angegeben ist und die Option Lernfunktion verwalten ausgewählt wird, wird ein Popup angezeigt, in dem nach einer Eingabe des Lerndateipfads gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.
- Eine Variable kann anstelle einer
.json-Datei hinzugefügt werden, aber da der Assistent das Lernmuster nicht auf eine LearningData-Variable anwenden kann, wird nach einem bestimmten Dateipfad gefragt, der bearbeitet werden kann.
-
Wählen Sie Lernfunktion verwalten aus.
Der Intelligent Keyword Classifier- Assistent wird geöffnet.
Abbildung 1. Übersicht über den Abschnitt „Lernfunktion verwalten“ des Intelligent Keyword Classifier-Assistenten
-
Wenn kein Pfad angegeben ist und die Option Lernfunktion verwalten ausgewählt wird, wird ein Popup angezeigt, in dem nach einem LernDateiPfad gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.
Abbildung 2. Der Warnhinweis wird angezeigt, wenn kein Pfad bereitgestellt wurde und die Option Lernfunktion verwalten ausgewählt wird
Hinweis:Auch wenn keine Datei vom Typ
.jsonverfügbar ist, können Sie den Namen einer neuen.json-Datei direkt in die Aktivität einfügen. Die.json-Datei wird dann automatisch im angegebenen Ordner erstellt.
Im Assistenten Lernfunktion verwalten können Sie anhand der folgenden daneben angezeigten Beschriftungen sehen, ob ein Dokumenttyp trainiert wurde oder nicht: Auf X-Dateien trainiert oder Training starten. Der folgende Screenshot zeigt einen Dokumenttyp, der trainiert wurde, einen, der nicht trainiert wurde, und einen, der trainiert und ausgewählt wurde, damit er angezeigt oder gelöscht werden kann.
Abbildung 3. Dokumenttypen und ihr Trainingsstatus im Abschnitt „Lernfunktion verwalten“ des Intelligent Keyword Classifier
Trainingsdaten
For document types that have not been trained yet, design-time training can be performed using the Start Training option. For document types that already have some training, you can either delete it to start over, by using the
remove option, or perform extra training (cumulative to the already existing one) using the edit
option.
Zu Verwendende Trainingsdateien müssen eine einzelne Dokumenttypinstanz pro Datei enthalten. Führen Sie kein Entwurfszeittraining für Dateien aus, die zwei oder mehr Dokumenttypen enthalten, da das fehlerhafte Trainingsdaten ergibt.
Sobald ein neues Training gestartet wurde, wird ein neuer Bildschirm angezeigt, auf dem nach den Trainingsdateien und dem OCR-Modul gefragt wird, die verwendet werden sollen. Das standardmäßige OCR-Modul ist UiPath® Document OCR. Jedes OCR-Modul verfügt über eine eigene Reihe benutzerdefinierter Optionen.
Abbildung 4. Der Assistent, der nach der Auswahl der Option „Training starten“ angezeigt wird
Die folgenden OCR-Module unterstützen keine gedrehten Dokumente und sollten nicht zum Verarbeiten solcher Dokumente verwendet werden:
- Microsoft OCR
- Tesseract OCR
Die Option OCR auf PDF-Dateien anwenden legt fest, ob der OCR-Prozess auf PDF-Dokumente angewendet werden soll oder nicht. In der Dropdown-Liste sind drei Optionen verfügbar:
- True: Bei True wird die OCR auf alle PDF-Seiten des Dokuments angewendet.
- False: Wenn auf False festgelegt, wird nur digital eingegebener Text extrahiert.
- Auto: Beim Standardwert Auto wird ermittelt, ob das Dokument abhängig vom Eingabedokument den OCR-Algorithmus anwenden muss.
Wenn das UiPath.IntelligentOCR.Activities-Paket auf v5.1.0 aktualisiert wurde, dann wurde der Parameter ForceApplyOCR durch ApplyOcrOnPDF ersetzt. Hier ist die Kompatibilität zwischen den alten und neuen Parametern:
- ForceApplyOCR = True wird ersetzt durch ApplyOcrOnPDF = Yes
- ForceApplyOCR = False wird ersetzt durch ApplyOcrOnPDF = Auto
- ForceApplyOCR = „Empty“ wird ersetzt durch ApplyOcrOnPDF = Auto
- ForceApplyOCR = Ihre definierte Variable wird ersetzt durch ApplyOcrOnPDF = Auto
Exportieren von Trainingsdaten
Nur Trainingsdaten von trainierten Dokumenttypen dürfen exportiert werden. Dokumenttypen, die nicht trainiert wurden, können nicht ausgewählt werden.
Abbildung 5. Dokumenttypen im Intelligent Keyword Classifier, die nicht trainiert wurden, daher ist die Option „Exportieren“ nicht verfügbar
Sie können Trainingsdaten wie folgt exportieren:
-
Wählen Sie trainierte Dokumenttypen aus.
-
Wählen Sie Exportieren aus.
Wenn Sie nicht gespeicherte Änderungen haben, wird die folgende Meldung angezeigt: „Sie können nicht exportieren, während ungespeicherte Änderungen vorhanden sind. Möchten Sie vor dem Exportieren automatisch speichern?“. Wählen Sie Ja aus, um den Exportprozess fortzusetzen.
Abbildung 6. Die Meldung „Änderungen speichern“, die anzeigt, ob Sie vor dem Exportieren der Trainingsdaten ungespeicherte Änderungen haben
-
Speichern Sie das Trainingsdatenarchiv mit dem gewünschten Namen.
Es wird eine Meldung angezeigt, die angibt, wie viele Dokumenttypt-Trainingsdatensätze exportiert wurden. Beispiel: „4 Wortvektor(en) exportiert“.
Abbildung 7. Beispiel für die Meldung, die anzeigt, wie viele Dokumenttyp-Trainingsdatensätze exportiert wurden
-
Wählen Sie OK, um zum Hauptbildschirm des Assistenten zurückzukehren.
Importieren von Trainingsdaten
Sie können Trainingsdaten wie folgt importieren:
-
Wählen Sie Importieren aus.
-
Wählen Sie das Trainingsdatenarchiv aus und wählen Sie Öffnen.
-
Wählen Sie die gewünschten Dokumenttypen aus.
Abbildung 8. Ausgewählte Dokumenttypen im Abschnitt „Wortvektoren importieren“
-
Wählen Sie Importieren aus.
Die Trainingsdaten werden importiert.
Abbildung 9. Die zuvor ausgewählten Dokumenttypen für den Import werden im Abschnitt „Lernfunktion verwalten“ angezeigt
Die folgende Tabelle zeigt die Meldungen, die beim Importieren von Trainingsdaten angezeigt werden, basierend auf dem Importtyp:
Tabelle 1. Die Meldungen, die für verschiedene Importtypen angezeigt werden
| Angezeigte Meldung | |
|---|---|
| Neuer Dokumenttyp und Wortvektoren | Dieser Dokumenttyp wird der Taxonomie hinzugefügt. |
| Neuer Wortvektor (zuvor war keiner definiert) | Es wird keine Nachricht angezeigt. |
| Identischer Dokumenttyp und Wortvektor | Der Wortvektor für diesen Dokumenttyp wird überschrieben. |
Document Understanding-Integration
Die Aktivität Intelligent Keyword Classifier ist Teil der Document Understanding-Lösungen. Weitere Informationen finden Sie im Document Understanding-Leitfaden .