- Überblick
- Verträge zur Dokumentverarbeitung
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding-Prozess – Studio-Vorlage
- Document Understanding-Aktivitäten
- Über das Document Understanding-Paket
- Projektkompatibilität
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- Present Classification Station
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Intelligenter Schlüsselwortklassifizierer
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
Mit dieser Aktivität kann jeder Benutzer Dokumentpakete klassifizieren und in einzelne Dokumenttypen aufteilen.
Kann nur zusammen mit der Aktivität Classify Document Scope verwendet werden.
Allgemein
- AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.
Eingabe
- ApiKey – Gibt den API-Schlüssel des Kontos an. Das Feld API-Schlüssel wird automatisch vorab ausgefüllt, wenn es in den lokalen Projekteinstellungen oder im Document Understanding-Framework definiert ist.
- Endpunkt – Die URL zum UiPath-Server. Standardmäßig ist der Endpunkt
https://du.uipath.com/svc/intelligentkeywords
. Weitere Informationen finden Sie unter Document Understanding – Öffentliche Endpunkte. - Lerndateipfad (LearningFilePath) - Der vollständige Pfad der Datei, welche die Classifier-Daten enthält. Dieses Feld unterstützt nur Strings und String-Variablen.
- Lerndateipfad (LearningFilePath) - Der vollständige Pfad der Datei, welche die Classifier-Daten enthält. Dieses Feld unterstützt nur Strings und
String
-Variablen.Hinweis:Es kann jeweils nur einer der oben genannten Parameter festgelegt werden. Sie können entweder die LearningData -Zeichenfolge oder die LearningFilePath -Zeichenfolge verwenden.
Der LearningFilePath gibt die Speicherorte an, von denen die Klassifiziererdaten abgerufen werden sollen.
Die LearningData enthalten die tatsächlichen Informationen dieses Klassifizierers.
- Dokumente senden – Senden von Dokumenten für besseren Support, Fehlerbehebung und Leistungsverbesserungen.
Sonstiges
- Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.
Hinweis: Die bewährte Methode besteht darin, eine leere
.json
-Datei an diesem Speicherort zu erstellen und dann ihren Namen im Feld LearningFilePath zu verwenden.
Aufteilung
- PerformDocumentSplitting – Wenn diese Option nicht aktiviert ist, führt das Modell keine Aufteilung der Dokumente durch, sondern nur eine Klassifizierung.
- UsePageNumbers – Wenn diese Option aktiviert ist, verwendet der Modus die Seitenzahlfunktion, um zu entscheiden, wo Dokumente geteilt werden sollen. Verwenden Sie diese Option, wenn die Seitenzahlen das Aufteilungsergebnis verbessern könnten.
Greifen Sie auf den Assistenten zum Verwalten von Lernen zu, um die Aktivität Intelligent Keyword Classifier zu konfigurieren. Derselbe Assistent kann zum Überprüfen von Daten verwendet werden, die während der Dokumentklassifizierungs-Trainingsphase gesammelt wurden, indem derselbe Assistent mit einem aktualisierten Lerndateipfad geöffnet wird.
Mit diesem Assistenten können Sie die Trainingsdaten konfigurieren und verwalten, die von der Aktivität Intelligent Keyword Classifier zum Identifizieren des Dokumenttyps und zum Klassifizieren der Dokumente verwendet werden. Er wurde für die Bearbeitung eines Dateipfads entwickelt. Wenn stattdessen eine Lerndaten-Option mit einer Variablen verwendet wird, werden Sie gefragt, ob Sie entweder einen bestimmten Dateipfad bearbeiten oder diesen Vorgang abbrechen möchten.
- Fügen Sie Ihrem Workflow eine Aktivität vom Typ Intelligent Keyword Classifier/Intelligent Keyword Classifier Trainer hinzu.
- Konfigurieren Sie Ihre Intelligent Keyword Classifier-Aktivität, indem Sie den Pfad einer
.json
-Datei hinzufügen.- Wenn kein Pfad angegeben ist und die Option Lernfunktion verwalten geklickt wird, wird ein Popup angezeigt, in dem nach einer Eingabe des Lerndateipfads gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.
- Eine Variable kann anstelle einer
.json
-Datei hinzugefügt werden, aber da der Assistent das Lernmuster nicht auf eine LearningData-Variable anwenden kann, wird nach einem bestimmten Dateipfad gefragt, der bearbeitet werden kann.
-
Klicken Sie auf die Option Lernfunktion verwalten.
- Das Fenster Assistent wird geöffnet.
- Das Fenster Assistent wird geöffnet.
- Wenn kein Pfad angegeben ist und die Option „Lernfunktion verwalten“ geklickt wird, wird ein Popup angezeigt, in dem nach einem Lerndateipfad gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.
.json
-Datei verfügbar ist, können Sie den Namen einer neuen .json
-Datei direkt in die Aktivität einfügen. Die .json
-Datei wird dann automatisch im angegebenen Ordner erstellt.
Der folgende Screenshot zeigt einen Dokumenttyp, der trainiert wurde, einen, der nicht trainiert wurde, und einen, der trainiert und aufgerufen wurde, um angezeigt oder gelöscht zu werden.
Für Dokumenttypen, die noch nicht trainiert wurden, kann das Training zum Zeitpunkt der Erstellung mit der Option Training starten durchgeführt werden. Dokumenttypen, die bereits trainiert wurden, können Sie entweder löschen, um von vorne zu beginnen, indem Sie diese Option verwenden, oder mit der Bearbeitungsoption ein zusätzliches Training durchführen (zusätzlich zu dem bereits vorhandenen).
Sobald ein neues Training gestartet wurde, wird ein neuer Bildschirm angezeigt, auf dem nach den Trainingsdateien und dem OCR-Modul gefragt wird, die verwendet werden sollen. Die standardmäßige OCR-Engine ist UiPath Document OCR.
Jedes OCR-Modul verfügt über eine eigene Reihe benutzerdefinierter Optionen.
Die folgenden OCR-Module unterstützen keine gedrehten Dokumente und sollten nicht zum Verarbeiten solcher Dokumente verwendet werden:
- Microsoft OCR
- Tesseract OCR
Die Option OCR auf PDF anwenden legt fest, ob der OCR-Prozess auf PDF-Dokumente angewendet werden soll oder nicht. In der Dropdownliste sind drei Optionen verfügbar: True, Falseund Auto.
Bei True wird die OCR auf allen PDF-Seiten des Dokuments angewendet. Wenn auf False festgelegt, wird nur digital eingegebener Text extrahiert. Bei dem Standardwert Automatisch wird ermittelt, ob das Dokument abhängig vom Eingabedokument den OCR-Algorithmus anwenden muss.
Wenn das Paket UiPath.IntelligentOCR.Activities auf v5.1.0 aktualisiert wurde, dann wurde der Parameter ForceApplyOCR durch ApplyOcrOnPDF ersetzt. Hier ist die Kompatibilität zwischen den alten und neuen Parametern:
• ForceApplyOCR = True wird ersetzt durch ApplyOcrOnPDF = Ja
• ForceApplyOCR = False wird ersetzt durch ApplyOcrOnPDF = Auto
• ForceApplyOCR = Empty wird ersetzt durch ApplyOcrOnPDF = Auto
• ForceApplyOCR = <user-defined variable> wird ersetzt durch ApplyOcrOnPDF = Auto
Nur Trainingsdaten von trainierten Dokumenttypen dürfen exportiert werden. Dokumenttypen, die nicht trainiert wurden, können nicht ausgewählt werden.
Exportieren von Trainingsdaten
Sie können Trainingsdaten wie folgt exportieren:
- Wählen Sie trainierte Dokumenttypen aus.
- Klicken Sie auf die Schaltfläche Exportieren.
- Wenn Sie nicht gespeicherte Änderungen haben, wird die folgende Meldung angezeigt.
- Klicken Sie auf Ja.
- Speichern Sie das Trainingsdatenarchiv mit dem gewünschten Namen.
- Es wird eine Meldung angezeigt, die angibt, wie viele Dokumenttypt-Trainingsdatensätze exportiert wurden. Zum Beispiel:
- Klicken Sie auf OK, um zum Hauptbildschirm des Assistenten zurückzukehren.
Importieren von Trainingsdaten
Sie können Trainingsdaten wie folgt importieren:
- Klicken Sie auf die Schaltfläche Importieren.
- Wählen Sie das Trainingsdatenarchiv aus und klicken Sie auf Öffnen.
- Wählen Sie die gewünschten Dokumenttypen aus.
- Klicken Sie auf die Schaltfläche Importieren.
- Die Trainingsdaten werden importiert.
In der folgenden Tabelle ist jede Meldung veranschaulicht, die beim Importieren von Trainingsdaten angezeigt wird:
Import Type |
Angezeigte Meldung |
---|---|
Neuer Dokumenttyp und Wortvektoren |
Dieser Dokumenttyp wird der Taxonomie hinzugefügt. |
Neuer Wortvektor (zuvor war keiner definiert) |
Keine Angabe |
Identischer Dokumenttyp und Wortvektor |
Der Wortvektor für diesen Dokumenttyp wird überschrieben. |
Document Understanding-Integration
Die Aktivität Intelligent Keyword Classifier ist Teil der Document Understanding-Lösungen. Weitere Informationen finden Sie im Document Understanding-Leitfaden.