- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding-Prozess – Studio-Vorlage
- Document Understanding
- Versionshinweise
- About the Document Understanding activity package
- Projektkompatibilität
- Dokumentdaten
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- About the IntelligentOCR activity package
- Projektkompatibilität
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- Present Classification Station
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
About the IntelligentOCR activity package
UiPath.IntelligentOCR.Activities contains the infrastructure for enabling document processing flows using a complete, open, extensible approach.
Entfernte Version |
Empfohlene Version |
---|---|
4.3.0-Vorschau | 4.4.0-Vorschau |
4.5.2 |
2.1.0 | 2.2.0 | 2.3.0 |
4.0.1 |
1.4.0 | 1.5.0 | 1.6.0 | 1.6.1 | 2.0.0 | 2.0.1 |
2.0.2 |
1.2.0 | 1.2.1 | 1.3.0 |
1.3.2 |
- Starting with the v6.19.0 release, when installing the UiPath.IntelligentOCR.Activities package in a project, the UiPath.DocumentUnderstanding.ML.Activities package is automatically installed as well and you do not need to install it separately.
- If you are using UiPath® Studio 2023.4.4 or earlier, make sure to install the latest version of Windows .NET 6.0 Desktop Runtime.
Updating the UiPath.IntelligentOCR.Activities also requires an update for the UiPath.UIAutomation.Activities package and for UiPath.OCR.Activities package if included in the project.
UiPath.IntelligentOCR.Activities and UiPath.DocumentUnderstanding.Activities should not be used together in the same project. The UiPath.IntelligentOCR.Activities package should be used for Windows (or Legacy) workflows, while the UiPath.DocumentUnderstanding.Activities package should be used for Cross-platform workflows.
This section shows the multiple functionalities of the Intelligent.OCR package.
Dies können Sie mit der Aktivität Digitize Document erreichen. Dadurch wird der Text aus einer PDF-Datei oder einem Bild abgerufen, und zwar nur bei Bedarfmit der OCR-Engine Ihrer Wahl.
- Während die Dokumente nacheinander verarbeitet werden, durchlaufen sie den Digitalisierungsprozess. Der Unterschied bei nicht digitalen (gescannten) Dokumenten besteht darin, dass Sie das OCR-Modul Ihrer Wahl anwenden müssen. Die Ausgaben dieses Schritts sind das Document Object Model und eine String-Variable, die den gesamten Dokumenttext enthält und an die nächsten Schritte übergeben wird.
Dies erreichen Sie mit der Aktivität Dokument klassifizieren ( Classify Document ). Auf diese Weise kann mithilfe eines Klassifizierungsalgorithmus identifiziert werden, um welchen Dokumenttyp es sich bei einer Datei handelt.
Nach der Digitalisierung wird das Dokument klassifiziert. Wenn Sie mit mehreren Dokumenttypen im selben Projekt arbeiten, müssen Sie zum ordnungsgemäßen Extrahieren von Daten wissen, mit welchem Dokumenttyp Sie arbeiten. Wichtig ist, dass Sie mehrere Klassifizierer im selben Scope verwenden, die Klassifizierer konfigurieren und später im Framework trainieren können. Die Klassifizierungsergebnisse helfen bei der Anwendung der richtigen Strategie bei der Extraktion.
The following list shows the available classifiers:
- Die Aktivität Keyword Based Classifier ist der erste Klassifizierer dieser Art und zielt auf die Klassifizierung von Dokumenten mit Titel ab.
- Die Aktivität Intelligent Keyword Classifier kann Dateien nicht nur klassifizieren, sondern auch „aufteilen“, die mehrere Dokumenttypen enthalten.
- The Machine Learning Classifier activity can classify your files using a powerful ML Model, that can you can train according to your needs.
- The Generative Classifier activity allows you to classify documents using generative models.
Dies können Sie mit der Attended-Aktivität Present Classification Station erreichen, die eine Benutzeroberfläche für die Dokumentverarbeitung zur Validierung und Korrektur automatischer Klassifizierungsausgaben bietet.
- Insbesondere für Anwendungsfälle, bei denen eine Dateiaufteilung involviert ist, wird dringend empfohlen, den Validierungsschritt der menschlichen Klassifizierung zu verwenden, um sicherzustellen, dass die nachgelagerte Verarbeitung für die Datenextraktion ordnungsgemäß funktioniert.
- Eine Alternative zur Attended-Aktivität sind Workflows mit langer Ausführungszeit, die die Zusammenarbeit zwischen Mensch und Roboter optimal ermöglichen. Die Aktivitäten Create Document Classification Actions und Wait for Document Classification Actions and Resume aktivieren dieses Szenario.
Dies können Sie mit der Aktivität Train Classifiers Scope erreichen. Dadurch kann die Feedback-Schleife zu jedem lernfähigen Klassifizierungsalgorithmus geschlossen werden. Ziehen Sie Ihre Klassifizierertrainer innerhalb dieser Scope-Aktivität und aktivieren Sie sie mit dem Assistenten Klassifizierer konfigurieren , um sicherzustellen, dass die von Menschen über die Klassifizierungsstation oder Validierungsstation validierten Informationen von Ihren Klassifizierern verwendet werden, um ihre eigene Leistung zu verbessern.
Die Klassifizierung ist so effizient wie die verwendeten Klassifizierer. Wenn ein Dokument nicht ordnungsgemäß klassifiziert wurde, war es den aktiven Klassifizierern unbekannt. Das Framework bietet die Möglichkeit, die Klassifizierer zu trainieren, um die Erkennung der Dokumentklassen zu verbessern.
The following is a list of the available classifier trainers:
- Der Keyword Based Classifier Trainer ist die Traineraktivität gekoppelt mit dem Keyword Based Classifier.
- Der Intelligent Keyword Classifier Trainer aktiviert die Feedback-Schleife für den Intelligent Keyword Classifier.
- The Machine Learning Classifier Trainer is the trainer activity paired with the Machine Learning Classifier.
Sie können dies mit der Aktivität Data Extraction Scope erreichen. Dies ermöglicht die Verwendung eines beliebigen Datenextraktionsalgorithmus zum Identifizieren verschiedener Felder in einem klassifizierten Dokument.
Bei der Extraktion werden nur die Daten abgerufen, an denen Sie interessiert sind, aus einem bestimmten Dokumenttyp. Das Extrahieren bestimmter Daten aus einem fünfseitigen Dokument ist beispielsweise ziemlich mühsam, wenn Sie dies mit Zeichenfolgenmanipulation tun möchten. In diesem Framework können Sie verschiedene Extraktoren für die verschiedenen Dokumentstrukturen im selben Datenextraktionsumfang verwenden. Die Extraktionsergebnisse werden zur Validierung weitergereicht.
The following is a list of available extractors:
- Der RegEx Based Extractor ist ein grundlegender Datenextraktor, der reguläre Ausdrücke anwendet, um die besten Kandidaten für ein bestimmtes Feld zu identifizieren.
- Der Form Extractor verwendet vordefinierte Vorlagen, um die Verarbeitung strukturierter Dokumente mit fester Form zu ermöglichen.
- The Machine Learning Extractor leverages the power of AI and Machine Learning to identify information in structured or semi-structured documents by either using one of UiPath®'s public data extraction services or by calling custom trained Machine Learning models that you can build and host in AI Center. This activity is part of the UiPath.DocumentUnderstanding.ML.Activities package.
- The Generative Extractor allows you to extract documents using generative models. This activity is part of the UiPath.DocumentUnderstanding.ML.Activities package.
Dies können Sie mit der Attended-Aktivität Present Validation Station erreichen, die eine Benutzeroberfläche für die Dokumentverarbeitung zur Datenvalidierung und -korrektur darstellt.
- Die extrahierten Daten können von einem menschlichen Benutzer über die Validation Stationvalidiert werden. Eine bewährte Methode besteht darin, eine Logik um die Entscheidung herum aufzubauen, einen menschlichen Validierungsschritt hinzuzufügen oder nicht, mit Regeln, die vom spezifischen Anwendungsfall abhängen, der implementiert werden soll. Validierungsergebnisse können dann exportiert und in weiteren Automatisierungsaktivitäten verwendet werden.
- Sie können auch die menschliche Validierung über Workflows mit langer Ausführungszeit aktivieren und so die Zusammenarbeit zwischen Mensch und Roboter optimieren. Die Aktionen Create Document Actions und Wait for Document Validation Actions and Resume
.
Dies können Sie mit der Aktivität Train Extractors Scope erreichen. Dadurch kann die Feedback-Schleife zu jedem lernfähigen Datenextraktionsalgorithmus geschlossen werden. Ziehen Sie Ihre Extraktortrainer per Drag-and-drop in diese Scope-Aktivität und aktivieren Sie sie mit dem Assistenten Extraktoren konfigurieren , um sicherzustellen, dass die von Menschen über die Validation Station validierten Informationen von Ihren Extraktoren verwendet werden, um ihre eigene Leistung zu verbessern.
- Die Extraktion ist ebenso effizient wie die verwendeten Extraktoren. Wenn Feldwerte nicht ordnungsgemäß extrahiert wurden, bedeutet dies, dass sie den aktiven Extraktoren unbekannt waren. Das Framework bietet die Möglichkeit, die Extraktoren zu trainieren, um die Erkennung von Feldwerten zu verbessern.
- Der Machine Learning Extractor Trainer schließt die Feedback-Schleife für die ML-basierte Datenextraktion, indem er die Daten sammelt, die für das erneute Training eines im AI Center gehosteten Machine Learning-Modells erforderlich sind. Diese Aktivität ist eine begleitende Aktivität von Machine Learning Extractor und ist Teil des UiPath.DocumentUnderstanding.ML.Activities -Pakets.
Sie können dies mit der Aktivität Export Extraction Results erreichen. Auf diese Weise können Sie die komplexe Struktur der extrahierten Daten in ein einfaches DataSet (Sammlung von DataTables) exportieren.
- Sobald Sie über Ihre validierten Informationen verfügen, können Sie sie so verwenden, wie sie sind, oder sie in einem DataTable-Format speichern, das sehr einfach in eine Excel-Datei konvertiert werden kann.
Das UiPath.IntelligentOCR.Activities -Paket ist mit jeder benutzerdefinierten Klassifizierungs- oder Datenextraktionsaktivität kompatibel, die auf dem öffentlichen UiPath.DocumentProcessing.Contracts -Paket basiert. Er bietet volle Flexibilität bei der Erstellung Ihres eigenen Algorithmus speziell für Ihren Anwendungsfall und der Integration in jede Drittanbieterlösung zur Dokumentklassifizierung und Datenextraktion.
Die folgenden Versionen des Pakets wurden aus dem offiziellen Feed entfernt. Bei Problemen wenden Sie sich bitte an unsere Supportteams.
- Wichtig
- Version compatibility
- Supported formats
- Support for C# project language
- Funktionen
- Digitalisieren von Dokumenten
- Dokumente klassifizieren
- Automatische Klassifizierung validieren
- Klassifizierer trainieren
- Extrahieren von Daten aus Dokumenten
- Ergebnisse der automatischen Datenextraktion validieren
- Zugextraktoren
- Extrahierte Informationen exportieren