- Überblick
- Erste Schritte
- Aktivitäten
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
- Insights-Dashboards
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Passports – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Einschränkungen für den Datenverkehr
- OCR-Konfiguration
- Pipelines
- OCR-Dienste
- Unterstützte Sprachen
- Deep Learning
- Lizenzierung
Document Understanding-Benutzerhandbuch.
Regex Based Extractor
Der Regex Based Extractor ist das perfekte Tool für einfache Anwendungsfälle, in denen Daten für bestimmte Felder immer in einem strengen, vorhersehbaren Format und Kontext zu finden sind. Wenn Sie also über ein Feld verfügen, für das Sie einen regulären Ausdruck definieren können, der beim Abgleichen konstant gut ist, dann ist der Regex Based Extractor eine gute Wahl.
Die Aktivität enthält einen Konfigurationsassistenten, der Sie beim Definieren der regulären Ausdrücke für die Felder unterstützt, die Sie auf diese Weise für die Datenextraktion auswählen möchten.
Die Aktivität unterstützt die Extraktion von einfachen Feldern und Tabellenfeldern.
Es wird empfohlen, sich mit anderen Extraktionsmethoden zu befassen, falls eine hohe Variabilität des Kontexts und des Formats der erwarteten Werte vorliegt. In solchen Fällen könnte ein „Form Extractor“ oder ein „Machine Learning Extractor“ besser geeignet sein.
Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss vorab konfiguriert werden.
Es gibt keine speziellen Anforderungen für die Verwendung des Regex Based Extractor.
Der Regex Based Extractor verfügt über zwei Hauptkonfigurationen, die berücksichtigt werden müssen:
- der Assistent Reguläre Ausdrücke konfigurieren – mit dem Sie reguläre Ausdrücke für bestimmte Felder definieren können. Dieser Assistent stellt auch den Regex-Editor-Assistenten zur Verfügung, der Sie beim Erstellen Ihrer regulären Ausdrücke unterstützt.
- die Einstellung UseVisualAlignment – mit der Sie steuern können, ob die für einen Extraktor konfigurierten regulären Ausdrücke auf die Textausgabe der Digitalisierungskomponente oder auf eine Textversion angewendet werden sollen, in der Textzeilen visuell organisiert sind und Wörter basierend auf ihrer visuellen Ausrichtung auf Zeilen neu angeordnet werden.