- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Versionshinweise
- Über das Document Understanding-Aktivitätspaket
- Projektkompatibilität
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Konfigurieren der Authentifizierung
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Document Understanding-Projektklassifizierer
- Intelligenter Schlüsselwortklassifizierer
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Document Understanding-Projektextraktor
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Regex Based Extractor
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
Ermöglicht Ihnen das Erstellen und Verwenden eines benutzerdefinierten regulären Ausdrucks zum Extrahieren von Informationen aus einem Dokument. Diese Aktivität kann nur zusammen mit der Aktivität Data Extraction Scope verwendet werden.
set
- oder boolean
-Feldern funktionieren.
Designer-Panel
Ausdrücke konfigurieren – Öffnet den Assistenten Reguläre Ausdrücke konfigurieren.
Eigenschaften-Panel
Allgemein
- AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.
Eingabe
- Konfiguration – Gibt den Konfigurationswert für den Extraktor als
JSON
-Zeichenfolge mit Escape-Zeichen an. Verwenden Sie den Extraktionsassistenten, um die Konfiguration zu generieren. Sie können die Konfiguration im Eigenschaftenbereich als Zeichenfolge beibehalten oder sie mithilfe des Assistenten definieren und an eine Variable binden. Es wird empfohlen, das Feld „ Konfiguration “ mit dem Assistenten und nicht mit dem Panel „ Eigenschaften “ zu bearbeiten. - Timeout – Gibt den Timeout-Wert für jede Regex-Suche in Millisekunden an. Ein Timeout von
0
oder negativ wird als unendlich interpretiert. Der Standardwert ist2000
. - UseVisualAlignment - Ist diese Option ausgewählt, werden die regulären Ausdrücke auf eine anhand der visuellen Wörterzuordnung generierte Textversion angewendet (ein anhand der visuellen Wörterzuordnung generierter Text enthält durch einzelne Leerzeichen getrennte Wörter, durch einzelne Zeilenumbrüche getrennte Zeilen und durch doppelte Zeilenumbrüche getrennte Seiten). Der Standardwert ist False. Diese Option kann für komplexe Layouts verwendet werden, bei denen es für Benutzer einfacher ist, reguläre Ausdrücke basierend darauf zu schreiben, wie Wörter visuell in Zeilen organisiert sind. Alle Sätze, Absätze oder Layoutgruppen, die im Dokument anderweitig identifiziert werden, werden dabei ignoriert.
Sonstiges
- Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.
- Fügen Sie eine RegEx Based Extractor-Aktivität zu Ihrem Workflow in einer Data Extraction Scope-Aktivität hinzu.
- Konfigurieren Sie Ihre regulären Ausdrücke, indem Sie Ausdrücke konfigurieren auswählen.
Das Fenster Assistent wird geöffnet.
Abbildung 1. Übersicht über den Assistenten Reguläre Ausdrücke konfigurieren
- Erweitern Sie einen Dokumenttypeintrag, um alle definierten Felder anzuzeigen und mit dem Konfigurieren Ihrer regulären Ausdrücke zu beginnen. Dokumenttypen und ihre jeweiligen Felder werden automatisch aus der Taxonomie des Projekts gelesen. Die Regex-Konfigurationsoption ist für jedes Feld in der Taxonomie verfügbar. Überprüfen Sie die folgenden Konfigurationsoptionen, die im Assistenten angezeigt werden können::
- Sie können einen Dokumenttyp haben, der beim Erweitern ein einzelnes reguläres Feld anzeigt.
Für ein einfaches Feld kann nur ein einzelner regulärer Ausdruck mit dem Assistenten Reguläre Ausdrücke konfigurieren definiert werden, der geöffnet wird, wenn Sie neben diesem Feld Bearbeiten auswählen.
Abbildung 2. Ein Dokumenttyp im Assistenten Reguläre Ausdrücke konfigurieren, für den ein reguläres Feld definiert ist
- Sie können einen Dokumenttyp haben, bei dem beim Erweitern ein Tabellenfeld angezeigt wird, das Konfigurationsoptionen für eine Tabelle anzeigt, z. B. Ausdruck für den gesamten Tabelleninhalt oder einen Ausdruck für einzelne Zeilen.
In der folgenden Liste finden Sie die verschiedenen Einstellungen und Optionen, die für eine Tabellenfeldkonfiguration verfügbar sind:
- Der Tabellenwert-RegEx kann zum Erfassen eines gesamten Tabellenbereichs verwendet werden. Wenn zur Feldzeile Tabelle kein Wert hinzugefügt wird, wird der gesamte Textinhalt des Dokuments für die weitere Tabellenverarbeitung berücksichtigt.
- Der Zeilenwert-RegEx kann zum Erfassen einer gesamten Zeile aus einer bestimmten Tabellenerfassung verwendet werden. Wenn in der Feldzeile Zeilen kein Wert hinzugefügt wird, wird der Tabellenbereich nach Zeilenende aufgeteilt. Jeder erfasste Wert wird von diesem Punkt an als Zeile betrachtet, auf die die Spaltenextraktion angewendet werden soll.
- Der Spaltenwert-RegEx kann zum Erfassen des Werts einer bestimmten Spalte in den einzelnen erfassten Zeilen verwendet werden.
Abbildung 3. Ein Dokumenttyp im Assistenten Reguläre Ausdrücke konfigurieren, für den ein Tabellenfeld definiert ist
Beispiele für die Verwendung des Tabellen-, Zeilen- und Spalten-RegEx
Beachten Sie die folgenden möglichen Szenarien für die Verwendung der verfügbaren Optionen für Tabellen-RegEx:- Wenn Sie die Felder Tabellen-RegEx und Zeilen-RegEx leer lassen, werden alle Zeilen in der Textversion des Dokuments verwendet, um die Spaltenebenen-RegExes für die Zellwerterkennung anzuwenden.
- Wenn Sie einen RegEx zum Erfassen des Tabellenbereichs definieren, aber den Zeilen-RegEx (Rows RegEx) leer lassen, werden alle Zeilen in der Tabellenerfassung einzeln mit jedem Spalten-RegEx (Column RegEx) verarbeitet, um die Zellenwerte zu erfassen.
- Wenn Sie den Tabellen-RegEx (Table RegEx) leer lassen, aber einen Zeilen-RegEx (Rows RegEx) definieren, wird der gesamte Mit dem Zeilen-RegEx (Rows RegEx) erfasste Text verwendet und die Spalten-RegExes (Column RegExes) werden angewendet, um Zellenwerte für jede Zeile zu erfassen.
- Wenn Sie sowohl Tabellen- als auch Zeilen-RegEx (Table and Rows RegEx) ausfüllen, wendet die Aktivität den Tabellen-RegEx (Table RegEx) an, um die Tabellenzeichenfolge zu identifizieren. Wenden Sie dann die Zeilen-RegEx (Rows RegEx) an, um jede Zeile zu identifizieren, gefolgt von der Spaltenebenen-RegEx (Column Level RegEx) zum Erfassen von Zellenwerten.
- Sie können einen Dokumenttyp haben, der beim Erweitern ein einzelnes reguläres Feld anzeigt.
- Fügen Sie Ihren regulären Ausdruck im Feld Ausdruck hinzu.
Sie haben die Möglichkeit, entweder den gesamten RegEx in das Feld Ausdruck zu schreiben oder ihn mit der Option Bearbeiten zu erstellen.
Wichtig: Stellen Sie für einen der regulären Ausdrücke, die Sie definieren, sicher, dass Sie über mindestens eine Erfassungsgruppe verfügen. Nur die erfassten Teile eines Ausdrucks werden für die Wertmeldung verwendet. - Wählen Sie in der Spalte Regex-Optionen die Dropdown-Liste aus. Sie können verschiedene Regex-Optionen über diese Auswahlliste festlegen.
Sie können zwischen den folgenden Optionen wählen:
- CultureInvariant – Gibt an, dass sprachliche Unterschiede ignoriert werden.
- ECMAScript – Ermöglicht das ECMA-Skript-konforme Verhalten des Ausdrucks (ECMA = European Computer Manufacturers Association). Dieser Wert kann nur in Verbindung mit den Optionen IgnoreCase und Multiline verwendet werden.
- ExplicitCapture – Gibt an, dass die einzigen gültigen Erfassungen diejenigen von Gruppen sind, die explizit benannt oder nummeriert sind und als
(?<name> subexpression)
definiert sind. Alle unbenannten Klammern werden ignoriert. - IgnoreCase – Gibt an, dass bei der Suche nicht zwischen Groß- und Kleinschreibung unterschieden wird.
- IgnorePatternWhitespace – Beseitigt Leerzeichen ohne Escapezeichen aus dem definierten Muster und ermöglicht Kommentare, die mit
#
gekennzeichnet sind. Diese Option gilt nicht für Zeichenklassen, numerische Quantifizierer oder Token, die den Beginn eines einzelnen RegEx-Sprachelements markieren. - Singleline – Gibt an, dass die Suche in einer einzelnen Zeile durchgeführt wird. Der Punkt
(.)
entspricht allen Zeichen, einschließlich der Ausnahme\n
. - Multiline – Gibt an, dass die Suche in mehreren Zeilen durchgeführt wird. Für diese Option entsprechen die Sonderzeichen
^
und$
dem Anfang bzw. Ende einer beliebigen Zeile. - RightToLeft – Gibt an, dass die Suche von rechts nach links durchgeführt wird.
Hinweis: Weitere Informationen zu den Optionen für reguläre Ausdrücke, die Sie verwenden können, finden Sie unter Regex-Optionen Enum.
Abbildung 4. Das erweiterte Dropdownmenü Regex-Optionen mit den verfügbaren Optionen
- Wählen Sie Bearbeiten aus, um die Optionen dieses Felds und das Format des regulären Ausdrucks zu bearbeiten.
Der RegEx Builder-Assistent wird geöffnet.
Abbildung 5. Übersicht über den RegEx Builder-Assistenten
- Geben Sie den gewünschten Text in das Feld Testtext ein. Dies ist der Text, auf den Sie RegEx basierend auf den von Ihnen gewählten Suchkriterien anwenden möchten. Danach fügen Sie einen Wert in das Feld Wert des RegEx ein, der dann auch im Testtext-Feld hervorgehoben wird.
Abbildung 6. Eingeben von Text in das Feld Testtext und Hervorheben eines bestimmten Werts daraus mithilfe des Felds Wert
- Wählen Sie einen der RegEx-Formeltypen aus der Dropdown-Liste aus. Dadurch wird festgelegt, dass der reguläre Ausdruck mit einer der folgenden Eigenschaften übereinstimmt:
- Buchstäblich (Literal) – Entspricht den genauen Zeichen, die von Ihnen angegeben wurden. Bei dieser Option wird die Groß-/Kleinschreibung beachtet.
- Zahl (Digit) – Entspricht einer Ziffer.
- Keines von (Not one of) – Entspricht einem einzelnen Zeichen im Satz.
- Nicht eines von – Entspricht einem einzelnen Zeichen, das nicht im Satz vorhanden ist.
- Beliebig (Anything) – Entspricht einem beliebigen Zeichen, außer
\n
. - Beliebiges Wortzeichen (Any word character) – Entspricht allen Buchstaben und Zahlen.
- Leerzeichen (Whitespace) – Entspricht einem Leerzeichen.
- Beginnt mit (Starts with) – Startet die Suche an dem Ort, an dem die Zeile beginnt.
- Endet mit (Ends with) – Startet die Suche, an dem Ort, an dem die Zeile endet.
- Erweitert (Advanced) – Erfordert einen benutzerdefinierten Ausdruck.
- E-Mail (Email) – Entspricht einer E-Mail-Adresse.
- URL – Entspricht einer URL.
- US-Datum (US date) – Entspricht dem US-Datumsformat.
- US-Telefonnummer (US phone number) – Entspricht dem US-Telefonnummernformat.
Abbildung 7. Die Dropdownliste mit den verfügbaren Eigenschaften für den regulären Ausdruck
Hinweis: Weitere Informationen zu regulären Ausdrücken in .NET finden Sie unter .NET Reguläre Ausdrücke.
- Verwenden Sie das Feld Wert zum Schreiben des Werts des regulären Ausdrucks.
- Wählen Sie einen Quantifizierer auf der Dropdown-Liste Quantifizierer aus. Sie können zwischen den folgenden Optionen wählen:
- Genau (Exactly) – Entspricht genau dem vorangegangenen Element, wie oft es angegeben wird. Standardmäßig ist dies auf
1
festgelegt. - Beliebig (0 oder mehr) – Entspricht dem vorangegangenen Element für null oder mehr Male, aber so oft wie möglich.
- Mindestens ein (1 oder mehr) – Entspricht einem oder mehreren Treffern des vorangegangenen Elements.
- Null oder eins – Entspricht dem vorangegangenen Element für null oder einmal, aber so oft wie möglich.
- Zwischen x- und y-mal – Entspricht dem vorangegangenen Element zwischen
x
- undy
-mal aber so wenige Male wie möglich.x
undy
sind dabei Ganzzahlen.
- Genau (Exactly) – Entspricht genau dem vorangegangenen Element, wie oft es angegeben wird. Standardmäßig ist dies auf
- Um Felder zu bearbeiten, können Sie die folgenden Optionen verwenden:
- Wählen Sie Hinzufügen aus, um ein zusätzliches RegEx-Feld hinzuzufügen.
- Wählen Sie Nach oben aus und Nach unten, um Felder in der Hierarchie nach oben und unten zu verschieben.
- Wählen Sie Entfernen aus, um das Feld zu löschen.
- Aktivieren Sie das Kontrollkästchen für die Option Erfassen, wenn Sie dieses bestimmte Feld extrahieren möchten.
- Das Feld Vollständiger Ausdruck zeigt den gesamten Ausdruck genau, wie er von Ihnen angepasst wurde.
- Wählen Sie eine oder mehrere Optionen in der Dropdown-Liste Regex-Optionen aus.
Abbildung 8. Die verfügbaren Optionen in der Dropdownliste Regex-Optionen
- Wählen Sie Speichern aus, sobald alle Ihre Konfigurationen abgeschlossen sind, um den Bearbeitungsmodus zu beenden.
- Wählen Sie Speichern erneut aus, um den Assistenten zu schließen.