Regex Based Extractor

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

Ermöglicht Ihnen das Erstellen und Verwenden eines benutzerdefinierten regulären Ausdrucks zum Extrahieren von Informationen aus einem Dokument. Diese Aktivität kann nur zusammen mit der Aktivität Data Extraction Scope verwendet werden.

Eigenschaften

Hinweis: Diese Aktivität kann nicht mit set - oder boolean -Feldern funktionieren.

Allgemein

AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.

Eingabe

Konfiguration – Gibt den Konfigurationswert für den Extraktor als JSON -Zeichenfolge mit Escape-Zeichen an. Verwenden Sie den Extraktionsassistenten, um die Konfiguration zu generieren. Sie können die Konfiguration im Eigenschaftenbereich als Zeichenfolge beibehalten oder sie mithilfe des Assistenten definieren und an eine Variable binden. Es wird empfohlen, das Feld „ Konfiguration “ mit dem Assistenten und nicht mit dem Panel „ Eigenschaften “ zu bearbeiten.
Timeout – Gibt den Timeout-Wert für jede Regex-Suche in Millisekunden an. Ein Timeout von 0oder negativ wird als unendlich interpretiert. Der Standardwert ist 2000.
UseVisualAlignment - Ist diese Option ausgewählt, werden die regulären Ausdrücke auf eine anhand der visuellen Wörterzuordnung generierte Textversion angewendet (ein anhand der visuellen Wörterzuordnung generierter Text enthält durch einzelne Leerzeichen getrennte Wörter, durch einzelne Zeilenumbrüche getrennte Zeilen und durch doppelte Zeilenumbrüche getrennte Seiten). Der Standardwert ist False. Diese Option kann für komplexe Layouts verwendet werden, bei denen es für Benutzer einfacher ist, reguläre Ausdrücke basierend darauf zu schreiben, wie Wörter visuell in Zeilen organisiert sind. Alle Sätze, Absätze oder Layoutgruppen, die im Dokument anderweitig identifiziert werden, werden dabei ignoriert.

Sonstiges

Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.

Verwenden des Assistenten „Reguläre Ausdrücke konfigurieren“

Fügen Sie eine RegEx Based Extractor-Aktivität zu Ihrem Workflow in einer Data Extraction Scope-Aktivität hinzu.
Konfigurieren Sie Ihre regulären Ausdrücke, indem Sie auf die Schaltfläche Ausdrücke konfigurieren klicken.
- Das Fenster Assistent wird geöffnet.
Erweitern Sie einen Dokumenttypeintrag, um alle definierten Felder anzuzeigen und mit dem Konfigurieren Ihrer regulären Ausdrücke zu beginnen. Dokumenttypen und ihre jeweiligen Felder werden automatisch aus der Taxonomie des Projekts gelesen. Die Regex-Konfigurationsoption ist für jedes Feld in der Taxonomie verfügbar.
- Erweiterter Dokumenttyp, der ein einzelnes reguläres Feld anzeigt:
- Erweiterter Dokumenttyp und Tabellenfeld mit Konfigurationsoptionen für eine Tabelle:
  
  Für ein einfaches Feld kann nur ein einzelner regulärer Ausdruck mit dem RegEx-Assistenten definiert werden, der geöffnet wird, wenn Sie neben diesem Feld auf die Option „Bearbeiten“ klicken.
  
  Für ein Tabellenfeld stehen mehrere Einstellungen und Optionen für die Konfiguration zur Verfügung:
- Der Tabellenwert-RegEx kann zum Erfassen eines gesamten Tabellenbereichs verwendet werden. Wenn zur Feldzeile Tabelle kein Wert hinzugefügt wird, wird der gesamte Textinhalt des Dokuments für die weitere Tabellenverarbeitung berücksichtigt.
- Der Zeilenwert-RegEx kann zum Erfassen einer gesamten Zeile aus einer bestimmten Tabellenerfassung verwendet werden. Wenn in der Feldzeile Zeilen kein Wert hinzugefügt wird, wird der Tabellenbereich nach Zeilenende aufgeteilt. Jeder erfasste Wert wird von diesem Punkt an als Zeile betrachtet, auf die die Spaltenextraktion angewendet werden soll.
- Der Spaltenwert-RegEx kann zum Erfassen des Werts einer bestimmten Spalte in den einzelnen erfassten Zeilen verwendet werden.
  
  Beispiele für die Verwendung des Tabellen-, Zeilen- und Spalten-RegEx:
- Wenn Sie die Felder Tabellen-RegEx und Zeilen-RegEx leer lassen, werden alle Zeilen in der Textversion des Dokuments verwendet, um die Spaltenebenen-RegExes für die Zellwerterkennung anzuwenden.
- Wenn Sie einen RegEx zum Erfassen des Tabellenbereichs definieren, aber den Zeilen-RegEx (Rows RegEx) leer lassen, werden alle Zeilen in der Tabellenerfassung einzeln mit jedem Spalten-RegEx (Column RegEx) verarbeitet, um die Zellenwerte zu erfassen.
- Wenn Sie den Tabellen-RegEx (Table RegEx) leer lassen, aber einen Zeilen-RegEx (Rows RegEx) definieren, wird der gesamte Mit dem Zeilen-RegEx (Rows RegEx) erfasste Text verwendet und die Spalten-RegExes (Column RegExes) werden angewendet, um Zellenwerte für jede Zeile zu erfassen.
- Wenn Sie sowohl Tabellen- als auch Zeilen-RegEx (Table and Rows RegEx) ausfüllen, wendet die Aktivität den Tabellen-RegEx (Table RegEx) an, um die Tabellenzeichenfolge zu identifizieren. Wenden Sie dann die Zeilen-RegEx (Rows RegEx) an, um jede Zeile zu identifizieren, gefolgt von der Spaltenebenen-RegEx (Column Level RegEx) zum Erfassen von Zellenwerten.
Fügen Sie Ihren regulären Ausdruck im Feld Ausdruck hinzu.

Hinweis: Sie haben die Möglichkeit, entweder den gesamten RegEx in das Feld Ausdruck zu schreiben oder ihn mit der Schaltfläche Bearbeiten zu erstellen.

Wichtig: Stellen Sie für einen der regulären Ausdrücke, die Sie definieren, sicher, dass Sie über mindestens eine Erfassungsgruppe verfügen! Nur die erfassten Teile eines Ausdrucks werden für die Wertmeldung verwendet.
Klicken Sie in der Spalte Regex-Optionen auf die Dropdownliste. Sie können Regex-Optionen über diese Auswahlliste festlegen.
Sie können aus mehreren Optionen wählen:
- CultureInvariant – Gibt an, dass sprachliche Unterschiede ignoriert werden.
- ECMAScript – Ermöglicht ECMA Script-konformes Verhalten für den Ausdruck. Dieser Wert kann nur in Verbindung mit den Optionen IgnoreCase und Multiline verwendet werden.
- ExplicitCapture – Gibt an, dass die einzigen gültigen Erfassungen diejenigen von Gruppen sind, die explizit benannt oder nummeriert sind und als (?<name> subexpression) definiert sind. Alle unbenannten Klammern werden ignoriert.
- IgnoreCase – Gibt an, dass bei der Suche nicht zwischen Groß- und Kleinschreibung unterschieden wird.
- IgnorePatternWhitespace – Beseitigt Leerzeichen ohne Escapezeichen aus dem definierten Muster und ermöglicht Kommentare, die mit # gekennzeichnet sind. Diese Option gilt nicht für Zeichenklassen, numerische Quantifizierer oder Token, die den Beginn eines einzelnen RegEx-Sprachelements markieren.
- Singleline – Gibt an, dass die Suche in einer einzelnen Zeile durchgeführt wird. Der Punkt (.) entspricht allen Zeichen, einschließlich der Ausnahme \n.
- Multiline – Gibt an, dass die Suche in mehreren Zeilen durchgeführt wird. Für diese Option entsprechen die Sonderzeichen ^ und $ dem Anfang bzw. Ende einer beliebigen Zeile.
- RightToLeft – Gibt an, dass die Suche von rechts nach links durchgeführt wird.
  
  Hinweis: Weitere Informationen zu den Optionen für reguläre Ausdrücke finden Sie hier.

Der Regex-Editor-Assistent

Klicken Sie auf die Schaltfläche Bearbeiten, um die Optionen dieses Felds und das Format des regulären Ausdrucks zu bearbeiten.
Geben Sie Text im Feld Testtext ein, um die Suchkriterien zu testen, die Sie für den Text auswählen, auf den Sie RegEx anwenden möchten.
Wählen Sie einen der RegEx-Formeltypen aus der Dropdownliste aus. Dadurch wird festgelegt, dass der reguläre Ausdruck mit einer der folgenden Eigenschaften übereinstimmt:
- Buchstäblich (Literal) – Entspricht den genauen Zeichen, die von Ihnen angegeben wurden. Bei dieser Option wird die Groß-/Kleinschreibung beachtet.
- Zahl (Digit) – Entspricht einer Ziffer.
- Keines von (Not one of) – Entspricht einem einzelnen Zeichen im Satz.
- Nicht eines von – Entspricht einem einzelnen Zeichen, das nicht im Satz vorhanden ist.
- Beliebig (Anything) – Entspricht einem beliebigen Zeichen, außer \n.
- Beliebiges Wortzeichen (Any word character) – Entspricht allen Buchstaben und Zahlen.
- Leerzeichen (Whitespace) – Entspricht einem Leerzeichen.
- Beginnt mit (Starts with) – Startet die Suche an dem Ort, an dem die Zeile beginnt.
- Endet mit (Ends with) – Startet die Suche, an dem Ort, an dem die Zeile endet.
- Erweitert (Advanced) – Erfordert einen benutzerdefinierten Ausdruck.
- E-Mail (Email) – Entspricht einer E-Mail-Adresse.
- URL – Entspricht einer URL.
- US-Datum (US date) – Entspricht dem US-Datumsformat.
- US-Telefonnummer (US phone number) – Entspricht dem US-Telefonnummernformat.
  
  Hinweis: Weitere Informationen zu den regulären Ausdrücken in .NET finden Sie hier.
Verwenden Sie das Feld Wert zum Schreiben des Werts des regulären Ausdrucks.
Wählen Sie einen Quantifizierer auf der Dropdownliste Quantifizierer aus.
- Genau (Exactly) – Entspricht genau dem vorangegangenen Element, wie oft es angegeben wird. Standardmäßig ist dies auf 1 festgelegt.
- Beliebig (0 oder mehr) – Entspricht dem vorangegangenen Element für null oder mehr Male, aber so oft wie möglich.
- Mindestens ein (1 oder mehr) – Entspricht einem oder mehreren Treffern des vorangegangenen Elements.
- Null oder eins – Entspricht dem vorangegangenen Element für null oder einmal, aber so oft wie möglich.
- Zwischen x- und y-mal – Entspricht dem vorangegangenen Element zwischen x- und y-mal aber so wenige Male wie möglich. x und y sind dabei Ganzzahlen.
Verwenden Sie die Schaltfläche , um ein zusätzliches RegEx-Feld hinzuzufügen. Verschieben Sie Felder in der Hierarchie nach oben und unten, indem Sie die Schaltflächen und verwenden. Verwenden Sie die Schaltfläche zum Löschen des Felds.
Aktivieren Sie das Kontrollkästchen für die Option Erfassen, wenn Sie dieses bestimmte Feld extrahieren möchten.
Das Feld Vollständiger Ausdruck zeigt den gesamten Ausdruck genau, wie er von Ihnen angepasst wurde.
Wählen Sie eine oder mehrere Optionen im Dropdownliste Regex-Optionen aus.
Klicken Sie auf die Schaltfläche Speichern, sobald alle Ihre Konfigurationen abgeschlossen sind, um den Modus Bearbeiten zu beenden, und klicken Sie dann zum Schließen des Assistenten erneut auf Speichern.