document-understanding

2021.10

false

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Kein Support

Document Understanding-Benutzerhandbuch.

BEREITSTELLUNG:

Letzte Aktualisierung 4. Feb. 2025

Regex Based Extractor

Was ist RegEx Based Extractor

Der Regex Based Extractor ist das perfekte Tool für einfache Anwendungsfälle, in denen Daten für bestimmte Felder immer in einem strengen, vorhersehbaren Format und Kontext zu finden sind. Wenn Sie also über ein Feld verfügen, für das Sie einen regulären Ausdruck definieren können, der beim Abgleichen konstant gut ist, dann ist der Regex Based Extractor eine gute Wahl.

Die Aktivität enthält einen Konfigurationsassistenten, der Sie beim Definieren der regulären Ausdrücke für die Felder unterstützt, die Sie auf diese Weise für die Datenextraktion auswählen möchten.

Die Aktivität unterstützt die Extraktion von einfachen Feldern und Tabellenfeldern.

Es wird empfohlen, sich mit anderen Extraktionsmethoden zu befassen, falls eine hohe Variabilität des Kontexts und des Formats der erwarteten Werte vorliegt. In solchen Fällen könnte ein „Form Extractor“ oder ein „Machine Learning Extractor“ besser geeignet sein.

Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss vorab konfiguriert werden.

Spezielle Anforderungen

Es gibt keine speziellen Anforderungen für die Verwendung des Regex Based Extractor.

Konfigurieren

Aktivitätskonfiguration

Der Regex Based Extractor verfügt über zwei Hauptkonfigurationen, die berücksichtigt werden müssen:

der Assistent Reguläre Ausdrücke konfigurieren – mit dem Sie reguläre Ausdrücke für bestimmte Felder definieren können. Dieser Assistent stellt auch den Regex-Editor-Assistenten zur Verfügung, der Sie beim Erstellen Ihrer regulären Ausdrücke unterstützt.
die Einstellung UseVisualAlignment – mit der Sie steuern können, ob die für einen Extraktor konfigurierten regulären Ausdrücke auf die Textausgabe der Digitalisierungskomponente oder auf eine Textversion angewendet werden sollen, in der Textzeilen visuell organisiert sind und Wörter basierend auf ihrer visuellen Ausrichtung auf Zeilen neu angeordnet werden.

Der Assistent „Reguläre Ausdrücke konfigurieren“

Der Assistent Reguläre Ausdrücke konfigurieren kann zum Definieren regulärer Ausdrücke verwendet werden, die zum Erfassen von Daten für einfache sowie Tabellenfelder verwendet werden.

Fügen Sie eine RegEx Based Extractor-Aktivität zu Ihrem Workflow in einer Data Extraction Scope-Aktivität hinzu.
Konfigurieren Sie Ihre regulären Ausdrücke, indem Sie auf die Schaltfläche Ausdrücke konfigurieren klicken.
- Das Fenster Assistent wird geöffnet.
Erweitern Sie einen Dokumenttypeintrag, um alle definierten Felder anzuzeigen und mit dem Konfigurieren Ihrer regulären Ausdrücke zu beginnen. Dokumenttypen und ihre jeweiligen Felder werden automatisch aus der Taxonomie des Projekts gelesen. Die Regex-Konfigurationsoption ist für jedes Feld in der Taxonomie verfügbar.
- Erweiterter Dokumenttyp, der ein einzelnes reguläres Feld anzeigt:
- Erweiterter Dokumenttyp und Tabellenfeld mit Konfigurationsoptionen für eine Tabelle:
  
  Für ein einfaches Feld kann nur ein einzelner regulärer Ausdruck mit dem RegEx-Assistenten definiert werden, der geöffnet wird, wenn Sie neben diesem Feld auf die Option „Bearbeiten“ klicken.
  
  Für ein Tabellenfeld stehen mehrere Einstellungen und Optionen für die Konfiguration zur Verfügung:
- Der Tabellenwert-RegEx kann zum Erfassen eines gesamten Tabellenbereichs verwendet werden. Wenn zur Feldzeile Tabelle kein Wert hinzugefügt wird, wird der gesamte Textinhalt des Dokuments für die weitere Tabellenverarbeitung berücksichtigt.
- Der Zeilenwert-RegEx kann zum Erfassen einer gesamten Zeile aus einer bestimmten Tabellenerfassung verwendet werden. Wenn in der Feldzeile Zeilen kein Wert hinzugefügt wird, wird der Tabellenbereich nach Zeilenende aufgeteilt. Jeder erfasste Wert wird von diesem Punkt an als Zeile betrachtet, auf die die Spaltenextraktion angewendet werden soll.
- Der Spaltenwert-RegEx kann zum Erfassen des Werts einer bestimmten Spalte in den einzelnen erfassten Zeilen verwendet werden.
  Beispiele für die Verwendung des Tabellen-, Zeilen- und Spalten-RegEx:
- Wenn Sie die Felder Tabellen-RegEx und Zeilen-RegEx leer lassen, werden alle Zeilen in der Textversion des Dokuments verwendet, um die Spaltenebenen-RegExes für die Zellwerterkennung anzuwenden.
- Wenn Sie einen RegEx zum Erfassen des Tabellenbereichs definieren, aber den Zeilen-RegEx (Rows RegEx) leer lassen, werden alle Zeilen in der Tabellenerfassung einzeln mit jedem Spalten-RegEx (Column RegEx) verarbeitet, um die Zellenwerte zu erfassen.
- Wenn Sie den Tabellen-RegEx (Table RegEx) leer lassen, aber einen Zeilen-RegEx (Rows RegEx) definieren, wird der gesamte Mit dem Zeilen-RegEx (Rows RegEx) erfasste Text verwendet und die Spalten-RegExes (Column RegExes) werden angewendet, um Zellenwerte für jede Zeile zu erfassen.
- Wenn Sie sowohl Tabellen- als auch Zeilen-RegEx (Table and Rows RegEx) ausfüllen, wendet die Aktivität den Tabellen-RegEx (Table RegEx) an, um die Tabellenzeichenfolge zu identifizieren. Wenden Sie dann die Zeilen-RegEx (Rows RegEx) an, um jede Zeile zu identifizieren, gefolgt von der Spaltenebenen-RegEx (Column Level RegEx) zum Erfassen von Zellenwerten.
Fügen Sie Ihren regulären Ausdruck im Feld Ausdruck hinzu.
Hinweis: Sie haben die Möglichkeit, entweder den gesamten RegEx in das Feld Ausdruck zu schreiben oder ihn mit der Schaltfläche Bearbeiten zu erstellen.

Wichtig: Stellen Sie für einen der regulären Ausdrücke, die Sie definieren, sicher, dass Sie über mindestens eine Erfassungsgruppe verfügen! Nur die erfassten Teile eines Ausdrucks werden für die Wertmeldung verwendet.
Klicken Sie in der Spalte Regex-Optionen auf die Dropdownliste. Sie können Regex-Optionen über diese Auswahlliste festlegen.
Sie können aus mehreren Optionen wählen:
- CultureInvariant – Gibt an, dass sprachliche Unterschiede ignoriert werden.
- ECMAScript – Ermöglicht ECMA Script-konformes Verhalten für den Ausdruck. Dieser Wert kann nur in Verbindung mit den Optionen IgnoreCase und Multiline verwendet werden.
- ExplicitCapture – Gibt an, dass die einzigen gültigen Erfassungen diejenigen von Gruppen sind, die explizit benannt oder nummeriert sind und als (?<name> subexpression) definiert sind. Alle unbenannten Klammern werden ignoriert.
- IgnoreCase – Gibt an, dass bei der Suche nicht zwischen Groß- und Kleinschreibung unterschieden wird.
- IgnorePatternWhitespace – Beseitigt Leerzeichen ohne Escapezeichen aus dem definierten Muster und ermöglicht Kommentare, die mit # gekennzeichnet sind. Diese Option gilt nicht für Zeichenklassen, numerische Quantifizierer oder Token, die den Beginn eines einzelnen RegEx-Sprachelements markieren.
- Singleline – Gibt an, dass die Suche in einer einzelnen Zeile durchgeführt wird. Der Punkt (.) entspricht allen Zeichen, einschließlich der Ausnahme \n.
- Multiline – Gibt an, dass die Suche in mehreren Zeilen durchgeführt wird. Für diese Option entsprechen die Sonderzeichen ^ und $ dem Anfang bzw. Ende einer beliebigen Zeile.
- RightToLeft – Gibt an, dass die Suche von rechts nach links durchgeführt wird.
  Hinweis: Weitere Informationen zu den Optionen für reguläre Ausdrücke finden Sie hier.

Der Regex-Editor-Assistent

Klicken Sie auf die Schaltfläche Bearbeiten, um die Optionen dieses Felds und das Format des regulären Ausdrucks zu bearbeiten.
Geben Sie Text im Feld Testtext ein, um die Suchkriterien zu testen, die Sie für den Text auswählen, auf den Sie RegEx anwenden möchten.
Wählen Sie einen der RegEx-Formeltypen aus der Dropdownliste aus. Dadurch wird festgelegt, dass der reguläre Ausdruck mit einer der folgenden Eigenschaften übereinstimmt:
- Buchstäblich (Literal) – Entspricht den genauen Zeichen, die von Ihnen angegeben wurden. Bei dieser Option wird die Groß-/Kleinschreibung beachtet.
- Zahl (Digit) – Entspricht einer Ziffer.
- Keines von (Not one of) – Entspricht einem einzelnen Zeichen im Satz.
- Nicht eines von – Entspricht einem einzelnen Zeichen, das nicht im Satz vorhanden ist.
- Beliebig (Anything) – Entspricht einem beliebigen Zeichen, außer \n.
- Beliebiges Wortzeichen (Any word character) – Entspricht allen Buchstaben und Zahlen.
- Leerzeichen (Whitespace) – Entspricht einem Leerzeichen.
- Beginnt mit (Starts with) – Startet die Suche an dem Ort, an dem die Zeile beginnt.
- Endet mit (Ends with) – Startet die Suche, an dem Ort, an dem die Zeile endet.
- Erweitert (Advanced) – Erfordert einen benutzerdefinierten Ausdruck.
- E-Mail (Email) – Entspricht einer E-Mail-Adresse.
- URL – Entspricht einer URL.
- US-Datum (US date) – Entspricht dem US-Datumsformat.
- US-Telefonnummer (US phone number) – Entspricht dem US-Telefonnummernformat.
  
  Hinweis: Weitere Informationen zu den regulären Ausdrücken in .NET finden Sie hier.
Verwenden Sie das Feld Wert zum Schreiben des Werts des regulären Ausdrucks.
Wählen Sie einen Quantifizierer auf der Dropdownliste Quantifizierer aus.
- Genau (Exactly) – Entspricht genau dem vorangegangenen Element, wie oft es angegeben wird. Standardmäßig ist dies auf 1 festgelegt.
- Beliebig (0 oder mehr) – Entspricht dem vorangegangenen Element für null oder mehr Male, aber so oft wie möglich.
- Mindestens ein (1 oder mehr) – Entspricht einem oder mehreren Treffern des vorangegangenen Elements.
- Null oder eins – Entspricht dem vorangegangenen Element für null oder einmal, aber so oft wie möglich.
- Zwischen x- und y-mal – Entspricht dem vorangegangenen Element zwischen x- und y-mal aber so wenige Male wie möglich. x und y sind dabei Ganzzahlen.
Verwenden Sie die Schaltfläche , um ein zusätzliches RegEx-Feld hinzuzufügen. Verschieben Sie Felder in der Hierarchie nach oben und unten, indem Sie die Schaltflächen und verwenden. Verwenden Sie die Schaltfläche zum Löschen des Felds.
Aktivieren Sie das Kontrollkästchen für die Option Erfassen, wenn Sie dieses bestimmte Feld extrahieren möchten.
Das Feld Vollständiger Ausdruck zeigt den gesamten Ausdruck genau, wie er von Ihnen angepasst wurde.
Wählen Sie eine oder mehrere Optionen im Dropdownliste Regex-Optionen aus.
Klicken Sie auf die Schaltfläche Speichern, sobald alle Ihre Konfigurationen abgeschlossen sind, um den Modus Bearbeiten zu beenden, und klicken Sie dann zum Schließen des Assistenten erneut auf Speichern.