- Erste Schritte
- Framework-Komponenten
- Document Understanding im AI Center
- Pipelines
- ML-Pakete
- Data Manager
- OCR-Dienste
- Lizenzierung
- Referenzen
Regex Based Extractor
Der Regex Based Extractor ist das perfekte Tool für einfache Anwendungsfälle, in denen Daten für bestimmte Felder immer in einem strengen, vorhersehbaren Format und Kontext zu finden sind. Wenn Sie also über ein Feld verfügen, für das Sie einen regulären Ausdruck definieren können, der beim Abgleichen konstant gut ist, dann ist der Regex Based Extractor eine gute Wahl.
Die Aktivität enthält einen Konfigurationsassistenten, der Sie beim Definieren der regulären Ausdrücke für die Felder unterstützt, die Sie auf diese Weise für die Datenextraktion auswählen möchten.
Die Aktivität unterstützt die Extraktion von einfachen Feldern und Tabellenfeldern.
Es wird empfohlen, sich mit anderen Extraktionsmethoden zu befassen, falls eine hohe Variabilität des Kontexts und des Formats der erwarteten Werte vorliegt. In solchen Fällen könnte ein „Form Extractor“ oder ein „Machine Learning Extractor“ besser geeignet sein.
Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss vorab konfiguriert werden.
Es gibt keine speziellen Anforderungen für die Verwendung des Regex Based Extractor.
Der Regex Based Extractor verfügt über zwei Hauptkonfigurationen, die berücksichtigt werden müssen:
- der Assistent Reguläre Ausdrücke konfigurieren – mit dem Sie reguläre Ausdrücke für bestimmte Felder definieren können. Dieser Assistent stellt auch den Regex-Editor-Assistenten zur Verfügung, der Sie beim Erstellen Ihrer regulären Ausdrücke unterstützt.
- die Einstellung UseVisualAlignment – mit der Sie steuern können, ob die für einen Extraktor konfigurierten regulären Ausdrücke auf die Textausgabe der Digitalisierungskomponente oder auf eine Textversion angewendet werden sollen, in der Textzeilen visuell organisiert sind und Wörter basierend auf ihrer visuellen Ausrichtung auf Zeilen neu angeordnet werden.
Der Assistent Reguläre Ausdrücke konfigurieren kann zum Definieren regulärer Ausdrücke verwendet werden, die zum Erfassen von Daten für einfache sowie Tabellenfelder verwendet werden.
- CultureInvariant – Gibt an, dass sprachliche Unterschiede ignoriert werden.
- ECMAScript – Ermöglicht ECMA Script-konformes Verhalten für den Ausdruck. Dieser Wert kann nur in Verbindung mit den Optionen IgnoreCase und Multiline verwendet werden.
- ExplicitCapture – Gibt an, dass die einzigen gültigen Erfassungen diejenigen von Gruppen sind, die explizit benannt oder nummeriert sind und als
(?<name> subexpression)
definiert sind. Alle unbenannten Klammern werden ignoriert. - IgnoreCase – Gibt an, dass bei der Suche nicht zwischen Groß- und Kleinschreibung unterschieden wird.
- IgnorePatternWhitespace – Beseitigt Leerzeichen ohne Escapezeichen aus dem definierten Muster und ermöglicht Kommentare, die mit
#
gekennzeichnet sind. Diese Option gilt nicht für Zeichenklassen, numerische Quantifizierer oder Token, die den Beginn eines einzelnen RegEx-Sprachelements markieren. - Singleline – Gibt an, dass die Suche in einer einzelnen Zeile durchgeführt wird. Der Punkt
(.)
entspricht allen Zeichen, einschließlich der Ausnahme\n
. - Multiline – Gibt an, dass die Suche in mehreren Zeilen durchgeführt wird. Für diese Option entsprechen die Sonderzeichen
^
und$
dem Anfang bzw. Ende einer beliebigen Zeile. - RightToLeft – Gibt an, dass die Suche von rechts nach links durchgeführt wird.
Hinweis: Weitere Informationen zu den Optionen für reguläre Ausdrücke finden Sie hier.
- Klicken Sie auf die Schaltfläche Bearbeiten, um die Optionen dieses Felds und das Format des regulären Ausdrucks zu bearbeiten.
- Geben Sie Text im Feld Testtext ein, um die Suchkriterien zu testen, die Sie für den Text auswählen, auf den Sie RegEx anwenden möchten.
- Wählen Sie einen der RegEx-Formeltypen aus der Dropdownliste aus. Dadurch wird festgelegt, dass der reguläre Ausdruck mit einer der folgenden Eigenschaften übereinstimmt:
- Buchstäblich (Literal) – Entspricht den genauen Zeichen, die von Ihnen angegeben wurden. Bei dieser Option wird die Groß-/Kleinschreibung beachtet.
- Zahl (Digit) – Entspricht einer Ziffer.
- Keines von (Not one of) – Entspricht einem einzelnen Zeichen im Satz.
- Nicht eines von – Entspricht einem einzelnen Zeichen, das nicht im Satz vorhanden ist.
- Beliebig (Anything) – Entspricht einem beliebigen Zeichen, außer
\n
. - Beliebiges Wortzeichen (Any word character) – Entspricht allen Buchstaben und Zahlen.
- Leerzeichen (Whitespace) – Entspricht einem Leerzeichen.
- Beginnt mit (Starts with) – Startet die Suche an dem Ort, an dem die Zeile beginnt.
- Endet mit (Ends with) – Startet die Suche, an dem Ort, an dem die Zeile endet.
- Erweitert (Advanced) – Erfordert einen benutzerdefinierten Ausdruck.
- E-Mail (Email) – Entspricht einer E-Mail-Adresse.
- URL – Entspricht einer URL.
- US-Datum (US date) – Entspricht dem US-Datumsformat.
- US-Telefonnummer (US phone number) – Entspricht dem US-Telefonnummernformat.
Hinweis: Weitere Informationen zu den regulären Ausdrücken in .NET finden Sie hier.
- Verwenden Sie das Feld Wert zum Schreiben des Werts des regulären Ausdrucks.
- Wählen Sie einen Quantifizierer auf der Dropdownliste Quantifizierer aus.
1
festgelegt.
Beliebig (0 oder mehr) – Entspricht dem vorangegangenen Element für null oder mehr Male, aber so oft wie möglich.
Mindestens ein (1 oder mehr) – Entspricht einem oder mehreren Treffern des vorangegangenen Elements.
Null oder eins – Entspricht dem vorangegangenen Element für null oder einmal, aber so oft wie möglich.
x
- und y
-mal aber so wenige Male wie möglich. x
und y
sind dabei Ganzzahlen.
- Verwenden Sie die Schaltfläche , um ein zusätzliches RegEx-Feld hinzuzufügen. Verschieben Sie Felder in der Hierarchie nach oben und unten, indem Sie die Schaltflächen und verwenden. Verwenden Sie die Schaltfläche zum Löschen des Felds.
- Aktivieren Sie das Kontrollkästchen für die Option Erfassen, wenn Sie dieses bestimmte Feld extrahieren möchten.
- Das Feld Vollständiger Ausdruck zeigt den gesamten Ausdruck genau, wie er von Ihnen angepasst wurde.
- Wählen Sie eine oder mehrere Optionen in der Dropdownliste Regex-Optionen aus.
- Klicken Sie auf die Schaltfläche Speichern, sobald alle Ihre Konfigurationen abgeschlossen sind, um den Modus Bearbeiten zu beenden, und klicken Sie dann zum Schließen des Assistenten erneut auf Speichern.