Document Understanding – Schlüsselwortbasierter Klassifizierer

document-understanding

2.2510

true

Document Understanding-Benutzerhandbuch.

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Schlüsselwortbasierte Classifier (Keyword Based Classifier)

Zweck von Keyword Based Classifier

Der Keyword Based Classifier ist ein einfacher Klassifizierer, der nach sich wiederholenden String-Sequences innerhalb einer bestimmten Datei sucht, um die Dokumentklassifizierung durchzuführen.

Der Algorithmus basiert auf dem Konzept der Dokumenttitel und beginnt mit der Annahme, dass Dokumenttypen mit Titeln in der Regel eine relativ geringe Variation davon haben, wie diese Titel in Dokumenten aussehen.

Beim Klassifizieren einer Datei in einen Dokumenttyp führt der Keyword Based Classifier folgende Aktionen aus:

Er findet den String oder die String-Sammlung mit der besten Übereinstimmung aus den Lerndaten für einen Taxonomiedokumenttyp. Die Konfidenz wird auf Grundlage der folgenden Faktoren berechnet:
- Wie weit die Übereinstimmung vom Dokumentanfang entfernt ist
- Wie oft die Übereinstimmung von zuständigen Mitarbeitern bestätigt und in den Lerndaten verstärkt wurde.
Er meldet den Dokumenttyp mit der höchsten Bewertung für die zugrundeliegende Übereinstimmungskonfiguration.

Der Keyword Based Classifier kann einen einzelnen String-Eintrag (ein String, der als einzelner Eintrag in den Lerndaten des Klassifizierers betrachtet wird) oder einen Eintrag verwenden, der mehrere Strings enthält (zwei oder mehr Strings, die einen einzelnen Eintrag bilden). Bei mehreren Strings wendet der Klassifizierer den Übereinstimmungsalgorithmus auf jeden String einzeln an und berechnet dann einen einfachen Durchschnitt der Konfidenzen von den identifizierten Übereinstimmungen.

Beispiel

Nehmen wir folgendes Beispiel:

Wenn ein Eintrag einen einzelnen String enthält, z. B. „this is my match“, sucht und bewertet der Keyword Based Classifier diesen String als potenzielle Dokumenttypübereinstimmung (je nach Dokumenttyp, dem der String zugeschrieben wird).
Wenn ein Eintrag drei Strings enthält, z. B. [„das ist eine Übereinstimmung“, „erfordert mehr Nachweise zum Filtern“, „weitere Übereinstimmung“], sucht und bewertet der Keyword Based Classifier jeden der drei Strings und berechnet dann einen einfachen Durchschnitt der Übereinstimmungskonfidenzen für die Berichterstattung.

Der Schlüsselwortsatz kann innerhalb einer Zeile oder mithilfe mehrerer Zeilen definiert werden. Wenn er innerhalb einer Zeile festgelegt ist, wird die gegebene Eingabe identifiziert, wenn z. B. x, y und z als Schlüsselwörter aufgeführt sind, dann wird nach x, y und z gesucht.

Mehrere Zeilen definiert zu haben bedeutet, dass nach den Schlüsselwörtern gesucht wird, die in der ersten, zweiten oder dritten Zeile aufgeführt sind, bis alle Zeilen abdeckt und die besten Übereinstimmungen ermittel wurden, wodurch der Konfidenzwert zunimmt, weil mehr Übereinstimmungen von mehr verfügbaren Schlüsselwörtern ermittelt werden.

Einsatzbereich

Dieser Klassifizierer eignet sich, wenn:

Ihre Dateien jeweils nur einen einzigen Dokumenttyp enthalten (also keine Dateiaufteilung erforderlich ist);
Ihre Dateien Nachweise im Zusammenhang mit dem Dokumenttyp auf den ersten drei Seiten der Datei enthalten.

Spezielle Anforderungen

Es gibt keine speziellen Anforderungen für die Verwendung des Keyword Based Classifier.

Weitere Informationen zum Trainieren eines Klassifizierers finden Sie auf dieser Seite , auf der die Verwendung des Assistenten zum Verwalten der Lernfunktion beschrieben wird.

Auf dieser Seite

Zweck von Keyword Based Classifier
Beispiel
Einsatzbereich
Spezielle Anforderungen

War diese Seite hilfreich?

Vorherige (previous)Intelligenter Schlüsselwortklassifizierer

WeiterMachine Learning Classifier

Zweck von Keyword Based Classifier​

Beispiel​

Einsatzbereich​

Spezielle Anforderungen​

War diese Seite hilfreich?

Zweck von Keyword Based Classifier

Beispiel

Einsatzbereich

Spezielle Anforderungen