- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Zahlungsbelege – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Unterstützte Sprachen
- Deep Learning
- Insights-Dashboards
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Lizenzierung
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)

Document Understanding user guide
Schlüsselwortbasierte Classifier (Keyword Based Classifier)
Zweck von Keyword Based Classifier
The Keyword Based Classifier is a simple classifier that searches for repeating string sequences within a given file, in order to perform document classification.
Der Algorithmus basiert auf dem Konzept der Dokumenttitel und beginnt mit der Annahme, dass Dokumenttypen mit Titeln in der Regel eine relativ geringe Variation davon haben, wie diese Titel in Dokumenten aussehen.
Beim Klassifizieren einer Datei in einen Dokumenttyp führt der Keyword Based Classifier folgende Aktionen aus:
- Er findet den String oder die String-Sammlung mit der besten Übereinstimmung aus den Lerndaten für einen Taxonomiedokumenttyp. Die Konfidenz wird auf Grundlage der folgenden Faktoren berechnet:
- Wie weit die Übereinstimmung vom Dokumentanfang entfernt ist
- Wie oft die Übereinstimmung von zuständigen Mitarbeitern bestätigt und in den Lerndaten verstärkt wurde.
- Er meldet den Dokumenttyp mit der höchsten Bewertung für die zugrundeliegende Übereinstimmungskonfiguration.
Der Keyword Based Classifier kann einen einzelnen String-Eintrag (ein String, der als einzelner Eintrag in den Lerndaten des Klassifizierers betrachtet wird) oder einen Eintrag verwenden, der mehrere Strings enthält (zwei oder mehr Strings, die einen einzelnen Eintrag bilden). Bei mehreren Strings wendet der Klassifizierer den Übereinstimmungsalgorithmus auf jeden String einzeln an und berechnet dann einen einfachen Durchschnitt der Konfidenzen von den identifizierten Übereinstimmungen.
Beispiel
Nehmen wir folgendes Beispiel:
- if an entry contains a single string, for instance, "this is my match", then the Keyword Based Classifier searches and rates this string as a potential document type match (according to which document type the string is attributed to).
- if an entry contains three strings, for instance, ["this is a match", "needs more evidence for filtering", "yet another one"], then the Keyword Based Classifier searches and rates each one of the three strings, and then computes a simple average of the matching confidences for reporting.
Der Schlüsselwortsatz kann innerhalb einer Zeile oder mithilfe mehrerer Zeilen definiert werden. Wenn er innerhalb einer Zeile festgelegt ist, wird die gegebene Eingabe identifiziert, wenn z. B. x, y und z als Schlüsselwörter aufgeführt sind, dann wird nach x, y und z gesucht.
Mehrere Zeilen definiert zu haben bedeutet, dass nach den Schlüsselwörtern gesucht wird, die in der ersten, zweiten oder dritten Zeile aufgeführt sind, bis alle Zeilen abdeckt und die besten Übereinstimmungen ermittel wurden, wodurch der Konfidenzwert zunimmt, weil mehr Übereinstimmungen von mehr verfügbaren Schlüsselwörtern ermittelt werden.
Einsatzbereich
Dieser Klassifizierer eignet sich, wenn:
- Ihre Dateien jeweils nur einen einzigen Dokumenttyp enthalten (also keine Dateiaufteilung erforderlich ist);
- Ihre Dateien Nachweise im Zusammenhang mit dem Dokumenttyp auf den ersten drei Seiten der Datei enthalten.
Spezielle Anforderungen
Es gibt keine speziellen Anforderungen für die Verwendung des Keyword Based Classifier.
For more information on how to train a Classifier, check this page that describes the process of using the Manage Learning wizard.