Document Understanding
2021.10
False
Bannerhintergrundbild
Document Understanding-Benutzerhandbuch.
Letzte Aktualisierung 28. Feb. 2024

Schlüsselwortbasierte Classifier (Keyword Based Classifier)

Zweck von Keyword Based Classifier

Der Keyword Based Classifier ist ein einfacher Klassifizierer, der nach sich wiederholenden String-Sequences innerhalb einer bestimmten Datei sucht, um die Dokumentklassifizierung durchzuführen.

Der Algorithmus basiert auf dem Konzept der Dokumenttitel und beginnt mit der Annahme, dass Dokumenttypen mit Titeln in der Regel eine relativ geringe Variation davon haben, wie diese Titel in Dokumenten aussehen.

Beim Klassifizieren einer Datei in einen Dokumenttyp führt der Keyword Based Classifier folgende Aktionen aus:

  • Er findet den String oder die String-Sammlung mit der besten Übereinstimmung aus den Lerndaten für einen Taxonomiedokumenttyp. Die Konfidenz wird auf Grundlage der folgenden Faktoren berechnet:

    • Wie weit die Übereinstimmung vom Dokumentanfang entfernt ist
    • Wie oft die Übereinstimmung von zuständigen Mitarbeitern bestätigt und in den Lerndaten verstärkt wurde.
  • Er meldet den Dokumenttyp mit der höchsten Bewertung für die zugrundeliegende Übereinstimmungskonfiguration.

Der Keyword Based Classifier kann einen einzelnen String-Eintrag (ein String, der als einzelner Eintrag in den Lerndaten des Klassifizierers betrachtet wird) oder einen Eintrag verwenden, der mehrere Strings enthält (zwei oder mehr Strings, die einen einzelnen Eintrag bilden). Bei mehreren Strings wendet der Klassifizierer den Übereinstimmungsalgorithmus auf jeden String einzeln an und berechnet dann einen einfachen Durchschnitt der Konfidenzen von den identifizierten Übereinstimmungen.

Beispiel

Sehen wir uns das folgende Beispiel an:

  • Wenn ein Eintrag einen einzelnen String enthält, z. B. "this is my match", sucht und bewertet der Keyword Based Classifier diesen String als potenzielle Dokumenttypübereinstimmung (je nach Dokumenttyp, dem der String zugeschrieben wird).
  • Wenn ein Eintrag drei Strings enthält, z. B. ["this is a match", "needs more evidence for filtering", "yet another one"], sucht und bewertet der Keyword Based Classifier jeden der drei Strings und berechnet dann einen einfachen Durchschnitt der Übereinstimmungskonfidenzen für die Berichterstattung.

Der Schlüsselwortsatz kann innerhalb einer Zeile oder mithilfe mehrerer Zeilen definiert werden. Wenn er innerhalb einer Zeile festgelegt ist, wird die gegebene Eingabe identifiziert, wenn z. B. x, y und z als Schlüsselwörter aufgeführt sind, dann wird nach x, y und z gesucht.

Mehrere Zeilen definiert zu haben bedeutet, dass nach den Schlüsselwörtern gesucht wird, die in der ersten, zweiten oder dritten Zeile aufgeführt sind, bis alle Zeilen abdeckt und die besten Übereinstimmungen ermittel wurden, wodurch der Konfidenzwert zunimmt, weil mehr Übereinstimmungen von mehr verfügbaren Schlüsselwörtern ermittelt werden.

Einsatzbereich

Dieser Klassifizierer eignet sich, wenn:

  • Ihre Dateien jeweils nur einen einzigen Dokumenttyp enthalten (also keine Dateiaufteilung erforderlich ist);
  • Ihre Dateien Nachweise im Zusammenhang mit dem Dokumenttyp auf den ersten drei Seiten der Datei enthalten.

Spezielle Anforderungen

Es gibt keine speziellen Anforderungen für die Verwendung des Keyword Based Classifier.

Wie zur Entwurfszeit konfiguriert wird

Sie können den Keyword Based Classifier zur Entwurfszeit konfigurieren, indem Sie einfach auf den Assistenten Lernfunktion verwalten der Aktivität zugreifen. Der gleiche Assistent kann zum Überprüfen von Daten verwendet werden, die während der Trainingsphase für die Dokumentklassifizierung gesammelt wurden, indem der gleiche Assistent mit einem aktualisierten Lerndateipfad geöffnet wird.

Mit diesem Assistenten können Sie die Schlüsselwörter konfigurieren und verwalten, die von dieser Aktivität zur Identifizierung des Dokumenttyps verwendet werden. Er wurde für die Bearbeitung eines Dateipfads entwickelt. Wenn stattdessen ein Lerndaten-Parameter mit einer Variablen verwendet wird, werden Sie gefragt, ob Sie entweder einen bestimmten Dateipfad bearbeiten oder diesen Vorgang abbrechen möchten.

Hinweis: Der Assistent „Lernfunktion des schlüsselwortbasierten Klassifizierers verwalten“ kann nur zum Bearbeiten und Konfigurieren eines Dateipfads verwendet werden.
  1. Fügen Sie Ihrem Workflow eine Aktivität vom Typ Keyword Based Classifier/Keyword Based Classifier Trainer hinzu.
  2. Konfigurieren Sie Ihre Aktivität „Keyword Based Classifier“, indem Sie den Pfad einer Datei vom Typ .json hinzufügen.
    • Wenn kein Pfad angegeben ist und die Option Lernfunktion verwalten geklickt wird, wird ein Popup angezeigt, in dem nach einer Eingabe des Lerndateipfads gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.
    • Eine Variable kann anstelle einer .json-Datei hinzugefügt werden, aber da der Assistent das Lernmuster nicht auf eine LearningData-Variable anwenden kann, wird nach einem bestimmten Dateipfad gefragt, der bearbeitet werden kann.
  3. Klicken Sie auf die Option Lernfunktion verwalten.
    • Das Fenster Assistent wird geöffnet.


  4. Wenn kein Pfad angegeben ist und die Option Lernfunktion verwalten geklickt wird, wird ein Popup angezeigt, in dem nach einem Lerndateipfad gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.


    Hinweis: Auch wenn keine .json-Datei verfügbar ist, können Sie den Namen einer neuen .json-Datei direkt in die Aktivität einfügen. Die .json-Datei wird dann automatisch im angegebenen Ordner erstellt.

Der Assistent verfügt über so viele Dokumenttypkategorien, wie Sie in Ihrer Taxonomie definiert haben. Sie können für jeden Dokumenttyp einzelne oder mehrere Schlüsselwörter hinzufügen. Die Aktivität lernt die Schlüsselwörter eines bestimmten Dokuments und kann das Dokument später basierend auf diesen Regeln in einem bestimmten Typ identifizieren und klassifizieren.

Alle Einträge müssen als Zeichenfolgen zwischen "" (Anführungszeichen) eingegeben werden. Sie können einzelne oder mehrere Werte hinzufügen.
  • Wenn Sie auf die Schaltfläche Neuen Schlüsselwortgruppe hinzufügen klicken, wird dieser Kategorie ein zusätzliches Feld hinzugefügt.
  • Wenn Sie auf die Schaltfläche docs image klicken, werden das Feld und seine Schlüsselwörter entfernt.
  • Klicken Sie auf die Schaltfläche Speichern, um Ihre Assistentenkonfiguration zu speichern. Alle hinzugefügten Werte finden Sie in der .json-Datei des Projekts.
    Hinweis: Doppelte Anführungszeichen, die als Teil eines Schlüsselworts im Assistenten Schlüsselwörter verwalten eingegeben wurden, werden immer gemäß der Visual Basic-Konvention mit Escapezeichen versehen (doppelte doppelte Anführungszeichen), auch in einem Projekt mit C#.

Wie trainiert wird

Platzieren Sie die Aktivität Keyword Based Classifier Trainer in einen Train Classifiers Scope und konfigurieren Sie sie entsprechend.

Weitere Informationen finden Sie unter Dokumentklassifizierungstraining.

  • Zweck von Keyword Based Classifier
  • Beispiel
  • Einsatzbereich
  • Spezielle Anforderungen
  • Wie zur Entwurfszeit konfiguriert wird
  • Wie trainiert wird

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.