- Erste Schritte
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- FlexiCapture Classifier
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Pipelines
- Data Manager
- OCR-Dienste
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Deep Learning
- Lizenzierung
- Referenzen
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Document Understanding-Benutzerhandbuch.
Intelligenter Schlüsselwortklassifizierer
Der Intelligent Keyword Classifier ist ein Klassifizierer, der den Wortvektor verwendet, den er von Dateien bestimmter Dokumenttypen lernt, um die Dokumentklassifizierung durchzuführen.
Der Algorithmus basiert auf dem Konzept der Wiederholung von Inhalten für den gleichen Dokumenttyp und beginnt mit der Annahme, dass Dokumenttypen eine Reihe von Wörtern haben, die normalerweise in diesen Dokumenttypen vorkommen, wodurch eine Vektorähnlichkeitsberechnung möglich ist.
Beim Klassifizieren einer Datei in einen Dokumenttyp führt der Intelligent Keyword Classifier folgende Aktionen aus:
- Er findet den nächsten Wortvektor, dem eine Datei ähnlicher ist,
- Er meldet den Dokumenttyp mit der höchsten Bewertung für die zugrundeliegenden übereinstimmenden Hauptwörter.
Der Intelligent Keyword Classifier verfügt auch über Funktionen zur Aufteilung von Dateien, was bedeutet, dass er mehr als eine Klasse für eine bestimmte Datei bei separaten Seitenbereichen melden kann.
Dieser Klassifizierer eignet sich, wenn:
- Ihre Dateien einen oder mehrere Dokumenttypen in einer einzelnen Datei enthalten.
- Ihre Dokumenttypen sich relativ einfach durch den Inhalt unterscheiden lassen.
Sie müssen Ihren Automation Cloud Document Understanding API-Schlüssel verwenden oder Ihre eigene Instanz des Intelligent Keyword Classifier im lokalen AI Center hosten, um diesen Klassifizierer zu verwenden.
Sie können den Intelligent Keyword Classifier zur Entwurfszeit konfigurieren, indem Sie einfach auf den Assistenten Lernfunktion verwalten der Aktivität zugreifen. Der gleiche Assistent kann zum Überprüfen von Daten verwendet werden, die während der Trainingsphase für die Dokumentklassifizierung gesammelt wurden, indem der gleiche Assistent mit einem aktualisierten Lerndateipfad geöffnet wird.
Mit diesem Assistenten können Sie die Trainingsdaten konfigurieren und verwalten, die von dieser Aktivität zum Identifizieren des Dokumenttyps und zum Klassifizieren der Dokumente verwendet werden. Er wurde für die Bearbeitung eines Dateipfads entwickelt. Wenn stattdessen eine Lerndaten-Option mit einer Variablen verwendet wird, werden Sie gefragt, ob Sie entweder einen bestimmten Dateipfad bearbeiten oder diesen Vorgang abbrechen möchten.
- Fügen Sie Ihrem Workflow eine Aktivität vom Typ Intelligent Keyword Classifier/Intelligent Keyword Classifier Trainer hinzu.
- Konfigurieren Sie Ihre Intelligent Keyword Classifier-Aktivität, indem Sie den Pfad einer
.json
-Datei hinzufügen.- Wenn kein Pfad angegeben ist und die Option Lernfunktion verwalten geklickt wird, wird ein Popup angezeigt, in dem nach einer Eingabe des Lerndateipfads gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.
- Eine Variable kann anstelle einer
.json
-Datei hinzugefügt werden, aber da der Assistent das Lernmuster nicht auf eine LearningData-Variable anwenden kann, wird nach einem bestimmten Dateipfad gefragt, der bearbeitet werden kann.
- Klicken Sie auf die Option Lernfunktion verwalten.
- Das Fenster Assistent wird geöffnet.
- Das Fenster Assistent wird geöffnet.
- Wenn kein Pfad angegeben ist und die Option „Lernfunktion verwalten“ geklickt wird, wird ein Popup angezeigt, in dem nach einem Lerndateipfad gefragt wird. Sobald der Pfad angegeben ist, wird der Assistent geöffnet.
Hinweis: Auch wenn keine.json
-Datei verfügbar ist, können Sie den Namen einer neuen.json
-Datei direkt in die Aktivität einfügen. Die.json
-Datei wird dann automatisch im angegebenen Ordner erstellt.
Der folgende Screenshot zeigt einen Dokumenttyp, der trainiert wurde, einen, der nicht trainiert wurde, und einen, der trainiert und aufgerufen wurde, um angezeigt oder gelöscht zu werden.
Für Dokumenttypen, die noch nicht trainiert wurden, kann das Training zum Zeitpunkt der Erstellung mit der Option Training starten durchgeführt werden. Dokumenttypen, die bereits trainiert wurden, können Sie entweder löschen, um von vorne zu beginnen, indem Sie diese Option verwenden, oder mit der Bearbeitungsoption ein zusätzliches Training durchführen (zusätzlich zu dem bereits vorhandenen).
Sobald ein neues Training gestartet wurde, wird ein neuer Bildschirm angezeigt, auf dem nach den Trainingsdateien und dem OCR-Modul gefragt wird, die verwendet werden sollen.
Jedes OCR-Modul verfügt über eine eigene Reihe benutzerdefinierter Optionen. Hier finden Sie weitere Details zu allen Optionen, die für jedes OCR-Modul verfügbar sind.
Die folgenden OCR-Module unterstützen keine gedrehten Dokumente und sollten nicht zum Verarbeiten solcher Dokumente verwendet werden:
- Microsoft OCR
- Tesseract OCR
Nur Trainingsdaten von trainierten Dokumenttypen dürfen exportiert werden. Dokumenttypen, die nicht trainiert wurden, können nicht ausgewählt werden.
Sie können Trainingsdaten wie folgt exportieren:
- Wählen Sie trainierte Dokumenttypen aus.
- Klicken Sie auf die Schaltfläche Exportieren.
- Wenn Sie nicht gespeicherte Änderungen haben, wird die folgende Meldung angezeigt.
- Klicken Sie auf Ja.
- Speichern Sie das Trainingsdatenarchiv mit dem gewünschten Namen.
- Es wird eine Meldung angezeigt, die angibt, wie viele Dokumenttypt-Trainingsdatensätze exportiert wurden. Zum Beispiel:
- Klicken Sie auf OK, um zum Hauptbildschirm des Assistenten zurückzukehren.
Sie können Trainingsdaten wie folgt importieren:
- Klicken Sie auf die Schaltfläche Importieren.
- Wählen Sie das Trainingsdatenarchiv aus und klicken Sie auf Öffnen.
- Wählen Sie die gewünschten Dokumenttypen aus.
- Klicken Sie auf die Schaltfläche Importieren.
- Die Trainingsdaten werden importiert.
In der folgenden Tabelle ist jede Meldung veranschaulicht, die beim Importieren von Trainingsdaten angezeigt wird:
Import Type |
Angezeigte Meldung |
---|---|
Neuer Dokumenttyp und Wortvektoren |
Dieser Dokumenttyp wird der Taxonomie hinzugefügt. |
Neuer Wortvektor (zuvor war keiner definiert) |
Keine Angabe |
Identischer Dokumenttyp und Wortvektor |
Der Wortvektor für diesen Dokumenttyp wird überschrieben. |
Platzieren Sie die Aktivität Intelligent Keyword Classifier Trainer in einen Train Classifiers Scope und konfigurieren Sie sie entsprechend.
Wir können die Konsistenz der Trainingsdatei über parallele Trainings auf Aktivitätsebene hinweg nicht erzwingen. Zwei mögliche Lösungen für dieses Problem bietet der Document Understanding-Prozess. Beide bestehen aus der Steuerung des Datenverkehrs:
- Dateien sperren (standardmäßig im Prozess implementiert): Benennen Sie die Datei mithilfe der
.lock
-Erweiterung um, ändern und speichern Sie die Datei, und benennen Sie die Datei dann erneut um, indem Sie die.lock
-Erweiterung entfernen. - manuelles Einrichten einer speziellen Warteschlange: Erstellen Sie eine leere Warteschlange im Orchestrator und integrieren Sie Ihre beiden Aktivitäten aus dem Projekt.
Weitere Informationen zum Trainieren eines Klassifizierers finden Sie unter Dokumentklassifizierungstraining.