- Erste Schritte
- Framework-Komponenten
- Document Understanding im AI Center
- Pipelines
- ML-Pakete
- Data Manager
- OCR-Dienste
- Lizenzierung
- Referenzen
Übersicht zur Dokumentklassifizierung
Die Dokumentklassifizierung ist eine Komponente im Document Understanding-Framework, mit der identifiziert werden kann, welche Dateitypen der Roboter verarbeitet.
Eine Datei kann abhängig vom Inhalt und den verwendeten Klassifizierungsmethoden in einen oder mehrere Dokumenttypen klassifiziert werden:
- Wenn eine Datei einen einzigen logischen Dokumenttyp enthält (z. B. eine Rechnung oder eine vollständige Gesundheitsakte ist), sollte die Klassifizierungskomponente entsprechend konfiguriert werden und ein einziges Klassifizierungsergebnis zurückgeben;
- Wenn eine Datei mehrere logische Dokumenttypen enthält (z. B. eine Rechnung von Seite 1 bis Seite 5, eine Gesundheitsakte für die nächsten 10 Seiten und einen Versicherungsvertrag von Seite 16 bis zum Ende), sollte die Klassifizierungskomponente mehrere Klassifizierungsergebnisse zurückgeben, die jeweils dem richtigen Seitenbereich der Eingabedatei entsprechen.
Dokumenttypen, für welche die Klassifizierung versucht wird, sind die in der Taxonomie des Projekts definierten.
Wenn ein Projekt Dateien verarbeiten muss, die alle den gleichen Dokumenttyp aufweisen und immer als eine einzige Instanz pro Datei vorhanden sind (z. B. eine einzige Rechnung in einer einzigen Datei), dann ist eine Klassifizierung nicht erforderlich und kann vollständig übersprungen werden.
Doch wenn das Projekt zwei oder mehr Dokumenttypen behandelt (z. B. wenn der Workflow Rechnungen und Gesundheitsakten verarbeiten muss, die vor der Verarbeitung nicht unterschieden werden können) oder Dateien manchmal zwei oder mehr unterschiedliche Dokumenttypen enthalten können (z. B. wenn eine einzige Datei 3 Rechnungen enthält), dann wird eine Klassifizierung dringend empfohlen.
Die Klassifizierung erfolgt über die Aktivität Classify Document Scope. Um die Dokumente zu klassifizieren, können Sie einen oder mehrere Klassifizierer verwenden, da die Scope-Aktivität die Aufgabe hat, einen oder mehrere Algorithmen für die Dokumentklassifizierung zu konfigurieren und auszuführen und eine einfache, einheitliche Konfigurationsoption für alle Anforderungen zu bieten.
Grundlegende Aktionen von Classify Document Scope:
- Stellt allen Klassifizierern (Klassifizierungsalgorithmen) die erforderlichen Konfigurationen zur Ausführung bereit.
- Akzeptiert einen oder mehrere Klassifizierer.
- Ermöglicht die Dokumenttypfilterung, Taxonomiezuordnung und Mindestkonfidenz-Schwellenwerteinstellungen auf Klassifiziererebene.
- Meldet Klassifizierungsinformationen auf einheitliche Weise, unabhängig von der Quelle der Klassifizierung.
Classify Document Scope ermöglicht das Konfigurieren über den Assistenten Klassifizierer konfigurieren. Sie können anpassen,
- welche Dokumenttypen von welchem Klassifizierer akzeptiert werden,
- welcher Mindestkonfidenzschwellenwert bei einem bestimmten Ergebnis für den jeweiligen Klassifizierer akzeptabel ist,
- welche Taxonomiezuordnung auf Dokumenttypebene, zwischen der Projekttaxonomie und der internen Taxonomie des Klassifizierers (falls vorhanden) gilt.
Bitte beachten Sie, dass die Reihenfolge der Klassifizierer bei Classify Document Scope wichtig ist:
- Klassifizierer werden mit einer Priorität von links nach rechts ausgeführt;
- Ein Klassifizierungsergebnis, das von einem Klassifizierer zurückgegeben wird, wird akzeptiert, wenn es einen der akzeptierten Dokumenttypen meldet und einen Konfidenzschwellenwert größer/gleich dem Mindestkonfidenzschwellenwert aufweist, der für den Klassifizierer festgelegt wurde;
- Ein Klassifizierer wird nur für die Seitenbereiche ausgeführt, die von den vorherigen Klassifizierern noch nicht klassifiziert worden sind (kann also bei einer Ausführung mehrmals aufgerufen werden).
Je nach den Anforderungen des Anwendungsfalls können Sie aus mehreren Klassifizierungsmethoden wählen, die als Klassifizierer bezeichnet werden.
Sie finden Klassifizierer in den UiPath.IntelligentOCR.Activities-Paketen sowie in anderen Paketen von UiPath (UiPath.DocumentUnderstanding.ML.Activities) oder Drittanbietern (UiPath.Abbyy.Activities).
Verfügbare Klassifizierer:
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- FlexiCapture Classifier
Sie können jederzeit einen eigenen Klassifizierer erstellen, indem Sie die öffentlichen Document Processing Contracts verwenden und so jeden Algorithmus implementieren können, der zu Ihrem Anwendungsfall passt.