- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- FlexiCapture Classifier
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 4506T – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Zahlungsbelege – ML-Paket
- RemittanceAdvices – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Über Pipelines
- Trainingspipelines
- Auswertungspipelines
- Vollständige Pipelines
- Feinabstimmung
- Die Schleife für die automatische Feinabstimmung (öffentliche Vorschau)
- Dokumentmanager
- OCR-Dienste
- Deep Learning
- Document Understanding – in der Automation Suite bereitgestellt
- Installieren und verwenden
- First Run Experience
- UiPathDocumentOCR bereitstellen
- Ein out-of-the-box ML-Paket bereitstellen
- Offline-Bundles 2023.4.12
- Offlinepakete 2023.4.11
- Offlinepakete 2023.4.10+Patch1
- Offlinepakete 2023.4.10
- Offlinepakete 2023.4.9
- Offlinepakete 2023.4.8
- Offlinepakete 2023.4.7
- Offlinepakete 2023.4.6
- Offlinepakete 2023.4.5
- Offlinepakete 2023.4.4
- Offlinepakete 2023.4.3
- Offlinepakete 2023.4.2
- Offlinepakete 2023.4.1
- Offlinepakete 2023.4.0
- Verwenden von Document Manager
- Framework verwenden
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Lizenzierung
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)

Document Understanding-Benutzerhandbuch.
Beim Training/Neutraining eines ML-Modells ist zunächst zu beachten, dass die besten Ergebnisse erzielt werden, indem alle Daten zu einem einzigen großen und idealerweise sorgfältig kuratierten Dataset zusammengefasst werden. Das Training auf Dataset A und dann das erneute Training des resultierenden Modells auf Dataset B führt zu erheblich schlechteren Ergebnissen als das Training auf dem kombinierten Dataset A + B.
Darüber hinaus dürfen Sie nicht vergessen, dass nicht alle Daten gleich sind. In einem speziellen Tool wie Document Manager beschriftete Daten haben in der Regel eine bessere Qualität und führen zu einem leistungsfähigeren Modell als Daten, die in Tools mit einem anderen Schwerpunkt beschriftet werden, wie z. B. Validation Station.Daten aus Validation Station sind aus Sicht von Geschäftsprozessen möglicherweise von hoher Qualität, jedoch weniger aus Perspektive des Modelltrainings, da ein ML-Modell Daten in einer sehr bestimmten Form benötigt, die sich fast immer von der für Geschäftsprozesse benötigten Form unterscheidet.Wenn zum Beispiel auf einer 10-seitigen Rechnung die Rechnungsnummer auf jeder Seite steht, beschriftet Validation Station nur die Rechnungsnummer auf der ersten Seite, während Document Manager alle im Dokument beschriftet. In diesem Fall fehlen in den Daten von Validation Station 90 % der korrekten Beschriftungen. Aus diesem Grund sind Daten von Validation Station nur begrenzt nützlich.
Um ein ML-Modell effektiv zu trainieren, benötigen Sie ein einzelnes, ausgewogenes, hochwertiges und repräsentatives Dataset. Ein Ansatz besteht daher darin, dem Eingabe-Dataset jedes Mal mehr Daten hinzuzufügen und dementsprechend das ML-Modell mit einem immer größeren Dataset zu trainieren. Eine Möglichkeit hierfür ist die Verwendung der Schleife für die automatische Feinabstimmung.
Im Lebenszyklus eines Machine Learning-Modells gibt es zwei Hauptphasen:
- die Erstellungsphase und
- die Instandhaltungsphase
Die Erstellungsphase
In dieser ersten Phase verwenden Sie den Document Manager, um das Trainings-Dataset und das Auswertungs-Dataset vorzubereiten und die bestmögliche Leistung zu erhalten.
Gleichzeitig erstellen Sie die RPA-Automatisierung und Geschäftslogik rund um das ML-Modell, was für den gewünschten Nutzen daraus mindestens so wichtig ist wie das Modell selbst.
die Instandhaltungsphase
In dieser zweiten Phase versuchen Sie, das hohe Leistungsniveau zu halten, das Sie in der Erstellungsphase erreicht haben, und verhindern so Verschlechterungen.
Automatische Feinabstimmung (und Daten der Validation Station im Allgemeinen) bezieht sich ausschließlich auf die Wartungsphase. Das Ziel der automatischen Feinabstimmung besteht hauptsächlich darin, zu verhindern, dass sich das ML-Modell verschlechtert, wenn sich die Daten ändern, die durch den Prozess fließen.
Die Schleife für die automatische Feinabstimmung enthält die folgenden Komponenten:
- Roboter-Workflow: Aktivität „Machine Learning Extractor Trainer“
- Document Manager: Funktion zum Planen des Exports
- AI Center: Pipeline für geplantes automatisches erneutes Training
- 4. (Optional) ML-Fähigkeiten automatisch aktualisieren
Voraussetzungen
Um diese Funktionen implementieren zu können, müssen zuvor zwei Anforderungen erfüllt werden:
-
Sie müssen eine Document Manager-Sitzung im AI Center erstellt und eine bestimmte Anzahl von Feldern konfiguriert haben, d. h. hochwertige Trainings- und Auswertungs-Datasets beschriften. Sie können die Felder entweder manuell definieren oder ein Schema importieren. Wenn Felder nicht konfiguriert sind, ist die Registerkarte Zeitplan (Vorschau) nicht aktiviert und die folgende Meldung wird auf dem Bildschirm angezeigt:
- Sie müssen einige Versionen Ihres ML-Modells trainiert, es getestet, alle aufgetretenen Probleme behoben und es für Ihre RPA- und KI-Automatisierung bereitgestellt haben.
1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“
- Fügen Sie die Aktivität Machine Learning Extractor Trainer zu Ihrem Workflow in einem Train Extractors Scope hinzu und konfigurieren Sie den Scope ordnungsgemäß.
- Stellen Sie sicher, dass der Framework-Alias den gleichen Alias wie der Machine Learning Extractor-Alias im Data Extraction Scope enthält.
-
Wählen Sie dann das Projekt und den Dataset aus, der der Document Manager-Sitzung zugeordnet ist, die Ihre Trainings- und Auswertungs-Datasets enthält. Die Dropdownmenüs werden ausgefüllt, sobald Sie mit dem Orchestrator verbunden sind.
Hinweis: Sie können einen Wert für die Eigenschaft „Ausgabeordner“ festlegen, wenn Sie die Daten lokal im Workflow exportieren möchten.
In der Ansicht „Datenbeschriftung“ im AI Center finden Sie den Dataset-Namen neben dem Namen der Sitzung „Datenbeschriftung“:
Für das ausgewählte Dataset erstellt die Aktivität Machine Learning Extractor Trainer einen Ordner mit dem Namen fine-tune (Feinabstimmung) und schreibt die exportierten Dokumente in 3 Ordner: documents (Dokumente), metadata (Metadaten) und predictions (Vorhersagen).
automatically
in zwei Sätze kategorisiert: Training und Validierung, wobei eine Aufteilung von 80 %/20 % beibehalten wird. Infolgedessen enthalten die exportierten Daten sowohl Trainings- als auch Validierungssätze aus den neu gesammelten Daten. Daten werden nur automatisch importiert, wenn der geplante Export im Document Manager aktiviert ist.
2. Document Manager: Funktion zum Planen des Exports
Wählen Sie in einer Sitzung Document Manager die Taste Exportieren', gehen Sie zur Registerkarte Zeitplan (Vorschau) und setzen Sie den Schieberegler Zeitplanung auf aktiv. Wählen Sie dann eine Startzeit und eine Wiederholungsfrequenz. Wenn Sie fertig sind, wählen Sie die Taste Planen.
Mit dem Kontrollkästchen Abwärtskompatibler Export können Sie das Exportverhalten der Legacy-Versionen anwenden, bei dem jede Seite als separates Dokument exportiert wird. Versuchen Sie dies, wenn das mit dem Standardexport trainierte Modell den Erwartungen nicht entspricht. Lassen Sie diese Option deaktiviert, um die Dokumente in ihrer ursprünglichen mehrseitigen Form zu exportieren.
Die minimale Wiederholungsfrequenz beträgt 7 Tage, die maximale 60 Tage.
Da AI Center-Trainingspipelines hauptsächlich für die wöchentliche Ausführung konfiguriert sind, wird eine Wiederholungsfrequenz von 7 Tagen empfohlen.
Wenn Sie den Zeitplan für den Export festlegen, werden die importierten Daten aus dem Ordner fine-tune in den Order export unter auto-export time_stamp exportiert.
Es gibt ein Importlimit von 2.000 Seiten pro Ausführung des automatischen erneuten Trainings.
Genauer gesagt importiert der geplante Export die Daten, die im Ordner fine-tune vorhanden sind, der in Schritt 1 erstellt wurde, und exportiert dann das vollständige Dataset, einschließlich der zuvor vorhandenen Daten und der neu importierten Daten aus der Validation Station in den Ordner export. Mit jedem geplanten Export wird das exportierte Dataset also immer größer.
Die Datei latest.txt wird aktualisiert oder erstellt, wenn es der erste geplante Export ist. Hier finden Sie den Namen des letzten Exports von Document Manager.Der Schemaexport aktualisiert jedoch nicht die Datei latest.txt.Anhand dieser Datei wird von der Pipeline zum automatischen Neutraining in AI Center der neueste Export ermittelt, damit immer mit den neuesten Daten trainiert werden kann. Daher sollten Sie die Datei niemals entfernen oder ändern, da sonst Ihre Pipelines zum automatischen Neutraining fehlschlagen.
3. AI Center: Pipeline für das geplante automatische erneute Training
Bei der Planung eines Trainings oder einer vollständigen Pipeline im AI Center müssen einige Aspekte berücksichtigt werden.
Zuerst empfehlen wir dringend, ein Auswertungs-Dataset zu erstellen und nur vollständige Pipelines zu planen. In vollständigen Pipelines werden Training und Auswertung gemeinsam ausgeführt. Die Auswertungspipeline verwendet zudem das Auswertungs-Dataset, um eine Punktzahl zu ermitteln. Diese Punktzahl ist entscheidend für die Entscheidung, ob die neue Version besser als die vorherige Version ist, und kann für die Nutzung durch Robots bereitgestellt werden.
Dann müssen Sie für die vollständige Pipeline zwei Datasets angeben: ein Eingabe-Dataset und ein Auswertungs-Dataset.
Am Auswertungs-Dataset gibt es im Kontext der Funktion „Schleife für die automatische Feinabstimmung“ keine Änderung. Sie müssen weiterhin wie gewohnt ein Dataset auswählen, der die beiden Ordner „Bilder“ und „Neueste“ sowie die beiden Dateien „schema.json“ und „split.csv“ enthält.
Das Eingabe-Dataset ist zwar kein Dataset mehr, aber Sie müssen den Exportordner im AI Center-Dataset auswählen, der mit der Datenbeschriftungssitzung verbunden ist. Auf diese Weise wird das Training beim letzten Export aus Ihrer Datenbeschriftungssitzung ausgeführt, während die Auswertung für dasselbe Auswertungs-Dataset ausgeführt wird, das Sie angeben.
Drittens müssen Sie die Umgebungsvariable auto-retraining (automatisches erneutes Training) auf True setzen.
Schließlich müssen Sie Wiederkehrend auswählen und einen Tag und eine Uhrzeit festlegen, die genug Zeit für den Export vom Document Manager lassen. Wenn der Document Manager-Export beispielsweise am Samstag um 1 Uhr nachts läuft, dann könnte die Pipeline am Samstag um 2 oder 3 Uhr nachts ausgeführt werden. Wenn die Pipeline ausgeführt wird, der Export aber noch nicht abgeschlossen ist, verwendet sie den vorherigen Export und wird eventuell mit den gleichen Daten erneut trainiert, die sie schon in der vorherigen Woche trainiert hat.
4. (Optional) ML-Fähigkeiten automatisch aktualisieren
Wenn Sie automatisch die neueste Version des ML-Pakets bereitstellen möchten, die von den automatisch geplanten Trainingspipelines erstellt wird, können Sie bei der ML-Fähigkeit die Funktion Automatische Aktualisierung aktivieren.
Die ML-Fähigkeit wird automatisch aktualisiert, unabhängig davon, ob die Genauigkeit im Vergleich zum vorherigen Training verbessert wurde – verwenden Sie diese Funktion also mit Vorsicht.
In einigen Fällen ist es möglich, dass sich die Gesamtpunktzahl verbessert, auch wenn sich die Qualität eines bestimmtes Feld etwas verschlechtern kann. Dieses Feld kann jedoch für Ihren Geschäftsprozess von entscheidender Bedeutung sein. Daher erfordern die automatische Aktualisierung und das automatische erneute Training im Allgemeinen eine sorgfältige Überwachung, um erfolgreich zu sein.
Die Schleife für die automatische Feinabstimmung ist abgeschlossen. Jetzt können Sie Ihre ML-Modelle automatisch mithilfe von Daten aus der Validation Station erneut trainieren.
- Der Lebenszyklus eines ML-Modells
- Die Erstellungsphase
- die Instandhaltungsphase
- Die Komponenten der automatischen Schleife für Feinabstimmung
- Voraussetzungen
- 1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“
- 2. Document Manager: Funktion zum Planen des Exports
- 3. AI Center: Pipeline für das geplante automatische erneute Training
- 4. (Optional) ML-Fähigkeiten automatisch aktualisieren