- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- FlexiCapture Classifier
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- ML-Pakete
- Pipelines
- Über Pipelines
- Trainingspipelines
- Auswertungspipelines
- Vollständige Pipelines
- Feinabstimmung
- Die Schleife für die automatische Feinabstimmung (öffentliche Vorschau)
- Dokumentmanager
- OCR-Dienste
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Deep Learning
- Lizenzierung
- Referenzen
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Document Understanding-Benutzerhandbuch.
Die Schleife für die automatische Feinabstimmung (öffentliche Vorschau)
Beim Training/Neutraining eines ML-Modells ist zunächst zu beachten, dass die besten Ergebnisse erzielt werden, indem alle Daten zu einem einzigen großen und idealerweise sorgfältig kuratierten Dataset zusammengefasst werden. Das Training auf Dataset A und dann das erneute Training des resultierenden Modells auf Dataset B führt zu erheblich schlechteren Ergebnissen als das Training auf dem kombinierten Dataset A + B.
Als Zweites ist zu beachten, dass nicht alle Daten identisch sind. Daten, die in einem dedizierten Tool wie dem Document Manager beschriftet werden, sind im Allgemeinen von besserer Qualität und führen zu einem besseren Modell als Daten, die in Tools mit einem anderen Fokus beschriftet werden, z. B. der Validation Station. Daten aus der Validation Station können aus Geschäftsprozesssicht von hoher Qualität sein, aber weniger aus Sicht des Modelltrainings, weil ein ML-Modell Daten in einer sehr spezifischen Form benötigt, die sich fast immer von der von Geschäftsprozessen benötigten Form unterscheidet. Beispielsweise kann die Rechnungsnummer auf einer 10-seitigen Rechnung auf jeder Seite angezeigt werden, wobei es in der Validation Station ausreicht, sie auf der ersten Seite anzugeben. Im Document Manager hingehen erfolgt eine Beschriftung auf jeder Seite. In diesem Fall fehlen 90 % der korrekten Beschriftungen in den Daten der Validation Station. Aus diesem Grund sind Daten der Validation Station begrenzt brauchbar, wie oben beschrieben.
Um ein ML-Modell effektiv zu trainieren, benötigen Sie ein einzelnes, ausgewogenes, hochwertiges und repräsentatives Dataset. Ein Ansatz besteht daher darin, dem Eingabe-Dataset jedes Mal mehr Daten hinzuzufügen und dementsprechend das ML-Modell mit einem immer größeren Dataset zu trainieren. Eine Möglichkeit hierfür ist die Verwendung der Schleife für die automatische Feinabstimmung.
Um ein besseres Verständnis dieser Funktion zu erhalten, sehen wir uns an, wo automatische Feinabstimmung in den ML-Modelllebenszyklus passt.