UiPath Documentation
document-understanding
2.2510
true
Wichtig :
Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.
UiPath logo, featuring letters U and I in white

Document Understanding user guide

Letzte Aktualisierung 6. Apr. 2026

Die Schleife für die automatische Feinabstimmung (öffentliche Vorschau)

Beim Training/Neutraining eines ML-Modells ist zunächst zu beachten, dass die besten Ergebnisse erzielt werden, indem alle Daten zu einem einzigen großen und idealerweise sorgfältig kuratierten Dataset zusammengefasst werden. Das Training auf Dataset A und dann das erneute Training des resultierenden Modells auf Dataset B führt zu erheblich schlechteren Ergebnissen als das Training auf dem kombinierten Dataset A + B.

Darüber hinaus dürfen Sie nicht vergessen, dass nicht alle Daten gleich sind. In einem speziellen Tool wie Document Manager beschriftete Daten haben in der Regel eine bessere Qualität und führen zu einem leistungsfähigeren Modell als Daten, die in Tools mit einem anderen Schwerpunkt beschriftet werden, wie z. B. Validation Station.Daten aus Validation Station sind aus Sicht von Geschäftsprozessen möglicherweise von hoher Qualität, jedoch weniger aus Perspektive des Modelltrainings, da ein ML-Modell Daten in einer sehr bestimmten Form benötigt, die sich fast immer von der für Geschäftsprozesse benötigten Form unterscheidet.Wenn zum Beispiel auf einer 10-seitigen Rechnung die Rechnungsnummer auf jeder Seite steht, beschriftet Validation Station nur die Rechnungsnummer auf der ersten Seite, während Document Manager alle im Dokument beschriftet. In diesem Fall fehlen in den Daten von Validation Station 90 % der korrekten Beschriftungen. Aus diesem Grund sind Daten von Validation Station nur begrenzt nützlich.

Um ein ML-Modell effektiv zu trainieren, benötigen Sie ein einzelnes, ausgewogenes, hochwertiges und repräsentatives Dataset. Ein Ansatz besteht daher darin, dem Eingabe-Dataset jedes Mal mehr Daten hinzuzufügen und dementsprechend das ML-Modell mit einem immer größeren Dataset zu trainieren. Eine Möglichkeit hierfür ist die Verwendung der Schleife für die automatische Feinabstimmung.

Der Lebenszyklus eines ML-Modells

Im Lebenszyklus eines Machine Learning-Modells gibt es zwei Hauptphasen:

  • die Erstellungsphase und
  • die Instandhaltungsphase

Die Erstellungsphase

In dieser ersten Phase verwenden Sie den Document Manager, um das Trainings-Dataset und das Auswertungs-Dataset vorzubereiten und die bestmögliche Leistung zu erhalten.

Gleichzeitig erstellen Sie die RPA-Automatisierung und Geschäftslogik rund um das ML-Modell, was für den gewünschten Nutzen daraus mindestens so wichtig ist wie das Modell selbst.

die Instandhaltungsphase

In dieser zweiten Phase versuchen Sie, das hohe Leistungsniveau zu halten, das Sie in der Erstellungsphase erreicht haben, und verhindern so Verschlechterungen.

Automatische Feinabstimmung (und Daten der Validation Station im Allgemeinen) bezieht sich ausschließlich auf die Wartungsphase. Das Ziel der automatischen Feinabstimmung besteht hauptsächlich darin, zu verhindern, dass sich das ML-Modell verschlechtert, wenn sich die Daten ändern, die durch den Prozess fließen.

Wichtig:

Data fed back from the human validation using Validation Station should not be used to build a model from scratch. Building a model should be done by preparing training and evaluation datasets in Document Manager.

Die Komponenten der automatischen Schleife für Feinabstimmung

Die Schleife für die automatische Feinabstimmung enthält die folgenden Komponenten:

  1. Roboter-Workflow: Aktivität „Machine Learning Extractor Trainer“
  2. Document Manager: Funktion zum Planen des Exports
  3. AI Center: Pipeline für geplantes automatisches erneutes Training
    1. (Optional) Auto-update ML Skills

Voraussetzungen

Um diese Funktionen implementieren zu können, müssen zuvor zwei Anforderungen erfüllt werden:

  • Sie müssen eine Document Manager-Sitzung im AI Center erstellt und eine bestimmte Anzahl von Feldern konfiguriert haben, d. h. hochwertige Trainings- und Auswertungs-Datasets beschriften. Sie können die Felder entweder manuell definieren oder ein Schema importieren. Wenn Felder nicht konfiguriert sind, ist die Registerkarte Zeitplan (Vorschau) nicht aktiviert und die folgende Meldung wird auf dem Bildschirm angezeigt:

    Screenshot der Oberfläche „Dateien exportieren“.

  • Sie müssen einige Versionen Ihres ML-Modells trainiert, es getestet, alle aufgetretenen Probleme behoben und es für Ihre RPA- und KI-Automatisierung bereitgestellt haben.

1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“

  • Add the Machine Learning Extractor Trainer activity into your workflow in a Train Extractors Scope and properly configure the scope

  • Make sure the Framework Alias contains the same alias as the Machine Learning Extractor alias in the Data Extraction Scope.

  • Select the Project and the Dataset associated with the Document Manager session that contains your Training and Evaluation datasets. The drop-down menus are prepopulated once you are connected to Orchestrator.

    Hinweis:

    You can set a value for the Output Folder property if you want to export the data locally in the workflow.

    Screenshot der Oberfläche des Bereichs „Extraktoren trainieren“.

In der Ansicht „Datenbeschriftung“ im AI Center finden Sie den Dataset-Namen neben dem Namen der Sitzung „Datenbeschriftung“:

Screenshot der Oberfläche der Sitzung „Datenbeschriftung“.

Für das ausgewählte Dataset erstellt die Aktivität Machine Learning Extractor Trainer einen Ordner mit dem Namen fine-tune (Feinabstimmung) und schreibt die exportierten Dokumente in 3 Ordner: documents (Dokumente), metadata (Metadaten) und predictions (Vorhersagen).

Screenshot der Oberfläche „Dataset“.

Dieser Ordner ist für den automatischen Import von Daten in den Document Manager vorgesehen. Die importierten Daten werden mit den zuvor vorhandenen Daten zusammengeführt und diese werden dann im richtigen Format für die Verwendung in einer Trainings- oder vollständigen Pipeline exportiert. Die importierten Daten werden automatically in zwei Sätze kategorisiert: Training und Validierung, wobei eine Aufteilung von 80 %/20 % beibehalten wird. Infolgedessen enthalten die exportierten Daten sowohl Trainings- als auch Validierungssätze aus den neu gesammelten Daten. Daten werden nur automatisch importiert, wenn der geplante Export im Document Manager aktiviert ist.

2. Document Manager: Funktion zum Planen des Exports

From a Document Manager session, select the Export button Schaltfläche „Exportieren“, go to the Schedule (Preview) tab, and enable the Scheduling slider. Then select a start time and a recurrence. When ready, select the Schedule button.

Mit dem Kontrollkästchen Abwärtskompatibler Export können Sie das Exportverhalten der Legacy-Versionen anwenden, bei dem jede Seite als separates Dokument exportiert wird. Versuchen Sie dies, wenn das mit dem Standardexport trainierte Modell den Erwartungen nicht entspricht. Lassen Sie diese Option deaktiviert, um die Dokumente in ihrer ursprünglichen mehrseitigen Form zu exportieren.

Hinweis:

Die minimale Wiederholungsfrequenz beträgt 7 Tage, die maximale 60 Tage.

Da AI Center-Trainingspipelines hauptsächlich für die wöchentliche Ausführung konfiguriert sind, wird eine Wiederholungsfrequenz von 7 Tagen empfohlen.

Screenshot der Oberfläche „Dateien exportieren“.

When you set the schedule for export, the imported data from the fine-tune folder is exported to the export folder under auto-export time_stamp.

Hinweis:

There is a 2000 page import limit per auto-retrain run.

Genauer gesagt importiert der geplante Export die Daten, die im Ordner fine-tune vorhanden sind, der in Schritt 1 erstellt wurde, und exportiert dann das vollständige Dataset, einschließlich der zuvor vorhandenen Daten und der neu importierten Daten aus der Validation Station in den Ordner export. Mit jedem geplanten Export wird das exportierte Dataset also immer größer.

The file latest.txt is updated or created if this is the first scheduled export. Here you can check the name of the latest export made by Document Manager. Schema export, however, does not update latest.txt. This file is used by the auto-retraining pipeline in AI Center to determine which is the latest export so it can always train on the latest data, so you should never remove or modify it, otherwise, your auto-retraining pipelines will fail.

Screenshot der Oberfläche „Dataset“.

Hinweis:

The Scheduled import+export operation might take up to 1-2 hours, depending on how much data was sent from Step 1 during the previous week. We recommend you choose a time when you will not use the Document Manager due to the fact that when an export operation is ongoing no other exports or imports are allowed. However, labeling is always possible.

3. AI Center: Pipeline für das geplante automatische erneute Training

Bei der Planung eines Trainings oder einer vollständigen Pipeline im AI Center müssen einige Aspekte berücksichtigt werden.

Zuerst empfehlen wir dringend, ein Auswertungs-Dataset zu erstellen und nur vollständige Pipelines zu planen. In vollständigen Pipelines werden Training und Auswertung gemeinsam ausgeführt. Die Auswertungspipeline verwendet zudem das Auswertungs-Dataset, um eine Punktzahl zu ermitteln. Diese Punktzahl ist entscheidend für die Entscheidung, ob die neue Version besser als die vorherige Version ist, und kann für die Nutzung durch Robots bereitgestellt werden.

Dann müssen Sie für die vollständige Pipeline zwei Datasets angeben: ein Eingabe-Dataset und ein Auswertungs-Dataset.

Screenshot der Benutzeroberfläche mit beiden Datasets.

Am Auswertungs-Dataset gibt es im Kontext der Funktion „Schleife für die automatische Feinabstimmung“ keine Änderung. Sie müssen weiterhin wie gewohnt ein Dataset auswählen, der die beiden Ordner „Bilder“ und „Neueste“ sowie die beiden Dateien „schema.json“ und „split.csv“ enthält.

Das Eingabe-Dataset ist zwar kein Dataset mehr, aber Sie müssen den Exportordner im AI Center-Dataset auswählen, der mit der Datenbeschriftungssitzung verbunden ist. Auf diese Weise wird das Training beim letzten Export aus Ihrer Datenbeschriftungssitzung ausgeführt, während die Auswertung für dasselbe Auswertungs-Dataset ausgeführt wird, das Sie angeben.

Wichtig:

If you do not select the export folder, the auto-retraining does not work.

Drittens müssen Sie die Umgebungsvariable auto-retraining (automatisches erneutes Training) auf True setzen.

Schließlich müssen Sie Wiederkehrend auswählen und einen Tag und eine Uhrzeit festlegen, die genug Zeit für den Export vom Document Manager lassen. Wenn der Document Manager-Export beispielsweise am Samstag um 1 Uhr nachts läuft, dann könnte die Pipeline am Samstag um 2 oder 3 Uhr nachts ausgeführt werden. Wenn die Pipeline ausgeführt wird, der Export aber noch nicht abgeschlossen ist, verwendet sie den vorherigen Export und wird eventuell mit den gleichen Daten erneut trainiert, die sie schon in der vorherigen Woche trainiert hat.

Screenshot der Oberfläche „Neue Pipelineausführung erstellen“.

4. (Optional) ML-Fähigkeiten automatisch aktualisieren

Wenn Sie automatisch die neueste Version des ML-Pakets bereitstellen möchten, die von den automatisch geplanten Trainingspipelines erstellt wird, können Sie bei der ML-Fähigkeit die Funktion Automatische Aktualisierung aktivieren.

Hinweis:

Die ML-Fähigkeit wird automatisch aktualisiert, unabhängig davon, ob die Genauigkeit im Vergleich zum vorherigen Training verbessert wurde – verwenden Sie diese Funktion also mit Vorsicht.

In einigen Fällen ist es möglich, dass sich die Gesamtpunktzahl verbessert, auch wenn sich die Qualität eines bestimmtes Feld etwas verschlechtern kann. Dieses Feld kann jedoch für Ihren Geschäftsprozess von entscheidender Bedeutung sein. Daher erfordern die automatische Aktualisierung und das automatische erneute Training im Allgemeinen eine sorgfältige Überwachung, um erfolgreich zu sein.

Screenshot der Oberfläche „ML-Fähigkeit aktualisieren“.

Die Schleife für die automatische Feinabstimmung ist abgeschlossen. Jetzt können Sie Ihre ML-Modelle automatisch mithilfe von Daten aus der Validation Station erneut trainieren.

War diese Seite hilfreich?

Verbinden

Benötigen Sie Hilfe? Support

Möchten Sie lernen? UiPath Academy

Haben Sie Fragen? UiPath-Forum

Auf dem neuesten Stand bleiben