document-understanding

2022.4

false

Document Understanding-Benutzerhandbuch.

BEREITSTELLUNG:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Letzte Aktualisierung 11. Nov. 2024

Die Schleife für die automatische Feinabstimmung (öffentliche Vorschau)

Beim Training/Neutraining eines ML-Modells ist zunächst zu beachten, dass die besten Ergebnisse erzielt werden, indem alle Daten zu einem einzigen großen und idealerweise sorgfältig kuratierten Dataset zusammengefasst werden. Das Training auf Dataset A und dann das erneute Training des resultierenden Modells auf Dataset B führt zu erheblich schlechteren Ergebnissen als das Training auf dem kombinierten Dataset A + B.

Als Zweites ist zu beachten, dass nicht alle Daten identisch sind. Daten, die in einem dedizierten Tool wie dem Document Manager beschriftet werden, sind im Allgemeinen von besserer Qualität und führen zu einem besseren Modell als Daten, die in Tools mit einem anderen Fokus beschriftet werden, z. B. der Validation Station. Daten aus der Validation Station können aus Geschäftsprozesssicht von hoher Qualität sein, aber weniger aus Sicht des Modelltrainings, weil ein ML-Modell Daten in einer sehr spezifischen Form benötigt, die sich fast immer von der von Geschäftsprozessen benötigten Form unterscheidet. Beispielsweise kann die Rechnungsnummer auf einer 10-seitigen Rechnung auf jeder Seite angezeigt werden, wobei es in der Validation Station ausreicht, sie auf der ersten Seite anzugeben. Im Document Manager hingehen erfolgt eine Beschriftung auf jeder Seite. In diesem Fall fehlen 90 % der korrekten Beschriftungen in den Daten der Validation Station. Aus diesem Grund sind Daten der Validation Station begrenzt brauchbar, wie oben beschrieben.

Um ein ML-Modell effektiv zu trainieren, benötigen Sie ein einzelnes, ausgewogenes, hochwertiges und repräsentatives Dataset. Ein Ansatz besteht daher darin, dem Eingabe-Dataset jedes Mal mehr Daten hinzuzufügen und dementsprechend das ML-Modell mit einem immer größeren Dataset zu trainieren. Eine Möglichkeit hierfür ist die Verwendung der Schleife für die automatische Feinabstimmung.

Um ein besseres Verständnis dieser Funktion zu erhalten, sehen wir uns an, wo automatische Feinabstimmung in den ML-Modelllebenszyklus passt.

Der Lebenszyklus eines ML-Modells

Im Lebenszyklus eines Machine Learning-Modells gibt es zwei Hauptphasen:

die Erstellungsphase
die Pflegephase

Die Erstellungsphase

In dieser ersten Phase verwenden Sie den Document Manager, um den Trainings-Dataset und das Auswertungs-Dataset vorzubereiten, um die bestmögliche Leistung zu erzielen.

Gleichzeitig erstellen Sie die RPA-Automatisierung und Geschäftslogik rund um das ML-Modell, was für den gewünschten Nutzen daraus mindestens so wichtig ist wie das Modell selbst.

Die Pflegephase

In dieser zweiten Phase versuchen Sie, das hohe Leistungsniveau zu halten, das Sie in der Erstellungsphase erreicht haben, und verhindern so Verschlechterungen.

Automatische Feinabstimmung (und Daten der Validation Station im Allgemeinen) bezieht sich ausschließlich auf die Wartungsphase. Das Ziel der automatischen Feinabstimmung besteht hauptsächlich darin, zu verhindern, dass sich das ML-Modell verschlechtert, wenn sich die Daten ändern, die durch den Prozess fließen.

Wichtig: Daten, die nach der menschlichen Validierung mithilfe der Validation Station zurückgegeben werden, sollten nicht verwendet werden, um ein Modell von Grund auf neu zu erstellen. Das Erstellen eines Modells sollte durch Vorbereiten von Trainings- und Auswertungs-Datasets im Document Manager erfolgen.

Die Komponenten der automatischen Schleife für Feinabstimmung

Die Schleife für die automatische Feinabstimmung enthält die folgenden Komponenten:

1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“
2. Document Manager: Funktion zum Planen des Exports
3. AI Center: Pipeline für das geplante automatische erneute Training
4. (Optional) ML-Fähigkeiten automatisch aktualisieren

Voraussetzungen

Um diese Funktionen implementieren zu können, müssen zuvor zwei Anforderungen erfüllt werden:

Sie müssen eine Document Manager-Sitzung im AI Center erstellt und eine bestimmte Anzahl von Feldern konfiguriert haben, d. h. hochwertige Trainings- und Auswertungs-Datasets beschriften. Sie können die Felder entweder manuell definieren oder ein Schema importieren. Wenn Felder nicht konfiguriert sind, ist die Registerkarte Zeitplan (Vorschau) nicht aktiviert und die folgende Meldung wird auf dem Bildschirm angezeigt:
Sie müssen einige Versionen Ihres ML-Modells trainiert, es getestet, alle aufgetretenen Probleme behoben und es für Ihre RPA- und KI-Automatisierung bereitgestellt haben.

1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“

Fügen Sie die Aktivität Machine Learning Extractor Trainer in einem Train Extractors Scope in Ihren Workflow ein, konfigurieren Sie den Scope ordnungsgemäß und stellen Sie sicher, dass das Framework-Alias das gleiche Alias wie das Machine Learning Extractor-Alias im Data Extraction Scope enthält.

Wählen Sie dann das Projekt und den Dataset aus, der der Document Manager-Sitzung zugeordnet ist, die Ihre Trainings- und Auswertungs-Datasets enthält. Die Dropdownmenüs werden ausgefüllt, sobald Sie mit dem Orchestrator verbunden sind.

Hinweis: Sie können einen Wert für die Eigenschaft „Ausgabeordner“ festlegen, wenn Sie die Daten lokal im Workflow exportieren möchten.

Sie können den Dataset-Namen in der Ansicht „Data Labeling“ im AI Center neben dem Namen der Data Labeling-Sitzung sehen:

Für das ausgewählte Dataset erstellt die Aktivität Machine Learning Extractor Trainer einen Ordner mit dem Namen fine-tune (Feinabstimmung) und schreibt die exportierten Dokumente in 3 Ordner: documents (Dokumente), metadata (Metadaten) und predictions (Vorhersagen).

Dies ist der Ordner, in den die Daten dann automatisch in den Document Manager importiert, mit den zuvor vorhandenen Daten zusammengeführt und in das richtige Format exportiert werden, das von einem Training oder einer vollständigen Pipeline verbraucht werden soll.

2. Document Manager: Funktion zum Planen des Exports

Klicken Sie in einer Document Manager-Sitzung auf die Schaltfläche Exportieren , wechseln Sie zur Registerkarte Zeitplan (Vorschau) und aktivieren Sie den Schieberegler Planung. Wählen Sie dann eine Startzeit und eine Wiederholungsfrequenz aus. Wenn Sie fertig sind, klicken Sie auf die Schaltfläche Zeitplan.

Mit dem Kontrollkästchen Abwärtskompatibler Export können Sie das Exportverhalten der Legacy-Versionen anwenden, bei dem jede Seite als separates Dokument exportiert wird. Versuchen Sie dies, wenn das mit dem Standardexport trainierte Modell den Erwartungen nicht entspricht. Lassen Sie diese Option deaktiviert, um die Dokumente in ihrer ursprünglichen mehrseitigen Form zu exportieren.

Hinweis:

Die minimale Wiederholungsfrequenz beträgt 1 Tag, die maximale 60 Tage.

Da AI Center-Trainingspipelines hauptsächlich für die wöchentliche Ausführung konfiguriert sind, wird eine Wiederholungsfrequenz von 7 Tagen empfohlen.

Wenn Sie den Zeitplan für den Export festlegen, werden die importierten Daten aus dem Ordner fine-tune in den Order export unter auto-export time_stamp exportiert.

Genauer gesagt importiert der geplante Export die Daten, die im Ordner fine-tune vorhanden sind, der in Schritt 1 erstellt wurde, und exportiert dann das vollständige Dataset, einschließlich der zuvor vorhandenen Daten und der neu importierten Daten aus der Validation Station in den Ordner export. Mit jedem geplanten Export wird das exportierte Dataset also immer größer.

Die Datei latest.txt wird aktualisiert bzw. erstellt, wenn dies der erste geplante Export ist. Hier sehen Sie den Namen des neuesten Exports durch den Document Manager. Durch den Export des Schemas wird latest.txt jedoch nicht geändert. Diese Datei wird von der Pipeline für automatisches erneutes Training im AI Center verwendet, um festzustellen, welcher der neueste Export ist, sodass immer mit den neuesten Daten trainiert werden kann. Sie sollten sie daher nie entfernen oder ändern. Andernfalls schlagen Ihre Pipelines für das automatische erneute Training fehl.

Hinweis: Der geplante Import-und-Export-Vorgang kann bis zu 1–2 Stunden dauern, abhängig davon, wie viele Daten in der vorigen Woche aus Schritt 1 gesendet wurden. Wir empfehlen Ihnen, eine Uhrzeit zu wählen, in der Sie den Document Manager nicht verwenden, da bei laufendem Exportvorgang keine anderen Exporte oder Importe zulässig sind. Das Beschriften ist jedoch immer möglich.

3. AI Center: Pipeline für das geplante automatische erneute Training

Bei der Planung eines Trainings oder einer vollständigen Pipeline im AI Center müssen einige Aspekte berücksichtigt werden.

Zuerst empfehlen wir dringend, ein Auswertungs-Dataset zu erstellen und nur vollständige Pipelines zu planen. In vollständigen Pipelines werden Training und Auswertung gemeinsam ausgeführt. Die Auswertungspipeline verwendet zudem das Auswertungs-Dataset, um eine Punktzahl zu ermitteln. Diese Punktzahl ist entscheidend für die Entscheidung, ob die neue Version besser als die vorherige Version ist, und kann für die Nutzung durch Robots bereitgestellt werden.

Dann müssen Sie für die vollständige Pipeline zwei Datasets angeben: ein Eingabe-Dataset und ein Auswertungs-Dataset.

Am Auswertungs-Dataset gibt es im Kontext der Funktion „Schleife für die automatische Feinabstimmung“ keine Änderung. Sie müssen weiterhin wie gewohnt ein Dataset auswählen, der die beiden Ordner „Bilder“ und „Neueste“ sowie die beiden Dateien „schema.json“ und „split.csv“ enthält.

Das Eingabe-Dataset ist zwar kein Dataset mehr, aber Sie müssen den Exportordner im AI Center-Dataset auswählen, der mit der Datenbeschriftungssitzung verbunden ist. Auf diese Weise wird das Training beim letzten Export aus Ihrer Datenbeschriftungssitzung ausgeführt, während die Auswertung für dasselbe Auswertungs-Dataset ausgeführt wird, das Sie angeben.

Wichtig: Wenn Sie den Exportordner nicht auswählen, funktioniert das automatische erneute Training nicht.

Drittens müssen Sie die Umgebungsvariable auto-retraining (automatisches erneutes Training) auf True setzen.

Schließlich müssen Sie Wiederkehrend auswählen und einen Tag und eine Uhrzeit festlegen, die genug Zeit für den Export vom Document Manager lassen. Wenn der Document Manager-Export beispielsweise am Samstag um 1 Uhr nachts läuft, dann könnte die Pipeline am Samstag um 2 oder 3 Uhr nachts ausgeführt werden. Wenn die Pipeline ausgeführt wird, der Export aber noch nicht abgeschlossen ist, verwendet sie den vorherigen Export und wird eventuell mit den gleichen Daten erneut trainiert, die sie schon in der vorherigen Woche trainiert hat.

4. (Optional) ML-Fähigkeiten automatisch aktualisieren

Wenn Sie automatisch die neueste Version des ML-Pakets bereitstellen möchten, die von den automatisch geplanten Trainingspipelines erstellt wird, können Sie bei der ML-Fähigkeit die Funktion Automatische Aktualisierung aktivieren.

Hinweis:

Die ML-Fähigkeit wird automatisch aktualisiert, unabhängig davon, ob die Genauigkeit im Vergleich zum vorherigen Training verbessert wurde – verwenden Sie diese Funktion also mit Vorsicht.

In einigen Fällen ist es möglich, dass sich die Gesamtpunktzahl verbessert, auch wenn sich die Qualität eines bestimmtes Feld etwas verschlechtern kann. Dieses Feld kann jedoch für Ihren Geschäftsprozess von entscheidender Bedeutung sein. Daher erfordern die automatische Aktualisierung und das automatische erneute Training im Allgemeinen eine sorgfältige Überwachung, um erfolgreich zu sein.

Die Schleife für die automatische Feinabstimmung ist abgeschlossen. Jetzt können Sie Ihre ML-Modelle automatisch mithilfe von Daten aus der Validation Station erneut trainieren.

Auf dieser Seite