Document Understanding – Die Schleife für die automatische Feinabstimmung (öffentliche Vorschau)

document-understanding

2.2510

true

Document Understanding-Benutzerhandbuch.

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Die Schleife für die automatische Feinabstimmung (öffentliche Vorschau)

Konfigurieren Sie die Schleife für die automatische Feinabstimmung (Öffentliche Vorschau), um ML-Modelle iterativ zu verbessern, indem Sie Trainingsdaten in einem einzigen kuratierten Dataset zusammenfassen, anstatt sequenziell auf separaten Datasets erneut zu trainieren.

Beim Training/Neutraining eines ML-Modells ist zunächst zu beachten, dass die besten Ergebnisse erzielt werden, indem alle Daten zu einem einzigen großen und idealerweise sorgfältig kuratierten Dataset zusammengefasst werden. Das Training auf Dataset A und dann das erneute Training des resultierenden Modells auf Dataset B führt zu erheblich schlechteren Ergebnissen als das Training auf dem kombinierten Dataset A + B.

Darüber hinaus dürfen Sie nicht vergessen, dass nicht alle Daten gleich sind. In einem speziellen Tool wie Document Manager beschriftete Daten haben in der Regel eine bessere Qualität und führen zu einem leistungsfähigeren Modell als Daten, die in Tools mit einem anderen Schwerpunkt beschriftet werden, wie z. B. Validation Station.Daten aus Validation Station sind aus Sicht von Geschäftsprozessen möglicherweise von hoher Qualität, jedoch weniger aus Perspektive des Modelltrainings, da ein ML-Modell Daten in einer sehr bestimmten Form benötigt, die sich fast immer von der für Geschäftsprozesse benötigten Form unterscheidet.Wenn zum Beispiel auf einer 10-seitigen Rechnung die Rechnungsnummer auf jeder Seite steht, beschriftet Validation Station nur die Rechnungsnummer auf der ersten Seite, während Document Manager alle im Dokument beschriftet. In diesem Fall fehlen in den Daten von Validation Station 90 % der korrekten Beschriftungen. Aus diesem Grund sind Daten von Validation Station nur begrenzt nützlich.

Um ein ML-Modell effektiv zu trainieren, benötigen Sie ein einzelnes, ausgewogenes, hochwertiges und repräsentatives Dataset. Ein Ansatz besteht daher darin, dem Eingabe-Dataset jedes Mal mehr Daten hinzuzufügen und dementsprechend das ML-Modell mit einem immer größeren Dataset zu trainieren. Eine Möglichkeit hierfür ist die Verwendung der Schleife für die automatische Feinabstimmung.

Der Lebenszyklus eines ML-Modells

Im Lebenszyklus eines Machine Learning-Modells gibt es zwei Hauptphasen:

die Erstellungsphase und
die Instandhaltungsphase

Die Erstellungsphase

In dieser ersten Phase verwenden Sie den Document Manager, um das Trainings-Dataset und das Auswertungs-Dataset vorzubereiten und die bestmögliche Leistung zu erhalten.

Gleichzeitig erstellen Sie die RPA-Automatisierung und Geschäftslogik rund um das ML-Modell, was für den gewünschten Nutzen daraus mindestens so wichtig ist wie das Modell selbst.

die Instandhaltungsphase

In dieser zweiten Phase versuchen Sie, das hohe Leistungsniveau zu halten, das Sie in der Erstellungsphase erreicht haben, und verhindern so Verschlechterungen.

Automatische Feinabstimmung (und Daten der Validation Station im Allgemeinen) bezieht sich ausschließlich auf die Wartungsphase. Das Ziel der automatischen Feinabstimmung besteht hauptsächlich darin, zu verhindern, dass sich das ML-Modell verschlechtert, wenn sich die Daten ändern, die durch den Prozess fließen.

Wichtig:

Daten, die nach der Validierung durch einen Menschen mithilfe der Validation Station zurückgegeben werden, sollten nicht verwendet werden, um ein Modell von Grund auf neu zu erstellen. Das Erstellen eines Modells sollte durch Vorbereiten von Trainings- und Auswertungs-Datasets im Document Manager erfolgen.

Die Komponenten der automatischen Schleife für Feinabstimmung

Die Schleife für die automatische Feinabstimmung enthält die folgenden Komponenten:

Roboter-Workflow: Aktivität „Machine Learning Extractor Trainer“
Document Manager: Funktion zum Planen des Exports
AI Center: Pipeline für geplantes automatisches erneutes Training
1. (Optional) ML-Fähigkeiten automatisch aktualisieren

Voraussetzungen

Um diese Funktionen implementieren zu können, müssen zuvor zwei Anforderungen erfüllt werden:

Sie müssen eine Document Manager-Sitzung im AI Center erstellt und eine bestimmte Anzahl von Feldern konfiguriert haben, d. h. hochwertige Trainings- und Auswertungs-Datasets beschriften. Sie können die Felder entweder manuell definieren oder ein Schema importieren. Wenn Felder nicht konfiguriert sind, ist die Registerkarte Zeitplan (Vorschau) nicht aktiviert und die folgende Meldung wird auf dem Bildschirm angezeigt:
Sie müssen einige Versionen Ihres ML-Modells trainiert, es getestet, alle aufgetretenen Probleme behoben und es für Ihre RPA- und KI-Automatisierung bereitgestellt haben.

1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“

Add the Machine Learning Extractor Trainer activity into your workflow in a Train Extractors Scope and properly configure the scope
Make sure the Framework Alias contains the same alias as the Machine Learning Extractor alias in the Data Extraction Scope.
Select the Project and the Dataset associated with the Document Manager session that contains your Training and Evaluation datasets. The drop-down menus are prepopulated once you are connected to Orchestrator.

Hinweis:
Sie können einen Wert für die Eigenschaft Output Folder festlegen, wenn Sie die Daten lokal im Workflow exportieren möchten.

In der Ansicht „Datenbeschriftung“ im AI Center finden Sie den Dataset-Namen neben dem Namen der Sitzung „Datenbeschriftung“:

Für das ausgewählte Dataset erstellt die Aktivität Machine Learning Extractor Trainer einen Ordner mit dem Namen fine-tune (Feinabstimmung) und schreibt die exportierten Dokumente in 3 Ordner: documents (Dokumente), metadata (Metadaten) und predictions (Vorhersagen).

Dieser Ordner ist für den automatischen Import von Daten in den Document Manager vorgesehen. Die importierten Daten werden mit den zuvor vorhandenen Daten zusammengeführt und diese werden dann im richtigen Format für die Verwendung in einer Trainings- oder vollständigen Pipeline exportiert. Die importierten Daten werden automatically in zwei Sätze kategorisiert: Training und Validierung, wobei eine Aufteilung von 80 %/20 % beibehalten wird. Infolgedessen enthalten die exportierten Daten sowohl Trainings- als auch Validierungssätze aus den neu gesammelten Daten. Daten werden nur automatisch importiert, wenn der geplante Export im Document Manager aktiviert ist.

2. Document Manager: Funktion zum Planen des Exports

Wählen Sie in einer Sitzung Document Manager die Taste Exportieren', gehen Sie zur Registerkarte Zeitplan (Vorschau) und setzen Sie den Schieberegler Zeitplanung auf aktiv. Wählen Sie dann eine Startzeit und eine Wiederholungsfrequenz. Wenn Sie fertig sind, wählen Sie die Taste Planen.

Mit dem Kontrollkästchen Abwärtskompatibler Export können Sie das Exportverhalten der Legacy-Versionen anwenden, bei dem jede Seite als separates Dokument exportiert wird. Versuchen Sie dies, wenn das mit dem Standardexport trainierte Modell den Erwartungen nicht entspricht. Lassen Sie diese Option deaktiviert, um die Dokumente in ihrer ursprünglichen mehrseitigen Form zu exportieren.

Hinweis:

Die minimale Wiederholungsfrequenz beträgt 7 Tage, die maximale 60 Tage.

Da AI Center-Trainingspipelines hauptsächlich für die wöchentliche Ausführung konfiguriert sind, wird eine Wiederholungsfrequenz von 7 Tagen empfohlen.

Wenn Sie den Zeitplan für den Export festlegen, werden die importierten Daten aus dem Ordner fine-tune in den Order export unter auto-export time_stamp exportiert.

Hinweis:

Es gibt ein Importlimit von 2.000 Seiten pro Ausführung des automatischen erneuten Trainings.

Genauer gesagt importiert der geplante Export die Daten, die im Ordner fine-tune vorhanden sind, der in Schritt 1 erstellt wurde, und exportiert dann das vollständige Dataset, einschließlich der zuvor vorhandenen Daten und der neu importierten Daten aus der Validation Station in den Ordner export. Mit jedem geplanten Export wird das exportierte Dataset also immer größer.

Die Datei latest.txt wird aktualisiert bzw. erstellt, wenn dies der erste geplante Export ist. Hier finden Sie den Namen des letzten Exports von Document Manager.Durch den Export des Schemas wird latest.txt jedoch nicht geändert. Anhand dieser Datei wird von der Pipeline zum automatischen Neutraining in AI Center der neueste Export ermittelt, damit immer mit den neuesten Daten trainiert werden kann. Daher sollten Sie die Datei niemals entfernen oder ändern, da sonst Ihre Pipelines zum automatischen Neutraining fehlschlagen.

Hinweis:

Der geplante Import-und-Export-Vorgang kann bis zu 1–2 Stunden dauern, abhängig davon, wie viele Daten in der vorigen Woche aus Schritt 1 gesendet wurden. Wir empfehlen Ihnen, eine Uhrzeit zu wählen, in der Sie den Document Manager nicht verwenden, da bei laufendem Exportvorgang keine anderen Exporte oder Importe zulässig sind. Das Beschriften ist jedoch immer möglich.

3. AI Center: Pipeline für das geplante automatische erneute Training

Bei der Planung eines Trainings oder einer vollständigen Pipeline im AI Center müssen einige Aspekte berücksichtigt werden.

Zuerst empfehlen wir dringend, ein Auswertungs-Dataset zu erstellen und nur vollständige Pipelines zu planen. In vollständigen Pipelines werden Training und Auswertung gemeinsam ausgeführt. Die Auswertungspipeline verwendet zudem das Auswertungs-Dataset, um eine Punktzahl zu ermitteln. Diese Punktzahl ist entscheidend für die Entscheidung, ob die neue Version besser als die vorherige Version ist, und kann für die Nutzung durch Robots bereitgestellt werden.

Dann müssen Sie für die vollständige Pipeline zwei Datasets angeben: ein Eingabe-Dataset und ein Auswertungs-Dataset.

Am Auswertungs-Dataset gibt es im Kontext der Funktion „Schleife für die automatische Feinabstimmung“ keine Änderung. Sie müssen weiterhin wie gewohnt ein Dataset auswählen, der die beiden Ordner „Bilder“ und „Neueste“ sowie die beiden Dateien „schema.json“ und „split.csv“ enthält.

Das Eingabe-Dataset ist zwar kein Dataset mehr, aber Sie müssen den Exportordner im AI Center-Dataset auswählen, der mit der Datenbeschriftungssitzung verbunden ist. Auf diese Weise wird das Training beim letzten Export aus Ihrer Datenbeschriftungssitzung ausgeführt, während die Auswertung für dasselbe Auswertungs-Dataset ausgeführt wird, das Sie angeben.

Wichtig:

Wenn Sie den Exportordner nicht auswählen, funktioniert das automatische erneute Training nicht.

Drittens müssen Sie die Umgebungsvariable auto-retraining (automatisches erneutes Training) auf True setzen.

Schließlich müssen Sie Wiederkehrend auswählen und einen Tag und eine Uhrzeit festlegen, die genug Zeit für den Export vom Document Manager lassen. Wenn der Document Manager-Export beispielsweise am Samstag um 1 Uhr nachts läuft, dann könnte die Pipeline am Samstag um 2 oder 3 Uhr nachts ausgeführt werden. Wenn die Pipeline ausgeführt wird, der Export aber noch nicht abgeschlossen ist, verwendet sie den vorherigen Export und wird eventuell mit den gleichen Daten erneut trainiert, die sie schon in der vorherigen Woche trainiert hat.

4. (Optional) ML-Fähigkeiten automatisch aktualisieren

Wenn Sie automatisch die neueste Version des ML-Pakets bereitstellen möchten, die von den automatisch geplanten Trainingspipelines erstellt wird, können Sie bei der ML-Fähigkeit die Funktion Automatische Aktualisierung aktivieren.

Hinweis:

Die ML-Fähigkeit wird automatisch aktualisiert, unabhängig davon, ob die Genauigkeit im Vergleich zum vorherigen Training verbessert wurde – verwenden Sie diese Funktion also mit Vorsicht.

In einigen Fällen ist es möglich, dass sich die Gesamtpunktzahl verbessert, auch wenn sich die Qualität eines bestimmtes Feld etwas verschlechtern kann. Dieses Feld kann jedoch für Ihren Geschäftsprozess von entscheidender Bedeutung sein. Daher erfordern die automatische Aktualisierung und das automatische erneute Training im Allgemeinen eine sorgfältige Überwachung, um erfolgreich zu sein.

Die Schleife für die automatische Feinabstimmung ist abgeschlossen. Jetzt können Sie Ihre ML-Modelle automatisch mithilfe von Daten aus der Validation Station erneut trainieren.

Auf dieser Seite

Der Lebenszyklus eines ML-Modells
Die Erstellungsphase
die Instandhaltungsphase
Die Komponenten der automatischen Schleife für Feinabstimmung
Voraussetzungen
1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“
2. Document Manager: Funktion zum Planen des Exports
3. AI Center: Pipeline für das geplante automatische erneute Training
4. (Optional) ML-Fähigkeiten automatisch aktualisieren

War diese Seite hilfreich?

Vorherige (previous)Feinabstimmung

WeiterDokumenttyp erstellen

Der Lebenszyklus eines ML-Modells​

Die Erstellungsphase​

die Instandhaltungsphase​

Die Komponenten der automatischen Schleife für Feinabstimmung​

Voraussetzungen​

1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“​

2. Document Manager: Funktion zum Planen des Exports​

3. AI Center: Pipeline für das geplante automatische erneute Training​

4. (Optional) ML-Fähigkeiten automatisch aktualisieren​

War diese Seite hilfreich?

Der Lebenszyklus eines ML-Modells

Die Erstellungsphase

die Instandhaltungsphase

Die Komponenten der automatischen Schleife für Feinabstimmung

Voraussetzungen

1. Roboterworkflow: Aktivität „Machine Learning Extractor Trainer“

2. Document Manager: Funktion zum Planen des Exports

3. AI Center: Pipeline für das geplante automatische erneute Training

4. (Optional) ML-Fähigkeiten automatisch aktualisieren