- Erste Schritte
- Framework-Komponenten
- Document Understanding im AI Center
- Pipelines
- ML-Pakete
- Data Manager
- OCR-Dienste
- Lizenzierung
- Referenzen
Machine Learning Extractor
Der Machine Learning Extractor ist ein Datenextraktionstool, das Machine-Learning-Modelle verwendet, um Daten zu identifizieren und zu melden, die extrahiert werden sollen.
Diese Aktivität ist der Begleiter von UiPath Document Understanding-Modellen als Mittel zur Verwendung solcher Modelle in Ihren Workflows.
Der ML-Ansatz wird für strukturierte oder halbstrukturierte Dokumente dringend empfohlen, bei denen die Layouts verschiedener Dokumentanbieter stark variieren. Aufgrund seines Machine-Learning-Ansatzes verwendet der Extraktor ein trainiertes Machine-Learning-Modell, das lernt und dann Werte für die Zielfelder inferieren kann, auch von Dokumenten und Layouts, zu denen er noch keinen Kontakt hatte. Also wenn Dokumente keinem Text- oder Layoutmuster folgen, kann der Machine Learning Extractor eine gute Option für Ihren Anwendungsfall sein.
Das Machine-Learning-Modell kann auf mehrere Arten verwendet werden:
- Mit einem der öffentlichen Document Understanding-Endpunkte von UiPath, wenn Sie generische Modelle verwenden möchten, die auf bestimmte Dokumenttypen abzielen; oder
- Mit benutzerdefinierten trainierten Machine-Learning-Modellen beginnend bei den verfügbaren UiPath Document Understanding-Modellen.
Dieser Extraktor kann trainiert/erneut trainiert werden. Weitere Informationen finden Sie im Abschnitt Wie trainiert wird.
Sie müssen verwenden:
- Einen der öffentlichen Document Understanding-Endpunkte von UiPath für die Datenextraktion oder
- Machine-Learning-Modelle, die im AI Center in Automation Cloud gehostet werden, oder
- Machine-Learning-Modelle, die im lokalen AI Center gehostet werden, aber über Automation Cloud lizenziert sind, Sie müssen Ihren Automation Cloud Document Understanding API-Schlüssel verwenden.
Um den Machine Learning Extractor mit lokaler Lizenzierung zu verwenden, müssen Sie Ihre Document Understanding-Modelle in Ihrer lokalen AI Center-Instanz (Air-Gap-Installation) hosten.
Wenn der von Ihnen verwendende Endpunkt über Automation Cloud lizenziert ist, müssen Sie den Document Understanding API-Schlüssel der Cloud angeben.
Wenn Sie den Machine Learning Extractor mit einem öffentlichen UiPath Document Understanding-Endpunkt oder mit einer öffentlichen ML-Fähigkeit im AI Center verwenden, müssen Sie das Endpunkt-Argument der Aktivität mit der entsprechenden URL konfigurieren.
Wenn Sie den Machine Learning Extractor mit einer bereitgestellten ML-Fähigkeit verwenden, müssen Sie das ML-Fähigkeit-Argument der Aktivität mit der richtigen Auswahl von der AI Center-gehosteten ML-Fähigkeitenliste konfigurieren.
Wenn Sie versuchen, beide Optionen festzulegen, wird ein Fehler angezeigt – entweder im Konfigurationsassistenten oder direkt im Workflow:
Wenn der Machine Learning Extractor zum ersten Mal in Data Extraction Scope abgelegt wird, wird ein Konfigurationsassistent geöffnet. Der gleiche Assistent ist verfügbar, wenn Sie den Assistenten Extraktoren konfigurieren von Data Extraction Scope öffnen und auf das Konfigurationssymbol unter dem Namen des Extraktors klicken.
Mit dem Assistenten können Sie einen Endpunkt oder eine ML-Fähigkeit eingeben und (falls erforderlich) einen ApiKey bereitstellen. Wenn Sie einen Endpunkt und einen ApiKey eingeben, müssen Sie sie ohne Anführungszeichen eingeben – und die Werte dürfen keine Variablen sein.
Wenn Sie möchten, können Sie die Option „Aktivitätsargumente aktualisieren“ verwenden, um die Aktivitätsargumente vorab mit den im Assistenten hinzugefügten Werten aufzufüllen.
Wenn Sie auf die Option „Funktionen abrufen“ klicken, „liest und meldet“ der Machine Learning Extractor seine internen Funktionen (welche Dokumenttypen und welche Felder er verarbeiten kann), um Sie bei der richtigen Konfiguration der Datenextraktion zu unterstützen.
Es wird empfohlen, den Assistenten für die ML Extractor-Funktionen jedes Mal zu verwenden, wenn Sie die in Ihrem Workflow verwendete ML-Fähigkeit oder den Endpunkt ändern, um sicherzustellen, dass die Konfiguration und Taxonomiezuordnung in Data Extraction Scope korrekt bleibt.
Wenn der Assistent für die ML Extractor-Funktionen ausgeführt wird, werden Sie feststellen, dass der Assistent „Extraktoren konfigurieren“ keine Textfelder mehr für die Taxonomiezuordnung enthält, sondern Dropdownlisten.
Erweitern Sie den Dokumenttyp, für den Sie Daten extrahieren möchten, und beginnen Sie mit der Auswahl der erforderlichen Felder, indem Sie die Kontrollkästchen neben den entsprechenden Feldern aktivieren und in der verfügbaren Dropdownliste das richtige Feld vom ML-Modell auswählen, das Sie den einzelnen Feldern zuordnen möchten. Die Dropdownliste enthält alle Felder, die der Machine Learning Extractor mithilfe des im Machine Learning Extractor-Assistenten eingegebenen Endpunkts als Extraktionsfunktion deklariert.
Um zu überprüfen, ob Sie die neuesten Funktionen des Extraktors verwenden, können Sie auf Extraktor-Funktionen abrufen oder aktualisieren klicken, wodurch der Assistent Machine Learning Extractor geöffnet wird.
Wenn Sie auch die Trainingsfunktionen des Extraktors verwenden möchten, wird dringend empfohlen, im Konfigurationsfeld Framework Alias einen eindeutigen alphanumerischen String-Wert einzugeben und dann genau den gleichen String-Wert im entsprechenden Framework Alias-Feld der Train Extractors Scope-Konfiguration für die Trainer zu verwenden, welche die vollständigen Trainingsdaten erhalten müssen.
Wählen Sie die Schaltfläche Speichern aus, sobald alle Daten richtig konfiguriert sind.
Verwenden Sie die Aktivität Machine Learning Extractor Trainer innerhalb einer Aktivität des Typs Train Extractors Scope, um Trainingsdaten für Ihre Machine Learning Extractor-Modellinstanz zu sammeln. Dadurch gesammelte Daten können für die Kuration und dann den Import mit dem Zweck des Trainings in Ihre Instanz des AI Centers (Cloud oder lokal) verwendet werden.