Abonnieren

UiPath Document Understanding

UiPath Document Understanding

Über ML-Pakete

Die Verwendung eines ML-Pakets für Document Understanding umfasst die folgenden Schritte:

  • Sammeln von Dokumentbeispielen und der Anforderungen der zu extrahierenden Datenpunkte.
  • Labeling documents using Document Manager.
    Document Manager itself connects to an OCR Service.
  • Herunterladen oder Exportieren von beschrifteten Dokumenten als Trainings-Dataset und Hochladen des exportierten Ordners in den AI Center-Speicher.
  • Herunterladen oder Exportieren von beschrifteten Dokumenten als Auswertungs-Dataset und Hochladen des exportierten Ordners in den AI Center-Speicher.
  • Ausführen einer Trainingspipeline im AI Center.
  • Bewerten der Modellleistung mit einer Auswertungspipeline im AI Center.
  • Bereitstellen des trainierten Modells als ML-Fähigkeit im AI Center.
  • Querying the ML Skill from an RPA workflow using the UiPath.DocumentUnderstanding.ML activity package.

📘

Hinweis:

Denken Sie daran, dass die Verwendung von Document Understanding-Paketen erfordert, dass die Maschine, auf der AI Center installiert ist, auf https://du-metering.uipath.com zugreifen kann.

🚧

Wichtig

Beim Erstellen eines UiPath.DocumentUnderstanding.ML.Activities-Pakets im AI Center darf der Paketname kein reserviertes Python-Schlüsselwort also class, break, from, finally, global, None usw. Beachten Sie, dass diese Liste nicht vollständig ist, da der Paketname für class <pkg-name> und import <pkg-name> verwendet wird.

Dabei handelt es sich um vorgefertigte Machine-Learning-Modelle zum Klassifizieren und Extrahieren aller häufig vorkommenden Datenpunkte aus halbstrukturierten oder unstrukturierten Dokumenten, einschließlich regulärer Felder, Tabellenspalten und Klassifizierungsfeldern als Teil eines vorlagenfreien Ansatzes.

17001700

📘

Hinweis:

Out-of-the-box Machine Learning Packages that are delivered by UiPath have version 0 and are already available on your tenant, meaning that there is no need to download them.
Download is available only for versions 1 or higher, that were already trained by you.

Document Understanding enthält mehrere ML-Pakete, die in fünf Hauptkategorien unterteilt sind:

UiPath Document OCR

This is a non-retrainable model which can be used with the UiPath Document OCR engine activity as part of the Digitize Document activity. To be used, the ML Skill must first be made public so that a URL can be copy-pasted into the UiPath Document OCR engine activity.

UiPathDocumentOCR requires access to the Document Understanding metering server at https://du.uipath.com/metering if the ML skill is running on an AI Center on-premises regular deployment. No internet access is needed on AI Center on-premises air-gapped deployments.

UiPathDocumentOCR_CPU

Dieses ML-Paket kann auf die gleiche Weise wie das ML-Paket UiPathDocumentOCR bereitgestellt werden, wobei es einige Unterschiede gibt:

  • Es ist optimiert für die Ausführung auf CPU. Dadurch dürfte die Geschwindigkeit bei der Ausführung im Workflow um das 3–4-Fache höher sein und beim Importieren von Dokumenten in den Document Manager um das 5–10-Fache.
  • accuracy is slightly lower than the UiPathDocumentOCR ML Package, and it is similar to the UiPath.DocumentUnderstanding.OCR.LocalServer Studio package

Document Understanding

Dies ist ein generisches, erneut trainierbares Modell zum Extrahieren häufig vorkommender Datenpunkte aus jeder Art strukturierter oder halbstrukturierter Dokumente, wobei ein Modell von Grund auf neu aufgebaut wird. Dieses ML-Paket muss trainiert werden. Wenn es zunächst ohne Training bereitgestellt wird, kommt es bei der Bereitstellung zu einem Fehler, der angibt, dass das Modell nicht trainiert ist.

Dokumentklassifizierer

Dies ist ein generisches, erneut trainierbares Modell zum Klassifizieren jeglicher Art strukturierter oder halbstrukturierter Dokumente, wobei ein Modell von Grund auf erstellt wird. Dieses ML-Paket muss trainiert werden. Wenn es zunächst ohne Training bereitgestellt wird, kommt es bei der Bereitstellung zu einem Fehler, der angibt, dass das Modell nicht trainiert ist.

Vorab trainierte out-of-the-box ML-Pakete

Dabei handelt es sich um erneut trainierbare ML-Pakete, die Kenntnisse verschiedener Machine Learning-Modelle enthalten.

Sie können angepasst werden, um zusätzliche Felder zu extrahieren oder zusätzliche Sprachen mithilfe von Pipeline-Ausführungen zu unterstützen. Mithilfe modernster Lerntransferfunktionen kann dieses Modell an zusätzlich beschrifteten Dokumenten erneut trainiert und auf einen bestimmten Anwendungsfall zugeschnitten oder erweitert werden, um zusätzliche Sprachen mit lateinischem, kyrillischem oder griechischem Alphabet zu unterstützen.

Das verwendete Dataset kann dieselben Felder, eine Teilmenge der Felder oder zusätzliche Felder haben. Sie müssen Felder mit den gleichen Namen wie im out-of-the-box Modell verwenden, um von den bereits integrierten Erkenntnissen im vortrainierten Modell zu profitieren.

Diese ML-Pakete sind:

  • Invoices: The fields extracted out-of-the-box can be found here.

  • InvoicesAustralia : The fields extracted out-of-the-box can be found here. An upcoming deprecation is announced for this ML Package. Here you can find more details.

  • InvoicesIndia: The fields extracted out-of-the-box can be found here.

  • InvoicesJapan Preview: The fields extracted out-of-the-box can be found here.
    Retraining using data from Validation Station is currently not supported.

  • InvoicesChina Preview: The fields extracted out-of-the-box can be found here.
    Retraining using data from Validation Station is currently not supported.

  • Receipts: The fields extracted out-of-the-box can be found here.

  • Purchase Orders: The fields extracted out-of-the-box can be found here.

  • Utility Bills: The fields extracted out-of-the-box can be found here.

  • ID Cards : The fields extracted out-of-the-box can be found here.

  • Passports: The fields extracted out-of-the-box can be found here.

  • RemittanceAdvices: The fields extracted out-of-the-box can be found here.

  • BillsOfLading: The fields extracted out-of-the-box can be found here.

  • W2: The fields extracted out-of-the-box can be found here.

  • W9: The fields extracted out-of-the-box can be found here.

  • ACORD125: The fields extracted out-of-the-box can be found here

  • I9: The fields extracted out-of-the-box can be found here

  • 990 Preview: The fields extracted out-of-the-box can be found here

  • 4506T: The fields extracted out-of-the-box can be found here

  • FM1003 Preview: The fields extracted out-of-the-box can be found here

  • ACORD25 - The fields extracted out-of-the-box can be found here

  • 1040 - The fields extracted out-of-the-box can be found here

  • Checks - The fields extracted out-of-the-box can be found here

  • Bank Statements - The fields extracted out-of-the-box can be found here

  • Financial statements - The fields extracted out-of-the-box can be found here

  • Packing Lists - The fields extracted out-of-the-box can be found here

  • ACORD131 - The fields extracted out-of-the-box can be found here

  • ACORD126 - The fields extracted out-of-the-box can be found here

  • ACORD140 - The fields extracted out-of-the-box can be found here

  • Vehicle Titles - The fields extracted out-of-the-box can be found here

Bei diesen Modellen handelt es sich um Deep Learning-Architekturen, die von UiPath erstellt wurden. Eine GPU kann zur Ausgabe- und auch zur Trainingszeit verwendet werden, ist jedoch nicht obligatorisch. Mit einer GPU wird die Geschwindigkeit mehr als verzehnfacht, insbesondere für das Training.

The Out-of-the-box Pre-trained ML Packages can be split into document categories based on the intended use of each model:

Document CategoryML Model
KYC Passports
ID Cards
Utility Bills
4506T
Insurance ACORD125
ACORD131
ACORD126
ACORD140
Lending FM1003
W2
4506T
HR Passports
ID Cards
W9
I9
Shipping Invoices
Bills of Lading (includes Sea Waybills and Air Waybills)
AP Invoices
Utility Bills
AR Remittance Advices
Purchase Orders
Expenses Receipts

Public Preview DU ML Packages in AI Center

This Public Preview version of ML Packages brings a new more advanced model architecture for our DU ML Packages in AI Center. It performs better on highly diverse, complex scenarios, especially on the column fields/line items.

The ML Packages appear in the same view as the other DU ML Packages, but they are identified by the "Preview" tag appended to the name of each package.

Please note that training on CPU takes significantly more time than on previous ML Packages (2x longer or more).
Being a preview version means that these models don't consume DU/AI units from your licensing entitlement. So test and evaluate to your heart's content!

📘

Hinweis:

There are two kinds of Preview models:

  • Out-of-the-box pre-trained models that are in a Preview state and are consuming units .
  • New AI Architecture Preview models that don't consume units.

Public Preview Models - New AI Architecture:

  • DocumentUnderstanding Preview : This is a generic, retrainable model for extracting any commonly occurring data points from any type of structured or semi-structured documents, building a model from scratch. This ML Package must be trained. If deployed without training first, deployment fails with an error stating that the model is not trained.

  • Invoices Preview: The fields extracted out-of-the-box can be found here.

  • InvoicesAustralia Preview: The fields extracted out-of-the-box can be found here.

  • InvoicesIndia Preview: The fields extracted out-of-the-box can be found here.

  • Receipts Preview: The fields extracted out-of-the-box can be found here.

  • Purchase Orders Preview: The fields extracted out-of-the-box can be found here.

  • Utility Bills Preview: The fields extracted out-of-the-box can be found here.

  • ID Cards Preview: The fields extracted out-of-the-box can be found here.

  • RemittanceAdvices Preview: The fields extracted out-of-the-box can be found here.

  • DeliveryNotes Preview: The fields extracted out-of-the-box can be found here.

  • W2 Preview: The fields extracted out-of-the-box can be found here.

  • W9 Preview: The fields extracted out-of-the-box can be found here.

  • ACORD125 Preview: The fields extracted out-of-the-box can be found here

  • I9 Preview: The fields extracted out-of-the-box can be found here

  • 990 Preview: The fields extracted out-of-the-box can be found here

  • 4506T Preview: The fields extracted out-of-the-box can be found here

  • FM1003 Preview: The fields extracted out-of-the-box can be found here

These models are deep learning architectures built by UiPath. A GPU may be used at training time but is mandatory only for larger datasets. A GPU delivers a greater than 10x improvement in speed for Training over CPUs.

Andere out-of-the-box ML-Pakete

Dabei handelt es sich um nicht erneut trainierbare Pakete, die für Nicht-ML-Komponenten der Document Understanding Suite erforderlich sind.

Diese ML-Pakete sind:

  • FormExtractor: Deploy as Public Skill and paste the URL into the Form Extractor activity.

  • IntelligentFormExtractor: Deploy as Public Skill and paste the URL into the Intelligent Form Extractor activity. Make sure to first deploy the HandwritingRecognition ML Skill and configure that as OCR for the this package.

  • IntelligentKeywordClassifier: Deploy as Public Skill and paste the URL into the Intelligent Keyword Classifier activity.

  • HandwritingReognitionOCR: Als öffentliche Fähigkeit bereitstellen und als OCR beim Erstellen des Pakets IntelligentFormExtractor verwenden.

  • OCR for Chinese, Japanese, Korean : Available as an endpoint, CPU only, in Document Understanding framework. You can use the URL of this endpoint into the OCR for Chinese, Japanese and Korean activity, or directly in a Document Manager session, at configuration time.

Aktualisiert vor 7 Tagen


Über ML-Pakete


Auf API-Referenzseiten sind Änderungsvorschläge beschränkt

Sie können nur Änderungen an dem Textkörperinhalt von Markdown, aber nicht an der API-Spezifikation vorschlagen.