document-understanding
2022.10
false
UiPath logo, featuring letters U and I in white
Document Understanding-Benutzerhandbuch.
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 11. Nov. 2024

Über ML-Pakete

Die Verwendung eines ML-Pakets für Document Understanding umfasst die folgenden Schritte:

  • Sammeln von Dokumentbeispielen und der Anforderungen der zu extrahierenden Datenpunkte.
  • Beschriften von Dokumenten mit Document Manager. Document Manager verbindet sich selbst mit einem OCR-Dienst.
  • Herunterladen oder Exportieren von beschrifteten Dokumenten als Trainings-Dataset und Hochladen des exportierten Ordners in den AI Center-Speicher.
  • Herunterladen oder Exportieren von beschrifteten Dokumenten als Auswertungs-Dataset und Hochladen des exportierten Ordners in den AI Center-Speicher.
  • Ausführen einer Trainingspipeline im AI Center.
  • Bewerten der Modellleistung mit einer Auswertungspipeline im AI Center.
  • Bereitstellen des trainierten Modells als ML-Fähigkeit im AI Center.
  • Abfragen der ML-Fähigkeit aus einem RPA-Workflow mithilfe des Aktivitätspakets UiPath.DocumentUnderstanding.ML.
    Hinweis: Denken Sie daran, dass die Verwendung von Document Understanding ML-Paketen erfordert, dass die Maschine, auf der AI Center installiert ist, auf https://du-metering.uipath.com zugreifen kann.
    Wichtig: Beim Erstellen eines UiPath.DocumentUnderstanding.ML.Activities-Pakets im AI Center darf der Paketname kein reserviertes Python-Schlüsselwort sein wie class , break, from, finally, global, None, usw. Beachten Sie, dass diese Liste nicht vollständig ist, da der Paketname für class <pkg-name> und import <pkg-name> verwendet wird.

Dabei handelt es sich um vorgefertigte Machine-Learning-Modelle zum Klassifizieren und Extrahieren aller häufig vorkommenden Datenpunkte aus halbstrukturierten oder unstrukturierten Dokumenten, einschließlich regulärer Felder, Tabellenspalten und Klassifizierungsfeldern als Teil eines vorlagenfreien Ansatzes.



Hinweis:

Die von UiPath gelieferten vorkonfigurierten Pakete für Machine Learning haben die Version 0 und sind bereits auf Ihrem Mandanten verfügbar, d. h. Sie müssen sie nicht herunterladen.

Der Download ist nur für Versionen 1 oder höher verfügbar, die bereits von Ihnen trainiert wurden.

Document Understanding enthält mehrere ML-Pakete, die in fünf Hauptkategorien unterteilt sind:

  • UiPath Document OCR
  • Document Understanding
  • Dokumentklassifizierer
  • Out-of-the-box Pre-trained ML Packages
  • Vorgefertigte vortrainierte DU ML-Pakete im AI Center
  • Andere out-of-the-box ML-Pakete

UiPath Document OCR

Dies ist ein nicht erneut trainierbares Modell, das sich mit der UiPath Document OCR-Modulaktivität als Teil der Digitize Document-Aktivität verwenden lässt. Dafür muss die ML-Fähigkeit zuerst öffentlich gemacht werden, sodass eine URL in die „UiPath Document OCR“-Modulaktivität eingefügt werden kann.

Sie können UiPathDocumentOCR auf GPU oder CPU ausführen, da die Genauigkeit in beiden Fällen gleich ist und das Training auf der GPU schneller ist als auf der CPU. Weitere Informationen finden Sie in den Hardwareanforderungen .

UiPathDocumentOCR erfordert Zugriff auf den Messungsserver von Document Understanding unter https://du.uipath.com/metering, wenn die ML-Fähigkeit in einer regulären lokalen Installation des AI Centers ausgeführt wird. Es ist kein Internetzugang für lokale Air Gap-Installationen des AI Centers erforderlich.

UiPathDocumentOCR_CPU

Dieses ML-Paket kann auf die gleiche Weise wie das ML-Paket UiPathDocumentOCR bereitgestellt werden, wobei es einige Unterschiede gibt:

  • Es ist optimiert für die Ausführung auf CPU. Dadurch dürfte die Geschwindigkeit bei der Ausführung im Workflow um das 3–4-Fache höher sein und beim Importieren von Dokumenten in den Document Manager um das 5–10-Fache.
  • Die Genauigkeit ist etwas niedriger als beim ML-Paket UiPathDocumentOCR und ähnelt dem Studio-Paket UiPath.DocumentUnderstanding.OCR.LocalServer.
  • Da die CPU schneller ist, wird sie auch bei großen Dokumenten (über 20 Seiten pro Dokument) empfohlen, wenn keine GPU vorhanden ist, was ideal ist.

Document Understanding

Dies ist ein generisches, erneut trainierbares Modell zum Extrahieren häufig vorkommender Datenpunkte aus jeder Art strukturierter oder halbstrukturierter Dokumente, wobei ein Modell von Grund auf neu aufgebaut wird. Dieses ML-Paket muss trainiert werden. Wenn es zunächst ohne Training bereitgestellt wird, kommt es bei der Bereitstellung zu einem Fehler, der angibt, dass das Modell nicht trainiert ist.

Dokumentklassifizierer

Dies ist ein generisches, erneut trainierbares Modell zum Klassifizieren jeglicher Art strukturierter oder halbstrukturierter Dokumente, wobei ein Modell von Grund auf erstellt wird. Dieses ML-Paket muss trainiert werden. Wenn es zunächst ohne Training bereitgestellt wird, kommt es bei der Bereitstellung zu einem Fehler, der angibt, dass das Modell nicht trainiert ist.

Out-of-the-box Pre-trained ML Packages

Dabei handelt es sich um erneut trainierbare ML-Pakete, die Kenntnisse verschiedener Machine Learning-Modelle enthalten.

Sie können angepasst werden, um zusätzliche Felder zu extrahieren oder zusätzliche Sprachen mithilfe von Pipeline-Ausführungen zu unterstützen. Mithilfe modernster Lerntransferfunktionen kann dieses Modell an zusätzlich beschrifteten Dokumenten erneut trainiert und auf einen bestimmten Anwendungsfall zugeschnitten oder erweitert werden, um zusätzliche Sprachen mit lateinischem, kyrillischem oder griechischem Alphabet zu unterstützen.

Das verwendete Dataset kann dieselben Felder, eine Teilmenge der Felder oder zusätzliche Felder haben. Sie müssen Felder mit den gleichen Namen wie im out-of-the-box Modell verwenden, um von den bereits integrierten Erkenntnissen im vortrainierten Modell zu profitieren.

Diese ML-Pakete sind:

  • Invoices: Die standardmäßig extrahierten Felder finden Sie hier.
  • InvoicesAustralia: Die standardmäßig extrahierten Felder finden Sie hier.
  • InvoicesIndia: Die standardmäßig extrahierten Felder finden Sie hier.
  • InvoicesJapan Preview: Die standardmäßig extrahierten Felder finden Sie hier.

    Erneutes Training mit Daten aus der Validation Station wird derzeit nicht unterstützt.

  • InvoicesChina Preview: Die standardmäßig extrahierten Felder finden Sie hier.

    Erneutes Training mit Daten aus der Validation Station wird derzeit nicht unterstützt.

  • Receipts: Die standardmäßig extrahierten Felder finden Sie hier.
  • Purchase Orders: Die standardmäßig extrahierten Felder finden Sie hier.
  • Utility Bills: Die standardmäßig extrahierten Felder finden Sie hier.
  • ID Cards: Die standardmäßig extrahierten Felder finden Sie hier.
  • Passports: Die standardmäßig extrahierten Felder finden Sie hier.
  • RemittanceAdvices: Die standardmäßig extrahierten Felder finden Sie hier.
  • BillsOfLading: Die standardmäßig extrahierten Felder finden Sie hier.
  • W2: Die standardmäßig extrahierten Felder finden Sie hier.
  • W9: Die standardmäßig extrahierten Felder finden Sie hier.
  • ACORD125: Die standardmäßig extrahierten Felder finden Sie hier.
  • I9: Die standardmäßig extrahierten Felder finden Sie hier.
  • 990 Preview: Die standardmäßig extrahierten Felder finden Sie hier.
  • 4506T: Die standardmäßig extrahierten Felder finden Sie hier.
  • FM1003 Preview: Die standardmäßig extrahierten Felder finden Sie hier.
  • ACORD25: Die standardmäßig extrahierten Felder finden Sie hier.
  • 1040: Die standardmäßig extrahierten Felder finden Sie hier.
  • Checks: Die standardmäßig extrahierten Felder finden Sie hier.
  • Bank Statements: Die standardmäßig extrahierten Felder finden Sie hier.
  • Financial statements: Die standardmäßig extrahierten Felder finden Sie hier.
  • Packing Lists: Die standardmäßig extrahierten Felder finden Sie hier.
  • ACORD131: Die standardmäßig extrahierten Felder finden Sie hier.
  • ACORD126: Die standardmäßig extrahierten Felder finden Sie hier.
  • ACORD140: Die standardmäßig extrahierten Felder finden Sie hier.
  • Vehicle Titles: Die standardmäßig extrahierten Felder finden Sie hier.

Bei diesen Modellen handelt es sich um Deep Learning-Architekturen, die von UiPath erstellt wurden. Eine GPU kann zur Ausgabe- und auch zur Trainingszeit verwendet werden, ist jedoch nicht obligatorisch. Mit einer GPU wird die Geschwindigkeit mehr als verzehnfacht, insbesondere für das Training.

Die vorgefertigten vortrainierten ML-Pakete können basierend auf der beabsichtigten Verwendung der einzelnen Modelle in Dokumentkategorien unterteilt werden:

Dokumentkategorie

ML-Modell

KYC

  • Passports
  • ID-Karten
  • Betriebskostenabrechnungen
  • 4506T
  • 1040
  • Kontrolliert
  • Vehicle Titles

Versicherung

  • ACORD125
  • ACORD131
  • ACORD126
  • ACORD140

Ausleihe

  • FM1003
  • W2
  • 4506T

HR

  • Passports
  • ID-Karten
  • W9
  • I9

Versand

  • Rechnungen
  • Frachtbriefe (einschließlich Seefrachtbriefe und Luftfrachtbriefe)
  • Packlisten

AP

  • Rechnungen
  • Betriebskostenabrechnungen

AR

  • Überweisungshinweise
  • Bestellungen
  • Bank Statements
  • Financial Statements

Ausgaben

  • Belege

Andere out-of-the-box ML-Pakete

Dabei handelt es sich um nicht erneut trainierbare Pakete, die für Nicht-ML-Komponenten der Document Understanding Suite erforderlich sind.

Diese ML-Pakete sind:

  • FormExtractor: Als öffentliche Fähigkeit bereitstellen und die URL in die Aktivität Form Extractor einfügen.
  • Extraktor für intelligente Formulare: Als öffentliche Fähigkeit bereitstellen und die URL in die Aktivität Intelligent Form Extractor einfügen. Stellen Sie sicher, dass Sie zuerst die ML-Fähigkeit Handschrifterkennung bereitstellen und diese als OCR für dieses Paket konfigurieren.
  • IntelligentKeywordClassifier: Als öffentliche Fähigkeit bereitstellen und die URL in die Aktivität Intelligent Keyword Classifier einfügen.
  • HandwritingReognitionOCR: Als öffentliche Fähigkeit bereitstellen und als OCR beim Erstellen des Pakets IntelligentFormExtractor verwenden.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten