- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- FlexiCapture Classifier
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 4506T – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Deep Learning
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Lizenzierung
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Document Understanding-Benutzerhandbuch.
Kontrollkästchen und Signaturen
Es gibt mehrere Arten von Multiple-Choice-Feldern, die Kontrollkästchen verwenden:
- sich gegenseitig ausschließende Kontrollkästchen
- die Kontrollkästchen, die sich nicht gegenseitig ausschließen, und mit denen Sie mehr als eine Option auswählen können.
Ein weiterer wichtiger Aspekt ist die Anzahl der verfügbaren Auswahlmöglichkeiten für ein bestimmtes Mehrfachauswahlfeld. In manchen Fällen gibt es nur eine einzige Option, bei der das Kontrollkästchen entweder angekreuzt oder nicht angekreuzt wird, während es in anderen Fällen 10, 20 oder mehr Optionen gibt, die in einem Raster oder in einer Tabelle angeordnet sind, wie bei vielen Gesundheitsformularen.
There are two major ways in which you may label these kinds of multiple choice fields.
Im Folgenden soll anhand eines Beispiels erläutert werden, wie Sie die Optionen beschriften können. Formulare können die Optionen Project oder Policy enthalten. In diesem Fall haben Sie nur ein Feld und Sie beschriften nur das ausgewählte Wort, d. h. Sie beschriften das Wort Project, wenn das Kontrollkästchen daneben aktiviert ist, oder das Wort Policy, wenn das Kontrollkästchen daneben aktiviert ist. Ist keines von beiden markiert, wird auch keines beschriftet, und wenn beide markiert sind, ist das nicht möglich. Solche Dokumente würden einfach aus der Trainingsmenge gelöscht.
Dieser Ansatz hat den Vorteil, dass Sie ein einziges Feld haben, das weniger Daten erfordert. Ein weiterer Vorteil ist, dass er nicht von einer erfolgreichen Erkennung von Kontrollkästchen abhängt. Wenn ein Kontrollkästchen als Buchstabe X erkannt wird, kann das Modell dennoch erlernen zu erkennen, dass die Option daneben ausgewählt ist.
Der Nachteil besteht darin, dass Sie sicherstellen müssen, dass beide Optionen ungefähr gleich vertreten sind, was nicht immer der Fall ist. Möglicherweise haben 90 % der Dokumente in Ihrem Trainingsset Project angekreuzt. In diesem Fall kann das Modell keine gute Leistung erbringen und dieser Ansatz schlägt fehl. Das Problem wird noch schlimmer, wenn Sie mehr Optionen haben, da einige davon fast immer selten sind. In diesen Fällen müssen Sie möglicherweise gefälschte Dokumente erstellen, bei denen die seltenen Optionen aktiviert sind, um einen Ausgleich zu schaffen.
Im obigen Beispiel haben Sie möglicherweise ein Feld namens Project, in dem Sie immer das Kontrollkästchen für Project beschriften, und ein Feld namens policy, in dem Sie immer das Kontrollkästchen für Policy beschriften, unabhängig davon, ob sie aktiviert sind oder nicht. Dies hat den Vorteil, dass der Saldo viel weniger wichtig ist. Selbst wenn eine der Optionen in 90 % der Fälle angekreuzt ist, lernt das Modell, sie zu erkennen, weil die Kontrollkästchen immer an der gleichen Stelle sind.
Der Nachteil ist, dass Sie zwei Felder anstelle von einem haben. Wenn es zwei Optionen gibt, ist dies vielleicht keine große Sache, aber wenn es 10 bis 20 Optionen gibt, ist die Beschriftung mit 10 bis 20 Feldern viel schwieriger, das Modell ist schwieriger zu trainieren und erfordert mehr Trainingsdaten.
Ein weiterer Nachteil ist, dass das Kontrollkästchen manchmal nicht richtig erkannt wird und Sie möglicherweise eine komplexere Logik im Workflow einbauen müssen, um alle zurückgegebenen X-, V- oder K-Zeichen zu erfassen. In einigen Fällen kann die OCR sogar das Kontrollkästchen mit dem Wort daneben zusammenführen, z. B. XProject. Dies erfordert eine noch komplexere RPA-Logik, um die Situation zu bewältigen.
Felder mit mehreren Werten sind Teil des Release 2022.10 von Document UnderstandingTM. Dadurch wird die Beschriftung einfacher. Sie wird nicht durch unausgewogene Auswahlmöglichkeiten oder durch eine große Anzahl von Optionen beeinträchtigt. Es hängt jedoch immer noch von der Genauigkeit der Kontrollkästchenerkennung oder dem Risiko ab, dass Kontrollkästchen mit den Optionen neben ihnen zusammengeführt werden. OCR-Fehler sind sehr schwer zu vermeiden.
Ab Release 2022.4 von LTS Enterprise können Unterschriften mit UiPath Document OCR erkannt werden, sodass Machine Learning-Modelle Unterschriften direkt erkennen können.
Beschriften Sie eine Signatur wie jedes andere Feld in Ihrem Dokument. Sobald die UiPath Document OCR das Feld erkannt hat, kann das Machine Learning-Modell das Feld als Signatur erkennen.