- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Extrahieren von Daten aus Belegen
- Mit einem zusätzlichen Feld erneut trainierte Rechnungen
- Extrahieren von Daten aus Formularen
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- FlexiCapture Classifier
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 4506T – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Deep Learning
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Lizenzierung
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Extrahieren von Daten aus Formularen
Das Ziel dieser Seite ist es, neuen Benutzern zu helfen, sich mit Document UnderstandingTM vertraut zu machen.
Für skalierbare Produktionsbereitstellungen wird dringend empfohlen, den Document Understanding-Prozess zu verwenden, der in UiPath® Studio im Abschnitt „Vorlagen“ zu finden ist.
Diese Schnellstart-Anleitung führt Sie mithilfe des Intelligent Form Extractor durch die Schritte, die zum Extrahieren von Informationen aus W-9-Formularen erforderlich sind. Die W-9-Formulare werden als Beispiel verwendet, aber das Verfahren ist bei anderen Dokumenttypen ähnlich, auf denen die Daten strukturiert sind.
Dies sind die Schritte, die für einen Beginn von Grund auf befolgt werden müssen:
- Einen leeren Prozess erstellen
- Die erforderlichen Aktivitätspakete installieren
- Taxonomie erstellen
- Das Dokument digitalisieren
- Extrahieren der Daten mit dem Intelligent Form Extractor
- Die Ergebnisse mithilfe der Validation Station validieren
- Extraktionsergebnisse exportieren
Sehen wir uns nun jeden Schritt im Detail an.
Starten Sie UiPath Studio.
Klicken Sie in der START-Backstage-Ansicht auf Prozess, um ein neues Projekt zu erstellen.
Das Fenster Neuer leerer Prozess wird angezeigt. Geben Sie in diesem Fenster einen Namen für das neue Projekt ein. Wenn Sie möchten, können Sie auch eine Beschreibung eingeben, um Ihre Projekte einfacher auffindbar zu machen.
Klicken Sie auf Erstellen. Das neue Projekt wird in Studio geöffnet.
Installieren Sie über die Schaltfläche Pakete verwalten im Menüband neben den standardmäßig zum Projekt hinzugefügten Kern-Aktivitätenpaketen (UiPath.Excel.Activities, UiPath.Mail.Activities, UiPath.System.Activities, UiPath.UIAutomation.Activities) die folgenden Aktivitätspakete:
Sobald Pakete installiert sind, listen Sie die erforderlichen Felder auf. Wir extrahieren Daten für die folgenden Felder:
- 1_Name –
Text
- 2_BusinessName –
Text
- 3a_Individual –
Boolean
- 3b_CCorp –
Boolean
- 3c_SCorp –
Boolean
- 3d_Partnership –
Boolean
- 3e_TrustEstate –
Boolean
- 3f_LLC –
Boolean
- 3f_LLCTaxClassification –
Boolean
- 3g_Other –
Boolean
- 3g_OtherDetail –
Boolean
- 5_Address –
Text
- 6_CityStateZip –
Text
- 7_AcctNumber –
Text
- TIN_SSN –
Text
- TIN_ETN –
Text
- Certification_Signature –
Boolean
- Certification_SignatureDate –
Date
Öffnen Sie den Taxonomiemanager und erstellen Sie eine Gruppe mit dem Namen Strukturierte Dokumente, eine Kategorie mit dem Namen Ausleihe-Formulare und einen Dokumenttyp namens W-9. Erstellen Sie die oben aufgeführten Felder mit benutzerfreundlichen Namen zusammen mit den jeweiligen Datentypen.
Fügen Sie in der Datei Main.xaml eine Load Taxonomy-Aktivität hinzu und erstellen Sie eine Variable für die Taxonomieausgabe.
Fügen Sie eine Digitize Document-Aktivität mit UiPath Document OCR hinzu. Geben Sie die Eingabeeigenschaft Document Path an und erstellen Sie Ausgabevariablen für Dokumenttext und Dokumentobjektmodell an.
Denken Sie daran, den API-Schlüssel von Document Understanding in der Aktivität „UiPath Document OCR“ hinzuzufügen.
Fügen Sie eine Data Extraction Scope-Aktivität hinzu und geben Sie die Eigenschaften ein.
Ziehen Sie den Intelligent Form Extractor hinein und legen Sie ihn ab. Der Endpunkt muss automatisch mit dem Intelligent Form Extractor-Endpunkt ausgefüllt werden, nämlich https://du.uipath.com/svc/intelligentforms. Geben Sie den API-Schlüssel von Document Understanding an.
Um eine neue Vorlage zu erstellen, klicken Sie auf Vorlagen verwalten > Vorlage erstellen. Ein Popup-Fenster wird geöffnet.
Wählen Sie unter Dokumenttyp den zuvor erstellten Dokumenttyp „W-9“ aus.
Geben Sie unter Dokumentname einen Namen für Ihre Vorlage ein.
Fügen Sie unter Vorlagendokument (wenn möglich native PDF) ein Vorlagendokument an, in dem Sie die Feldpositionen zuordnen möchten.
Wählen Sie unter OCR-Modul erneut die UiPath Document OCR aus. Wie zuvor sollte der Endpunkt automatisch ausgefüllt werden, nämlich „https://du.uipath.com/ocr“. Sie müssen nur den API-Schlüssel angeben.
Klicken Sie auf Konfigurieren, um zum nächsten Schritt zu wechseln. Das Popup-Fenster Vorlagenmanager wird geöffnet.
Hier wählen wir die Bereiche aus, in denen der Intelligent Form Extractor nach unseren Feldern suchen soll. Konfigurieren Sie sie, indem Sie die hier beschriebenen Schritte ausführen. Sie haben auch die Möglichkeit, Anker für Ihre Felder zu verwenden. Weitere Informationen zu Ankern finden Sie hier.
Am Ende sollte es ungefähr so aussehen:
Klicken Sie auf Speichern. Auf dieser Anzeige können Sie ggf. die handschriftlichen Felder zw. Unterschriftsfelder definieren. Sie können auch Synonyme für boolesche Felder definieren. Schließen Sie das Fenster, sobald Sie fertig sind.
Als Nächstes konfigurieren wir den Extraktor, sodass der Intelligent Form Extractor alle Dokumente vom Typ W-9 verarbeitet.
Um die Ergebnisse über die Validation Station zu überprüfen, verschieben Sie die Aktivität Present Validation Station durch Ziehen und Ablegen und geben Sie die Eingabedetails an.
DataSet
ausgegeben, das mehrere Tabellen enthält, die dann in eine Excel-Datei geschrieben oder direkt in einem nachgelagerten Prozess verwendet werden können.
Laden Sie das Beispielprojekt unter diesem Link herunter, um das W-9 mit dem Intelligent Form Extractor-Workflow auszuführen.
- 1. Einen leeren Prozess erstellen
- 2. Die erforderlichen Aktivitätspakete installieren
- 3. Taxonomie erstellen
- 4. Das Dokument digitalisieren
- 5. Extrahieren der Daten mit dem Intelligent Form Extractor
- 6. Die Ergebnisse mithilfe der Validation Station validieren
- 7. Die Extraktionsergebnisse exportieren
- Beispiel herunterladen