document-understanding
2024.10
true
UiPath logo, featuring letters U and I in white
Document Understanding Modern Projects User Guide
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 11. Nov. 2024

Grundlegende Funktionen

Um die Dokumentverarbeitung zu automatisieren, sind vier grundlegende Funktionen erforderlich: Digitalisierung, Klassifizierung, Extraktion und Validierung.

Abbildung 1. Grundlegende Funktionen

Digitalisierung

Bei der Digitalisierung wird ein physisches Dokument in maschinenlesbaren Text umgewandelt, der dann digital verarbeitet werden kann. Obwohl Optical Character Recognition (OCR) ein wichtiger Bestandteil der Digitalisierung ist, ist der Digitalisierungsprozess komplexer und umfasst verschiedene Schritte, einschließlich OCR.

Bei PDF-Dokumenten kann der Digitalisierungsalgorithmus beispielsweise zwischen gescannten und nativen PDF-Dokumenten oder hybriden PDF-Dokumenten unterscheiden, die gescannte Bilder und nativen Text enthalten. Der größte Teil des Texts kann direkt aus einem nativen PDF-Dokument extrahiert werden, aber in einigen Fällen müssen einige Logos möglicherweise mit OCR gelesen werden. Der Digitalisierungsprozess kann alle diese Situationen bewältigen, um maximale Genauigkeit bei der Texterkennung sicherzustellen und gleichzeitig schnell und effizient zu arbeiten.

Klassifizierung

Das Ziel einer Klassifizierung ist es, ein Dokument zu scannen und zu entscheiden, zu welchem Dokumenttyp es gehört. Es ist wichtig, den Dokumenttyp zu kennen, da unterschiedliche Dokumenttypen unterschiedliche Verarbeitungstechniken erfordern. Beispielsweise muss eine Rechnung von einem Rechnungsextraktionsmodell verarbeitet werden, um sicherzustellen, dass alle relevanten Felder extrahiert werden.

Abbildung 2. Dokumentklassifizierer docs image

Extraktion

Data extraction is the process of selecting and retrieving only the relevant information from a document. Extracting specific data from a lengthy document using string manipulation can be challenging. However, Document UnderstandingTM provides various extraction methodologies for different document types and formats. For example, we only want to extract the Vendor Name, Billing Name, Due Date, and Total fields from an invoice.

Abbildung 3. Datenextraktion

Validierung

Bei der Klassifizierung und Extraktion verwenden Softwareroboter das Konzept der Konfidenz, die den Grad der Sicherheit misst, dass eine bestimmte Aufgabe gut ausgeführt wurde. Die Aufgabe kann entweder das Erkennen eines Dokumenttyps, das Identifizieren eines Felds oder das Lesen der darin enthaltenen Daten sein. In diesen Fällen können Sie mit dem Document Understanding-Framework einen menschlichen Benutzer damit beauftragen, die Roboterausgabe zu überprüfen und zu validieren. Im besten Fall wird die menschliche Eingabe verwendet, um die Genauigkeit des Roboters durch Machine Learning zu trainieren.

  • Digitalisierung
  • Klassifizierung
  • Extraktion
  • Validierung

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten