- Überblick
- Über Document Understanding™
- Einleitung
- Grundlegende Funktionen
- Schlüsselkonzepte
- Erste Schritte
- Erstellen von Modellen
- Verbrauchen von Modellen
- ML-Pakete
- Öffentliche Endpunkte
- 1040 – Dokumententyp
- 1040 Formular C – Dokumententyp
- 1040 Formular D – Dokumententyp
- 1040 Formular E – Dokumententyp
- 1040x – Dokumententyp
- 3949a – Dokumententyp
- 4506T – Dokumententyp
- 709 – Dokumententyp
- 941x – Dokumententyp
- 9465 – Dokumententyp
- ACORD125 – Dokumententyp
- ACORD126 – Dokumententyp
- ACORD131 – Dokumententyp
- ACORD140 – Dokumententyp
- ACORD25 – Dokumententyp
- Kontoauszüge – Dokumententyp
- Frachtbrief – Dokumententyp
- Gründungsurkunde – Dokumententyp
- Ursprungszeugnis – Dokumententyp
- Überprüfungen – Dokumententyp
- Children Product Certificate – Dokumententyp
- CMS 1500 – Dokumententyp
- EU-Konformitätserklärung – Dokumententyp
- Finanzberichte – Dokumententyp
- FM1003 – Dokumententyp
- I9 – Dokumententyp
- Ausweise – Dokumententyp
- Rechnungen – Dokumententyp
- Rechnungen2 – Dokumententyp
- Rechnungen Australien – Dokumententyp
- Rechnungen China – Dokumententyp
- Rechnungen Hebräisch – Dokumententyp
- Rechnungen Indien – Dokumententyp
- Rechnungen Japan – Dokumententyp
- Rechnungen Versand – Dokumententyp
- Packlisten – Dokumententyp
- Gehaltsabrechnungen – Dokumententyp
- Reisepässe – Dokumententyp
- Bestellungen – Dokumententyp
- Zahlungsbelege – Dokumententyp
- Belege2 – Dokumententyp
- Zahlungsbelege Japan – Dokumententyp
- Zahlungsavis – Dokumententyp
- UB04 – Dokumententyp
- Angaben zum Abschluss von Hypotheken in den USA – Dokumententyp
- Betriebskostenabrechnungen – Dokumententyp
- Fahrzeugbrief – Dokumententyp
- W2 – Dokumententyp
- W9 – Dokumententyp
- Unterstützte Sprachen
- Daten und Sicherheit
- Lizenzierungs- und Gebührenlogik
- Anleitungen zu …
- Fehlersuche und ‑behebung

Document Understanding-Benutzerhandbuch.
Um die Dokumentverarbeitung zu automatisieren, sind vier grundlegende Funktionen erforderlich: Digitalisierung, Klassifizierung, Extraktion und Validierung.
Bei der Digitalisierung wird ein physisches Dokument in maschinenlesbaren Text umgewandelt, der dann digital verarbeitet werden kann. Obwohl Optical Character Recognition (OCR) ein wichtiger Bestandteil der Digitalisierung ist, ist der Digitalisierungsprozess komplexer und umfasst verschiedene Schritte, einschließlich OCR.
Bei PDF-Dokumenten kann der Digitalisierungsalgorithmus beispielsweise zwischen gescannten und nativen PDF-Dokumenten oder hybriden PDF-Dokumenten unterscheiden, die gescannte Bilder und nativen Text enthalten. Der größte Teil des Texts kann direkt aus einem nativen PDF-Dokument extrahiert werden, aber in einigen Fällen müssen einige Logos möglicherweise mit OCR gelesen werden. Der Digitalisierungsprozess kann alle diese Situationen bewältigen, um maximale Genauigkeit bei der Texterkennung sicherzustellen und gleichzeitig schnell und effizient zu arbeiten.
You can change the OCR used in your project from Project settings. For more information, check the Configure project settings page. You can check the available OCR engines and the supported languages from the Supported languages section of the user guide.
You can check the Known limitations page for more information on the supported files, image size limits, and more specifications.
In den meisten Anwendungsfällen müssen Dokumente in logische Kategorien sortiert werden, damit unterschiedliche Verarbeitungsmethoden auf sie angewendet werden können.
Das Ziel einer Klassifizierung ist es, ein Dokument zu scannen und zu entscheiden, zu welchem Dokumenttyp es gehört. Es ist wichtig, den Dokumenttyp zu kennen, da unterschiedliche Dokumenttypen unterschiedliche Verarbeitungstechniken erfordern. Beispielsweise muss eine Rechnung von einem Rechnungsextraktionsmodell verarbeitet werden, um sicherzustellen, dass alle relevanten Felder extrahiert werden.
Bei der Datenextraktion werden nur die relevanten Informationen aus einem Dokument ausgewählt und abgerufen. Das Extrahieren bestimmter Daten aus einem langen Dokument mithilfe der String-Manipulation kann schwierig sein. Document UnderstandingTM bietet jedoch verschiedene Extraktionsmethoden für unterschiedliche Dokumenttypen und -formate. Beispielsweise möchten wir nur die Felder „Anbietername“, „Abrechnungsname“, „Fälligkeitsdatum“ und „Gesamtbetrag aus einer Rechnung“ extrahieren.
Bei der Klassifizierung und Extraktion verwenden Softwareroboter das Konzept der Konfidenz, die den Grad der Sicherheit misst, dass eine bestimmte Aufgabe gut ausgeführt wurde. Die Aufgabe kann entweder das Erkennen eines Dokumenttyps, das Identifizieren eines Felds oder das Lesen der darin enthaltenen Daten sein. In diesen Fällen können Sie mit dem Document Understanding-Framework einen menschlichen Benutzer damit beauftragen, die Roboterausgabe zu überprüfen und zu validieren. Im besten Fall wird die menschliche Eingabe verwendet, um die Genauigkeit des Roboters durch Machine Learning zu trainieren.