UiPath Documentation
document-understanding
2024.10
false
Wichtig :
Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.
UiPath logo, featuring letters U and I in white

Document Understanding user guide

Letzte Aktualisierung 6. Apr. 2026

Digitalisierung – Übersicht

Was ist Digitalisierung

Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.

Der Digitalisierungsschritt hat zwei Ausgaben:

  • Den Text von der verarbeiteten Datei, der in einer String-Variablen gespeichert wird und
  • Das Dokumentobjektmodell dieser Datei – JSON-Objekt, das grundlegende Informationen wie Name, Inhaltstyp, Textlänge, Anzahl der Seiten sowie detaillierte Informationen wie Seitenrotation, erkannte Sprache, Inhalt und Koordinaten für jedes in der Datei identifizierte Wort enthält.

In the Document Processing Framework, digitization is performed using the Digitize Document activity.

Was Digitalisierung nicht ist

Der Digitalisierungsschritt hängt damit zusammen, ist aber keine OCR.

In vielen Fällen handelt es sich bei den Dateien, die verarbeitet werden müssen, um native PDF-Dateien (nicht gescannt), die vom Roboter programmgesteuert ohne OCR gelesen werden können.

Wann wird OCR in der Digitalisierung verwendet

The Digitize Document activity requires, as part of its configuration, the selection of an OCR engine - so that, at need, it can be used, but only executes OCR on:

  • Dateien, die Bilder sind
    • unterstützte Bildformate sind .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
    • bei mehrseitigen TIFF-Dateien wird OCR für jede Seite angewendet
  • PDF-Seiten, die
    • keine maschinenlesbaren Inhalte verfügbar machen
    • Bilder enthalten, die einen erheblichen Bereich der Seite abdecken.
Hinweis:

The following digitization limitations apply:

  • Die Dateigröße ist auf 160 MB begrenzt.
  • Es gibt einen Grenzwert von maximal 500 Seiten pro Dokument.

OCR is also applied, always, if the Digitize Document activity is configured with the ForceApplyOCR flag set to True. This option is usually recommended for use cases in which a significant percentage of files seem to contain native content, but the natively read content does not correspond to what a user can observe in those files.

Wie Sie Ihr OCR-Modul auswählen

As each use case has its own particularities, it is strongly recommended to test all available OCR Engines with different settings, in order to determine which one works best for your project. Another recommendation is to pay particular attention to the OCR engine arguments, such as Profile, Scale, Language etc. (may vary from one engine to another), so that you identify the best settings for each use case.

  • Was ist Digitalisierung
  • Was Digitalisierung nicht ist
  • Wann wird OCR in der Digitalisierung verwendet
  • Wie Sie Ihr OCR-Modul auswählen

War diese Seite hilfreich?

Verbinden

Benötigen Sie Hilfe? Support

Möchten Sie lernen? UiPath Academy

Haben Sie Fragen? UiPath-Forum

Auf dem neuesten Stand bleiben