Abonnieren

UiPath Document Understanding

UiPath Document Understanding

OCR-Dienste

Über OCR-Dienste

OCR Engines werden für die folgenden Zwecke verwendet:

  • Zur Datenbeschriftungszeit beim Importieren von Dokumenten in den Data Manager. Die für diesen Schritt verfügbaren Engines sind UiPath Document OCR, Google Cloud Vision OCR und Microsoft Read OCR.
  • Zur Laufzeit beim Aufrufen von Modellen aus RPA-Workflows. Die für diesen Schritt verfügbaren Engines sind alle in die UiPath-RPA-Plattform integrierte Engines, einschließlich der oben genannten, sowie Abbyy Finereader, Microsoft OCR (Legacy), Microsoft Project Oxford OCR und Tesseract.

In production, we recommend calling the OCR using the Digitize Document activity in your workflow and passing the Document Object Model as input to the activity calling the ML model. For this purpose, you need to use the Machine Learning Extractor activity (Official feed).

Für Testzwecke lässt sich die OCR auch gut direkt im AI Center konfigurieren (Fenster Einstellungen), aber für Produktionsbereitstellungen wird dies nicht empfohlen.

Anforderungen

Dieser Abschnitt beschreibt die Hardware- und Softwareanforderungen für die Installation von OCR Engines.

Hardwareanforderungen


Beteiligte Maschinen: VM in der Cloud/lokale/Laptop
Betriebssysteme: Windows (Windows 10)/Linux (Ubuntu/RedHat)
Rechenmodule: CPU/GPU
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU

CPU Cores

RAM (GB)

Video RAM (GB)

HDD (GB)

UiPath CPU

4

4

50

UiPath GPU

1

4

8

50

Softwareanforderungen


Linux-Betriebssystem

Wenn Sie das Produkt auf einer VM in der Cloud installieren, werden folgende Betriebssysteme unterstützt:

Software

Versions

Ubuntu

20.04 LTS
18.04 LTS
16.04 LTS

RHEL

7.x

Wenn Sie das Produkt auf einer Maschine in einem lokalen Rechenzentrum installieren, werden folgende Betriebssysteme unterstützt:

Software

Versions

Ubuntu

20.04 LTS
18.04 LTS
16.04 LTS

RHEL

7.x

Windows-Betriebssystem

See the official Docker website for the list of Windows operating systems supported.

Unter Windows erfordert Ihre Maschine aktivierte Virtualisierung. Wir empfehlen dringend, dies nur auf physischen Maschinen wie Laptops oder Desktop Workstations zu tun. Wir unterstützen keine Ausführung auf Docker unter Windows in virtuellen Maschinen (Cloud oder Rechenzentrum) mit geschachtelter Virtualisierung.

Browser

Software

Versions

Google Chrome

50+

Netzwerkkonfiguration


Data Manager needs access to OCR engine <IP>:<port_number>. OCR engine might be UiPath Document OCR on-premises, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read on-premises.

Robots need access to OCR <IP>:<port_number>. Same OCR options as above.

OCR Engines benötigen Zugriff auf den Lizenzierungsserver, der von UiPath in Azure auf Port 443 gehostet wird.

Minimale Test- oder Proof-of-Concept-Konfiguration


Wenn Sie nur vorgefertigte, einsatzbereite Modelle verwenden möchten, können Sie eine OCR Engine auf Ihrem Windows 10-Laptop ausführen. Stellen Sie sicher, dass Docker Desktop über 8G RAM verfügt.

Wenn Sie ein benutzerdefiniertes Modell versuchshalber als Demo für ein kleines Datenvolumen (unter 100 Dokumente) trainieren möchten, können Sie die OCR Engine in einer Umgebung mit einem Limit von 4 GB RAM ausführen. In kleinen Fällen wie diesem ist möglicherweise keine GPU für das OCR-Modul erforderlich.

Voraussetzungen

OCR-Modul sind Containeranwendungen, die über dem Docker ausgeführt werden. Sie sind nicht auf derselben Maschine ausführbar wie das lokale AI Center. Anhand dieser vorausgesetzten Befehle des Installationsprogramms können sie auf einer separaten Maschine ausgeführt und Docker- und Nvidia-Treiber (optional) eingerichtet werden. Diese Skripte sollten nicht auf der Maschine ausgeführt werden, auf der AI Center installiert wird.

🚧

Warnung:

Docker-Bilder können viele GB groß sein. Docker verwendet unter Linux zum Speichern seiner Dateien einen Ordner, der sich daher auf einer ausreichend großen Partition befinden muss, damit der Speicherplatz reicht. Standardmäßig befindet sie sich immer auf der Stammpartition.

To see how large your root partition is, type the following in the terminal, and look for the line with a / in the rightmost column:

df -h

If the size of that partition is smaller than the minimal storage requirements, then see the Configuring the Docker Data Folder section.

Installieren von Docker


Linux

Follow instructions in the official Docker documentation, or run this command:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu

If this command fails, then you have an incompatible Linux operating system and you need to request your IT to install Docker on the machine following the instructions in the official Docker documentation.

Azure VMs

Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure

Windows 10

Download and install Docker Desktop. On recently updated versions of Windows 10, you will need WSL2 installed. So when presented with a dialog saying "WSL 2 Installation is Incomplete" please click the Restart button.

When running Data Manager you need to create a working folder for each Docker container (perhaps named workdir for Data Manager) and include the path to it in the docker run command, after the -v flag. When doing this on Windows, Docker Desktop will pop up a notification like the one below. You need to click on Share it to proceed.

542542

Konfigurieren des Docker-Datenordners (nur Linux)


Geben Sie den Pfad zu dem Ordner ein, in den Docker seine Dateien aufnehmen soll, führen Sie dann diesen Befehl aus, und starten Sie dann neu:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>

Kurzübersicht Docker


Docker hilft, Software in Docker images zu versenden. Eine laufende Instanz eines Bilds wird als Container bezeichnet. Ein Container kann so oft wie nötig angehalten, entfernt, erneut gestartet werden, sofern das Bild verfügbar ist.

Sobald das Bild entfernt wurde, geht er verloren. Wiederherstellen lässt er sich nur noch aus der ursprünglichen Registrierung, wenn er dort noch verfügbar ist.

A running container is analogous to a small Virtual Machine, in that it has an internal filesystem and network interfaces, which are separate from the host machine filesystem and network. Folders and ports can be mapped from the container to the host using –v and –p arguments, respectively.

In der folgenden Tabelle finden Sie eine Liste der gängigen Befehle für die Docker-Befehlszeile.
Click here for the full list of base Docker commands.

Command

Description

"docker login <registry name> -u <username> -p <password>"

Log in to a registry.

"docker pull <registry name>/<image name>:<image tag>"

Download an image from a registry. The tag latest is commonly used to refer to the latest version of an image.

"`docker run –d -p 5000:80 /:

OR

docker run –d –p 5000:80
`"

Run an image in detached mode, while mapping port 80 from inside the container to port 5000 on the host machine, and to . Detached mode means the container does not block the terminal, so you can perform other operations on the same terminal.

"docker images"

List images present on your system.

"docker ps –a"

List all containers (both running and stopped).
The container id is used to refer to that container when one needs to stop it or remove it, for instance.

"docker stop <container id>"

Stop the container
This command does not remove the container, but is required in advance to removing it.

"docker rm <container id>"

Remove the container
The container must be stopped beforehand.

"docker logs <container id>"

Display the logs of the container.

"docker rmi <image id>"

Remove one or more images from the system.
This helps save storage space as images can take up a lot of space.

"Docker container prune -f"

Remove all stopped containers

Kurzübersicht Linux Terminal


Command

Description

"sudo <any_command>"

Run a command as administrator. Try this whenever you get a Permission Denied error.

"ifconfig"

Display information about the network interfaces in your system. Find the IP of your machine in the eth0 or docker0 sections.

"pwd"

Display the path to the current folder.

"ls"

List the content of a directory.

"cd <folder_name>"

Go to a different folder.

"mkdir <folder_name>"

Create a new folder.

GPU-Maschineninstallation (optional)


Linux

Run this command:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

On some systems running the command twice or a system reboot might be required to install all requirements.
Azure Specific: To use the NV-series virtual machines you need to either install the NVIDIA driver before executing the above command, or you can use a Driver Extension from Azure to install the necessary NVIDIA driver according to that tier GPU model.

Azure VMs

Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Installation

UiPath Document OCR


UiPath Document OCR ist eine proprietäre OCR Technologie von UiPath, die Zeichen folgender Skriptsprachen mit lateinischer Schrift unterstützt: Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch und Spanisch. Text in anderen Sprachen wird erkannt, aber ohne Akzente, z. B. wird „Ł“ auf Polnisch als „L“ erkannt. Mit UiPath Document OCR verarbeitete Seiten werden nicht zu dem Seitenkontingent gezählt, das zusammen mit der Lizenz für Document Understanding Enterprise erworben wurde, sodass UiPath OCR frei verwenden kann.

UiPath Document OCR kann auf folgende Art bereitgestellt werden:

  • cloud public URLs - more details on the Public Endpoints page
  • lokale Installation (einschließlich air-gapped) mit dem Aktivitätspaket UiPath.DocumentUnderstanding.OCR.LocalServer (erfordert keinen Internetzugang)
  • lokaler Container für reguläre eigenständige Docker (erfordert Internetzugang)
  • lokaler Container für eigenständige Docker (air-gapped) (erfordert keinen Internetzugang)
  • lokal als ML-Fähigkeit in der regulären Installation des AI Centers (erfordert Internetzugang)
  • lokal als ML-Fähigkeit in der Bereitstellung des AI Centers (air-gapped) (erfordert keinen Internetzugang)
  1. Führen Sie folgende Befehle aus, um UiPath Document OCR als eigenständigen Docker-Container zu installieren:
docker login aiflprodweacr.azurecr.io -u *** -p **
docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
  1. Mithilfe von CPUs ausführen
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  1. Mit GPU ausführen
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  1. Im AI Center befindet sich beim Erstellen eines neuen ML-Pakets unten auf dem Bildschirm der optionale OCR Konfigurationsabschnitt, in dem Sie den serverseitigen OCR Engine-Typ, die OCR URL und den OCR-Schlüssel definieren können. Der OCR-Schlüssel ist der API-Schlüssel, den Sie im Abschnitt „Lizenzen“ Ihres Automation Cloud-Kontos erhalten. Dies ist die OCR-Konfiguration, die von der Aktivität „Machine Learning Extractor“ verwendet wird, wenn Sie das Kontrollkästchen „UseServerSideOCR“ aktivieren. Dieses Feld ist standardmäßig deaktiviert, und in diesem Fall verwendet der Extraktor die OCR in der Aktivität „Digitize Document“.

🚧

Auf derselben Maschine wie AI Fabric ausführen

Der Container „UiPath Document OCR“ kann nicht auf derselben Maschine ausgeführt werden wie das lokale AI Center.

Google Cloud OCR


The endpoint can be obtained from the Google Cloud Platform documentation. The ApiKey can be obtained from your Google Cloud Platform Console if you have a Google Cloud Vision service in your subscription.

Microsoft Read


🚧

Warning

Gilt sowohl für Azure- als auch für lokale Containerendpunkte.

Bei Azure-Diensten müssen Sie sowohl den Endpunkt als auch den ApiKey angeben.

Bei lokalen Containerendpunkten ist kein API-Schlüssel erforderlich.

Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center

The table below shows how to configure the six supported OCR engine types in both Data Manager and AI Center.

OCR Engine

OCR Method

OCR Key

OCR URL

UiPath

UiPath Document OCR

UiPath Automation Cloud
Document Understanding API Key
Enterprise Plan

http://<IP_addr>:<port_number>

Google

Google Cloud Vision OCR

GCP Console API Key

https://vision.googleapis.com/v1/images:annotate

Microsoft Read 2.0 On-Prem

Microsoft Read OCR

None

http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze

Microsoft Read 2.0 Azure

Microsoft Read OCR

API Key for your resource from Azure Portal

<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze

Microsoft Read 3.2 On-Prem

Microsoft Read OCR

None

http://<IP_addr>:<port_number>/vision/v3.2/read/analyze

Microsoft Read 3.2 Azure

Microsoft Read OCR

API Key for your resource from Azure Portal

<Azure_resource_Endpoint>/vision/v3.2/read/analyze

Aktualisiert vor 5 Monaten


OCR-Dienste


Auf API-Referenzseiten sind Änderungsvorschläge beschränkt

Sie können nur Änderungen an dem Textkörperinhalt von Markdown, aber nicht an der API-Spezifikation vorschlagen.