document-understanding

2021.10

false

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Kein Support

Document Understanding-Benutzerhandbuch.

BEREITSTELLUNG:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Letzte Aktualisierung 4. Feb. 2025

OCR-Dienste

Über OCR-Dienste

OCR Engines werden für die folgenden Zwecke verwendet:

Zur Datenbeschriftungszeit beim Importieren von Dokumenten in den Data Manager. Die für diesen Schritt verfügbaren Engines sind UiPath Document OCR, Google Cloud Vision OCR und Microsoft Read OCR.
Zur Laufzeit beim Aufrufen von Modellen aus RPA-Workflows. Die für diesen Schritt verfügbaren Engines sind alle in die UiPath-RPA-Plattform integrierte Engines, einschließlich der oben genannten, sowie Abbyy Finereader, Microsoft OCR (Legacy), Microsoft Project Oxford OCR und Tesseract.

In der Produktion empfehlen wir, die OCR mit der Aktivität Digitize Document in Ihrem Workflow aufzurufen und das Dokumentobjektmodell als Eingabe an die Aktivität zu übergeben, die das ML-Modell aufruft. Dazu müssen Sie die Aktivität Machine Learning Extractor (Offizieller Feed) verwenden.

Für Testzwecke lässt sich die OCR auch gut direkt im AI Center konfigurieren (Fenster Einstellungen), aber für Produktionsbereitstellungen wird dies nicht empfohlen.

Anforderungen

Dieser Abschnitt beschreibt die Hardware- und Softwareanforderungen für die Installation von OCR Engines.

Hardwareanforderungen

Beteiligte Maschinen: VM in der Cloud/lokale/Laptop
Betriebssysteme: Windows (Windows 10)/Linux (Ubuntu/RedHat)
Rechenmodule: CPU/GPU
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU

	CPU-Cores	RAM (GB)	Video-RAM (GB)	HDD (GB)
UiPath CPU	4	4		50
UiPath GPU	1	4	8	50

Softwareanforderungen

Linux-Betriebssystem

Wenn Sie das Produkt auf einer VM in der Cloud installieren, werden folgende Betriebssysteme unterstützt:

Software	Versionen
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Wenn Sie das Produkt auf einer Maschine in einem lokalen Rechenzentrum installieren, werden folgende Betriebssysteme unterstützt:

Software	Versionen
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Windows-Betriebssystem

Die Liste der unterstützten Windows-Betriebssysteme finden Sie auf der offiziellen Docker-Website.

Unter Windows erfordert Ihre Maschine aktivierte Virtualisierung. Wir empfehlen dringend, dies nur auf physischen Maschinen wie Laptops oder Desktop Workstations zu tun. Wir unterstützen keine Ausführung auf Docker unter Windows in virtuellen Maschinen (Cloud oder Rechenzentrum) mit geschachtelter Virtualisierung.

Browser

Software	Versionen
Google Chrome	50+

Netzwerkkonfiguration

Data Manager benötigt Zugriff auf das OCR-Modul <IP>:<port_number>. Mögliches OCR-Modul: UiPath Document OCR (lokal), Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read (lokal).
Roboter benötigen Zugriff auf OCR <IP>:<port_number>. Die gleichen OCR-Optionen wie oben.
OCR Engines benötigen Zugriff auf den Lizenzierungsserver, der von UiPath in Azure auf Port 443 gehostet wird.

Minimale Test- oder Proof-of-Concept-Konfiguration

Wenn Sie nur vorgefertigte, einsatzbereite Modelle verwenden möchten, können Sie eine OCR Engine auf Ihrem Windows 10-Laptop ausführen. Stellen Sie sicher, dass Docker Desktop über 8G RAM verfügt.

Wenn Sie ein benutzerdefiniertes Modell versuchshalber als Demo für ein kleines Datenvolumen (unter 100 Dokumente) trainieren möchten, können Sie die OCR Engine in einer Umgebung mit einem Limit von 4 GB RAM ausführen. In kleinen Fällen wie diesem ist möglicherweise keine GPU für das OCR-Modul erforderlich.

Voraussetzungen

OCR-Modul sind Containeranwendungen, die über dem Docker ausgeführt werden. Sie sind nicht auf derselben Maschine ausführbar wie das lokale AI Center. Anhand dieser vorausgesetzten Befehle des Installationsprogramms können sie auf einer separaten Maschine ausgeführt und Docker- und Nvidia-Treiber (optional) eingerichtet werden. Diese Skripte sollten nicht auf der Maschine ausgeführt werden, auf der AI Center installiert wird.

Wichtig: Docker-Images können viele GB groß sein, deshalb muss Docker unter Linux einen Ordner zum Speichern seiner Dateien verwenden, der sich auf einer ausreichend großen Partition befindet, damit der Speicherplatz nicht ausgeht. Standardmäßig befindet er sich immer auf der Stammpartition.

Um zu sehen, wie groß Ihre Stammpartition ist, geben Sie Folgendes in das Terminal ein und suchen Sie nach der Zeile mit einem / in der Spalte ganz rechts:

df -hdf -h

Wenn die Partition kleiner als die minimalen Speicheranforderungen ist, sehen Sie im Abschnitt Konfigurieren des Docker-Datenordners nach.

Installieren von Docker

Linux

Folgen Sie den Anweisungen in der offiziellen Docker-Dokumentation, oder führen Sie diesen Befehl aus:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu

Wenn dieser Befehl fehlschlägt, haben Sie ein inkompatibles Linux-Betriebssystem, und Sie müssen Ihre IT auffordern, Docker auf der Maschine zu installieren, indem Sie den Anweisungen in der offiziellen Docker-Dokumentation folgen.

Azure VMs

Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure

Windows 10

Laden Sie Docker Desktop herunter und installieren Sie es. Bei kürzlich aktualisierten Versionen von Windows 10 muss WSL2 installiert sein. Wenn also das Dialogfeld „WSL 2-Installation ist unvollständig“ angezeigt wird, klicken Sie auf die Schaltfläche „Neu starten“.

Wenn Sie den Data Manager ausführen, müssen Sie für jeden Docker-Container einen Arbeitsordner erstellen (möglicherweise mit dem Namen workdir beim Data Manager) und den Pfad dazu in den Docker-Ausführungsbefehl nach dem Flag -v aufnehmen. Unter Windows öffnet Docker Desktop dabei eine Benachrichtigung wie die untenstehende. Sie müssen auf Freigeben klicken, um fortzufahren.

Konfigurieren des Docker-Datenordners (nur Linux)

Geben Sie den Pfad zu dem Ordner ein, in den Docker seine Dateien aufnehmen soll, führen Sie dann diesen Befehl aus, und starten Sie dann neu:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>

Kurzübersicht Docker

Docker hilft, Software in Docker images zu versenden. Eine laufende Instanz eines Bilds wird als Container bezeichnet. Ein Container kann so oft wie nötig angehalten, entfernt, erneut gestartet werden, sofern das Bild verfügbar ist.

Sobald das Bild entfernt wurde, geht er verloren. Wiederherstellen lässt er sich nur noch aus der ursprünglichen Registrierung, wenn er dort noch verfügbar ist.

Ein ausgeführter Container ähnelt einer kleinen virtuellen Maschine, da er über ein internes Dateisystem und Netzwerkschnittstellen verfügt, die vom Dateisystem und Netzwerk der Hostmaschine getrennt sind. Ordner und Ports können dem Host vom Container mithilfe der Argumente –v und –p zugeordnet werden.

In der folgenden Tabelle finden Sie eine Liste der gängigen Befehle für die Docker-Befehlszeile.

Klicken Sie hier, um die vollständige Liste der grundlegenden Docker-Befehle zu sehen.

Befehl	Beschreibung
`docker login <registry name> -u <username> -p <password>`	Melden Sie sich bei einer Registrierung an.
`docker pull <registry name>/<image name>:<image tag>`	Laden Sie ein Bild aus einer Registrierung herunter. Anhand des neuesten Tag wird häufig auf die neueste Version eines Bilds verwiesen.
`docker run –d -p 5000:80 <registry name>/<image name>:<image tag>` ODER `docker run –d –p 5000:80 <image id>`	Ausführen eines Images im getrennten Modus, während Port 80 im Container dem Port 5000 auf der Hostmaschine und <container folder> dem <host folder> zugeordnet wird. „Getrennter Modus“ bedeutet, dass der Container das Terminal nicht blockiert, sodass Sie andere Vorgänge auf demselben Terminal ausführen können.
`docker images`	Listen Sie die auf Ihrem System vorhandenen Bilder auf.
`docker ps –a`	Listen Sie alle Container auf (sowohl ausgeführte als auch angehaltene). Anhand der Container-ID wird auf den Container verwiesen, wenn er z. B. angehalten oder entfernt werden muss.
`docker stop <container id>`	Container anhalten Dieser Befehl entfernt den Container nicht, ist aber vor dem Entfernen erforderlich.
„`docker rm <container id>`“	Container entfernen Der Container muss zuvor angehalten werden.
`docker logs <container id>`	Display the logs (des Containers)
`docker rmi <image id>`	Entfernen Sie ein oder mehrere Bilder aus dem System. Dies hilft, Speicherplatz zu sparen, da Bilder viel Platz einnehmen können.
`Docker container prune -f`	Entfernen Sie alle gestoppten Container

Kurzübersicht Linux Terminal

Befehl	Beschreibung
`sudo <any_command>`	Führen Sie einen Befehl als Administrator aus. Versuchen Sie es immer dann, wenn Sie einen Fehler Berechtigung verweigert erhalten.
`ifconfig`	Zeigen Sie Informationen zu den Netzwerkschnittstellen im System an. Suchen Sie die IP Ihrer Maschine in den Abschnitten eth0 oder docker0.
`pwd`	Zeigen Sie den Pfad zum aktuellen Ordner an.
`ls`	Listen Sie den Inhalt eines Verzeichnisses auf.
`cd <folder_name>`	Wechseln Sie zu einem anderen Ordner.
`mkdir <folder_name>`	Erstellen Sie einen neuen Ordner.

GPU-Maschineninstallation (optional)

Linux

Führen Sie diesen Befehl aus:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Auf einigen Systemen muss der Befehl zweimal ausgeführt oder das System möglicherweise neu gestartet werden, um alle Anforderungen zu installieren.

Azure-spezifisch: Für den Einsatz virtueller Maschinen der NV-Serie müssen Sie den NVIDIA-Treiber installieren, bevor Sie den obigen Befehl ausführen. Oder Sie können auch eine Treibererweiterung von Azure verwenden, um den erforderlichen NVIDIA-Treiber passend zu dieser Stufe des GPU-Modells zu installieren.

Azure VMs

Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Installation

UiPath Document OCR

UiPath Document OCR ist eine proprietäre OCR Technologie von UiPath, die Zeichen folgender Skriptsprachen mit lateinischer Schrift unterstützt: Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch und Spanisch. Text in anderen Sprachen wird erkannt, aber ohne Akzente, z. B. wird „Ł“ auf Polnisch als „L“ erkannt. Mit UiPath Document OCR verarbeitete Seiten werden nicht zu dem Seitenkontingent gezählt, das zusammen mit der Lizenz für Document Understanding Enterprise erworben wurde, sodass UiPath OCR frei verwenden kann.

UiPath Document OCR kann auf folgende Art bereitgestellt werden:

Öffentliche Cloud-URLs – Weitere Details finden Sie auf der Seite Öffentliche Endpunkte.
lokale Installation (einschließlich air-gapped) mit dem Aktivitätspaket UiPath.DocumentUnderstanding.OCR.LocalServer (erfordert keinen Internetzugang)
lokaler Container für reguläre eigenständige Docker (erfordert Internetzugang)
lokaler Container für eigenständige Docker (air-gapped) (erfordert keinen Internetzugang)
lokal als ML-Fähigkeit in der regulären Installation des AI Centers (erfordert Internetzugang)
lokal als ML-Fähigkeit in der Bereitstellung des AI Centers (air-gapped) (erfordert keinen Internetzugang)

Führen Sie folgende Befehle aus, um UiPath Document OCR als eigenständigen Docker-Container zu installieren:

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

Mithilfe von CPUs ausführen

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Mit GPU ausführen

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Im AI Center befindet sich beim Erstellen eines neuen ML-Pakets unten auf dem Bildschirm der optionale OCR Konfigurationsabschnitt, in dem Sie den serverseitigen OCR Engine-Typ, die OCR URL und den OCR-Schlüssel definieren können. Der OCR-Schlüssel ist der API-Schlüssel, den Sie im Abschnitt „Lizenzen“ Ihres Automation Cloud-Kontos erhalten. Dies ist die OCR-Konfiguration, die von der Aktivität „Machine Learning Extractor“ verwendet wird, wenn Sie das Kontrollkästchen „UseServerSideOCR“ aktivieren. Dieses Feld ist standardmäßig deaktiviert, und in diesem Fall verwendet der Extraktor die OCR in der Aktivität „Digitize Document“.

Wichtig: Der Container „UiPath Document OCR“ kann nicht auf derselben Maschine ausgeführt werden wie das lokale AI Center.

Google Cloud OCR

Der Endpunkt ist in der Dokumentation der Google Cloud Platform verfügbar. Der APISchlüssel kann mit der Google Cloud Platform Console abgerufen werden, wenn Sie einen Google Cloud Vision-Dienst abonniert haben.

Microsoft Read

Wichtig: Gilt sowohl für Azure- als auch für lokale Containerendpunkte.

Bei Azure-Diensten müssen Sie sowohl den Endpunkt als auch den ApiKey angeben.

Bei lokalen Containerendpunkten ist kein API-Schlüssel erforderlich.

Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center

Die folgende Tabelle zeigt, wie die sechs unterstützten OCR-Modultypen in Data Manager und AI Center konfiguriert werden.

OCR-Modul	OCR-Methode	OCR-Schlüssel	OCR-URL
UiPath	UiPath Document OCR	UiPath Automation Cloud API-Schlüssel „Document Understanding“ Enterprise-Plan	`http://<IP_addr>:<port_number>`
Google	Google Cloud Vision OCR	API-Schlüssel der GCP-Konsole	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft Read OCR	Keine	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft Read OCR	API-Schlüssel für Ihre Ressource im Azure Portal	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.2 On-Prem	Microsoft Read OCR	Keine	`http://<IP_addr>:<port_number>/vision/v3.2/read/analyze`
Microsoft Read 3.2 Azure	Microsoft Read OCR	API-Schlüssel für Ihre Ressource im Azure Portal	`<Azure_resource_Endpoint>/vision/v3.2/read/analyze`