Document Understanding

document-understanding

2020.10

false

Document Understanding-Benutzerhandbuch.

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

OCR-Dienste

Über OCR-Dienste

OCR Engines werden für die folgenden Zwecke verwendet:

Zur Datenbeschriftungszeit beim Importieren von Dokumenten in den Data Manager. Die für diesen Schritt verfügbaren Dienste sind UiPath Document OCR (kostenlos in der Cloud oder lokal), Google Cloud OCR (nur Cloud), Microsoft Read OCR (Cloud oder lokal) und Omnipage (nur lokal).
Zur Laufzeit beim Aufrufen von Modellen aus RPA-Workflows. Die für diesen Schritt verfügbaren Dienste sind alles OCR Engines, die in die UiPath RPA-Plattform integriert sind, einschließlich der oben genannten, sowie Abbyy Finereader, Microsoft OCR (Legacy), Microsoft Project Oxford OCR und Tesseract.

In der Produktion empfehlen wir, die OCR mit der Aktivität Digitize Document in Ihrem Workflow aufzurufen und das Dokumentobjektmodell als Eingabe an die Aktivität zu übergeben, die das ML-Modell aufruft. Dazu müssen Sie die Aktivität Machine Learning Extractor (Offizieller Feed) verwenden.

Für Testzwecke lässt sich die OCR auch gut direkt im AI Center konfigurieren (Fenster Einstellungen), aber für Produktionsbereitstellungen wird dies nicht empfohlen.

Lokale Bereitstellungen

UiPath Document OCR lässt sich auf drei Arten bereitstellen:

Auf dem Robot, der ein Aktivitätspaket von LocalServer und das Paket UiPath.OCR.Activities Version 3.1.0-preview oder höher verwendet - erfordert keinen Internetzugang und keine zusätzliche Hardware, aber die Robotermaschine benötigt eine CPU mit AVX2-Unterstützung.
- Dies sollte Ihre Standardoption sein. Für größere Volumen können Sie weitere Robots hinzufügen.
Eigenständiger Docker-Container, der auf der Linux-GPU-Maschine ausgeführt wird (siehe unten – empfohlen für Volumen über 1 Mio. Seiten/Jahr) – Erfordert Internetzugang für die Lizenzierung/Messung
- Dies sollte Ihre Standardoption für große Volumen von 2-3 Millionen Seiten pro Jahr sein.
Eigenständiger Docker-Container, der auf der Linux-CPU-Maschine ausgeführt wird (siehe unten) – Erfordert Internetzugang für die Lizenzierung/Messung
- Nur in seltenen Situationen, in denen Ihre Robotermaschinen auf CPUs ohne AVX2-Unterstützung laufen oder keine GPU abgerufen werden kann.
ML-Fähigkeit in AI Center (siehe Abschnitt „ML-Pakete“) (GPU wird dringend empfohlen) – Erfordert keinen lokalen Internetzugang bei AI Center-Installation mit Air Gap

Anforderungen

Dieser Abschnitt beschreibt die Hardware- und Softwareanforderungen für die Installation von OCR Engines.

Hardwareanforderungen

Beteiligte Maschinen: VM in der Cloud oder On-Prem Box oder Laptop
Betriebssysteme: Windows (Windows 10) oder Linux (Ubuntu/CentOS/RedHat)
Rechenmodule: CPU oder GPU
OCR: UiPath Dokument OCR CPU oder UiPath OCR GPU oder OmniPage OCR CPU

	CPU-Cores	RAM (GB)	Video-RAM (GB)	HDD (GB)
UiPath CPU	8	8		50
UiPath GPU	1	4	8	50
OmniPage CPU	1	2		30

Softwareanforderungen

Die Softwareanforderungen für OCR-Module sind die gleichen wie für Data Manager.

Netzwerkkonfiguration

Data Manager benötigt Zugriff auf das OCR-Modul <IP>:<port_number>. Mögliches OCR-Modul: UiPath Document OCR (lokal), Omnipage OCR (lokal), Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read (lokal).

Roboter benötigen Zugriff auf OCR <IP>:<port_number>. Die gleichen OCR-Optionen wie oben, mit Ausnahme von Omnipage, das in den Robotern direkt als Aktivitätspack verfügbar ist.

OCR Engines benötigen Zugriff auf den Lizenzierungsserver, der von UiPath in Azure auf Port 443 gehostet wird.

Minimale Test- oder Proof-of-Concept-Konfiguration

Wenn Sie nur vorgefertigte, einsatzbereite Modelle verwenden möchten, können Sie eine OCR Engine auf Ihrem Windows 10-Laptop ausführen. Stellen Sie sicher, dass Docker Desktop über 8G RAM verfügt.

Wenn Sie ein benutzerdefiniertes Modell versuchshalber als Demo für ein kleines Datenvolumen (unter 100 Dokumente) trainieren möchten, können Sie die OCR Engine in einer Umgebung mit einem Limit von 4 GB RAM ausführen. In kleinen Fällen wie diesem ist möglicherweise keine GPU für das OCR-Modul erforderlich.

Voraussetzungen

OCR-Modul sind Containeranwendungen, die über dem Docker ausgeführt werden. Sie sind nicht auf derselben Maschine ausführbar wie das lokale AI Center. Anhand dieser vorausgesetzten Befehle des Installationsprogramms können sie auf einer separaten Maschine ausgeführt und Docker- und Nvidia-Treiber (optional) eingerichtet werden. Diese Skripte sollten nicht auf der Maschine ausgeführt werden, auf der AI Center installiert wird.

Die Voraussetzungen für OCR-Module sind die gleichen wie für Data Manager.

GPU-Maschineninstallation (optional)

Linux

Führen Sie diesen Befehl aus:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Auf einigen Systemen muss der Befehl zweimal ausgeführt oder das System möglicherweise neu gestartet werden, um alle Anforderungen zu installieren.

Azure-spezifisch: Für den Einsatz virtueller Maschinen der NV-Serie müssen Sie den NVIDIA-Treiber installieren, bevor Sie den obigen Befehl ausführen. Oder Sie können auch eine Treibererweiterung von Azure verwenden, um den erforderlichen NVIDIA-Treiber passend zu dieser Stufe des GPU-Modells zu installieren.

Azure VMs

Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Installation

UiPath Document OCR (Vorschau)

UiPath Document OCR ist eine proprietäre OCR Technologie von UiPath, die Zeichen folgender Skriptsprachen mit lateinischer Schrift unterstützt: Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch und Spanisch. Text in anderen Sprachen wird erkannt, aber ohne Akzente, z. B. wird „Ł“ auf Polnisch als „L“ erkannt. Mit UiPath Document OCR verarbeitete Seiten werden nicht zu dem Seitenkontingent gezählt, das zusammen mit der Lizenz für Document Understanding Enterprise erworben wurde, sodass UiPath OCR frei verwenden kann.

UiPath Document OCR ist sowohl lokal als Docker-Container als auch in der Cloud als Clouddienst-API mit der folgenden URL verfügbar: https://du.uipath.com/ocr. Die vollständige Beschreibung der verfügbaren URLs finden Sie auf der Seite über Öffentliche Endpunkte.

Führen Sie die folgenden Befehle aus, um UiPath Document OCR zu installieren:

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

Mithilfe von CPUs ausführen

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Mit GPU ausführen

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Im AI Center befindet sich beim Erstellen eines neuen ML-Pakets unten auf dem Bildschirm der OCR Konfigurationsabschnitt, in dem Sie den OCR Engine-Typ, die OCR URL und den OCR-Schlüssel definieren können. Der OCR-Schlüssel ist der API-Schlüssel, den Sie im Abschnitt „Lizenzen“ Ihres Automation Cloud-Kontos erhalten.

Wichtig: Die Container „UiPath Document OCR“ und „Omnipage OCR“ können nicht auf derselben Maschine ausgeführt werden wie das lokale AI Center.

OmniPage OCR

Der Container „Omnipage Docker“ ist nur mit Data Manager zum Importieren von Dokumenten in Sprachen gedacht, die UiPath Document OCR noch nicht unterstützt.

Führen Sie diese Befehle aus:

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Google Cloud OCR

Der Endpunkt ist in der Dokumentation der Google Cloud Platform verfügbar. Der APISchlüssel kann mit der Google Cloud Platform Console abgerufen werden, wenn Sie einen Google Cloud Vision-Dienst abonniert haben.

Microsoft Read

Wichtig: Gilt sowohl für Azure- als auch für lokale Containerendpunkte.

Bei Azure-Diensten müssen Sie sowohl den Endpunkt als auch den ApiKey angeben.

Bei lokalen Containerendpunkten ist kein API-Schlüssel erforderlich.

Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center

Die folgende Tabelle zeigt, wie die sechs unterstützten OCR-Modultypen in Data Manager und AI Center konfiguriert werden.

Wichtig: Im AI Center entspricht das ocr.method-Argument dem Dropdownmenü „OCR-Modul“ in der Ansicht zur ML-Paketerstellung.

OCR-Modul	ocr.method	ocr.key	ocr.url
UiPath	UiPath	UiPath Automation Cloud API-Schlüssel „Document Understanding“ Enterprise-Plan	`http://<IP_addr>:<port_number>`
OmniPage	omnipage	UiPath Automation Cloud API-Schlüssel „Document Understanding“ Enterprise-Plan	`http://<IP_addr>:<port_number>`
Google	Google	API-Schlüssel der GCP-Konsole	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft	Keine	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft	API-Schlüssel für Ihre Ressource im Azure Portal	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.1 On-Prem	Microsoft	Keine	`http://<IP_addr>:<port_number>/vision/v3.1/read/analyze`
Microsoft Read 3.1 Azure	Microsoft	API-Schlüssel für Ihre Ressource im Azure Portal	`<Azure_resource_Endpoint>/vision/v3.1/read/analyze`

Auf dieser Seite

Über OCR-Dienste
Lokale Bereitstellungen
Anforderungen
Hardwareanforderungen
Softwareanforderungen
Netzwerkkonfiguration
Minimale Test- oder Proof-of-Concept-Konfiguration
Voraussetzungen
GPU-Maschineninstallation (optional)
Installation
UiPath Document OCR (Vorschau)
OmniPage OCR
Google Cloud OCR
Microsoft Read
Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center

War diese Seite hilfreich?

Vorherige (previous)Kontrollkästchen und Signaturen

WeiterÖffentliche Endpunkte